• User Attivo

    Controllo robot

    Il codice qui sotto riportato mostra semplicemente due righe contenute nel file error.log di Apache.

    [Tue Oct 11 01:17:51 2005] [error] [client 66.249.66.8] File does not exist: /percorso/robots.txt
    [Tue Oct 11 12:52:16 2005] [error] [client 66.249.66.8] File does not exist: /percorso/robots.txt
    

    Il client 66.249.66.8 (che forse risulta essere un robot comandato da google) ha cercato il file robots.txt e giustamente non lo ha trovato perchè io non ce l'ho questo file.
    Indipendentemente se si vuole indicizzare oppure no il sito voi che pensate
    E' consigliabile averlo questo file?
    Ovviamente inserendo in esso le specifiche che noi desideriamo.


  • Super User

    SI. è consigliabile avere il file Robots.txt anche se vuoto per evitare che allo spider il server risponda con File not found

    🙂


  • Super User

    calma, lo spider sta cercando il robots.txt in una directory differente dalla documentroot.
    per quel che ne so io, il robots.txt va messo solo nella documentroot.

    quindi mi vengono in mente due possibilita':

    1. lo spider ha scazzato e basta
    2. quella directory e' la documentroot di un altro sito.

  • User Attivo

    Si il percorso non l'ho scritto per praticità ma comunque il robot lo ha cercato lì nella document root

    Mi chiedevo, nel caso di una scelta di NON indicizzazione, se è consigliabile avere un robots.txt (nella document root s'intende) di questo genere:

    
    User-Agent: *
    Disallow: /
    
    

    Oppure non averlo affatto il robots.txt


  • Super User

    il **robots.txt **serve ad indicare agli spider quali directory **NON visionare **ed eventualmente bloccare user agent indesiderati

    quindi se devi bloccare tutti gli spider il tuo codice va bene

    dalle F.a.Q:
    [url=http://www.giorgiotave.it/forum/viewtopic.php?p=15232#15232]robots.txt


  • Super User

    @linus said:

    Si il percorso non l'ho scritto per praticità ma comunque il robot lo ha cercato lì nella document root

    io credevo che /percorso/ fosse il nome di una directory :lol:


  • Community Manager

    Segnalo il [url=http://tool.motoricerca.info/analizzatore-robots.phtml]Tool analizzatore di Robots.txt


  • User Attivo

    Non tutti i robot obbediscono alle regole contenute nel robots.txt anche se scritto in modo corretto. A questo proposito ho trovato qualche riga di codice da aggiungere al file di configurazione di Apache se desideriamo negare l'accesso ai robot. Le righe di configurazione sono le seguenti ma non so se corrette.

    #Righe di configurazione in http.conf di Apache2
    
    BrowserMatchNoCase .*crawler.* robot
    BrowserMatchNoCase .*robot.* robot
    SetEnvIf 66.249.66.8 .*google\.com robot
    
    <Location /not-indexable/>
    	order allow,deny
    	allow from all
    	deny from env=robot
    </Location>
    
    

    Da quello che ho intuito in questo modo si negerebbe l'accesso a tutti i robot ma in particolare a google; mi sbaglio?


  • Super User

    li fai riferimento ad un solo ip (66.249.66.8) di google, ci sono diversi spider che visitano i siti

    🙂