• User

    robots.txt non raggiungibile

    Salve a tutti i frequentatori del forum, chiedo a voi se qualcuno è a conoscenza di questo problema.
    Su "strumenti per webmaster" mi indica che non riesce a recuperare il file robots.txt nonostante esso sia presente nella root principale del sito.
    Mi indica errore all'87%, ha tentato 147 volte di accedere ma non ci è riuscito.
    La cosa strana è che prima del 1/06 ha funzionato correttamente e senza alcun intervento sul sito ha smesso di funzionare.
    Accedendo dal browser direttante al file, il browser lo visualizza correttamente.
    ho cancellato e riscritto a mano il file, settatto i permessi da 775 a 444 ma nulla.
    Pensando fosse un malware, ho verificato l'accessibilità del sito settando lo useragent del browser come googlebot e il sito si vede correttamente.
    Questa cosa mi è strana...


  • User

    sei sicuro che da qualche parte non è definito tipo www .sito.it/robots.txt mentre google tenta di accedere a sito.it/robots.txt ( senza www ) e per qualche motivo il mapping fallisce ?


  • User

    è settato su www(punto)sito. it (slash) robots ma la cosa strana è che fino al 1 giugno ha funzionato tutto bene, poi verso le 12:00 mi ha segnalato il problema, non è stato cambiato alcun settaggio.


  • Admin

    Ciao FrankMogan ci puoi indicare il tuo sito?


  • User

    Grazie dell'interessamento da parte vs....cmq si certo www(punto ) affarefacile punto it. , girovagando su google ho notato che si tratta di un problema piu o meno comune, ma non riesco a capire se è un blocco di ip da parte del provider (aruba al quale ho già inviato ticket di assistenza) oppure è un problema del sito. Se provo a fare il "visualizza come google" (il fetch as googlebot) mi restituisce sempre l'errore che il robots.txt è irrag


  • Admin

    Ok allora facci sapere cosa ti risponde Aruba.


  • User

    ok..Google ti segnala un KO, ma con quale errorCode ? Di solito, in caso di file non trovato dovresti osservare un 404 not found ( e questo indicherebbe un intervento da parte del provider nel proibire in qualche maniera l'accesso del google bot ).
    Facendo un check su questo sito ww w.searchenginepromotionhelp.com/m/robots-text-tester/robots-checker.php sembrerebbe però che **il tuo file **sia in qualche maniera errato. Ho provato ad analizzare a basso livello lo stesso e sembrerebbe **mancare **di una riga vuota al termine del file. Prova ad **inserirla **a fine file e verifica se qualcosa cambia.


  • User

    accatittippi // imageshack.us/f/811/robotsn.jpg/

    razie ancora a tutti per l'interessamento....Allora ho fatto come mi hai consigliato tu Iceman, ho corretto il file robots.txt con il tool online, ho provato a recuperare la pagina dal webmaster tool con il nuovo file ma il niente, stesso risultato (come evidenziato in giallo nella foto allegata) .
    Dopodichè ho cancellato completamente il file robots.txt, ritentato il recupero ma ancora lo stesso errore (evidenziato in rosso nella foto allegata).
    Ho inviato lo stesso screeshot ad aruba ma ancora non mi hanno risposto.

    Potrebbe essere un errore, un bug di google???

    Su Strumenti per il webmaster mi indica :
    /-------------------------------------------
    Errori del sito Sono visualizzati i dati degli ultimi 90 giorni

    Google non è riuscita a sottoporre a scansione il tuo sito perché non siamo stati in grado di accedere al file robots.txt.robots.txt.

    /-------------------------------------------

    questo è il messaggio di errore di google (copia incolla)...in pratica scrive due volte robots.txt.robots.txt


  • Admin

    Se provi a fare il fetch di altre pagine che non siano il robots.txt cosa ti dice?


  • User

    stessa cosa...file robots.txt non raggiungibile, l'hosting aruba sta dando risposte evasive .tipo "controlla il file, non abbiamo trovato il file" può essere che essendo un hosting base loro bloccano il googlebot??? considerando che negli ultimi gioni c'era una visita del bot quasi ogni 10 min.


  • User

    Rieccomi credo di aver trovato un indizio analizzando gli headers con il firebug

    dall'header di risposta sulla pagina accatittippi (www).affarefacile.it/robots.txt mi restituice :

    HTTP/1.1 304 Not Modified <------------------------------------------------ questo non riconosce google
    Date: Tue, 04 Jun 2013 12:47:21 GMT
    Server: Apache/2.4.4 (Unix) mod_fcgid/2.3.7
    Connection: Keep-Alive
    Keep-Alive: timeout=5, max=100
    Etag: "db-4de510ccf2fe0"

    Mentre questo è un header corretto di un'altro robots.txt di un'altro sito da me gestito.


    HTTP/1.1 200 OK <------------------------------------------qua invece la risposta è corretta
    Date: Tue, 04 Jun 2013 12:47:44 GMT
    Server: Apache/2.4.4 (Unix) mod_fcgid/2.3.7
    Last-Modified: Tue, 23 Apr 2013 08:32:22 GMT
    Etag: "6c-4db03062f7180"
    Accept-Ranges: bytes
    Content-Length: 108
    Keep-Alive: timeout=5, max=100
    Connection: Keep-Alive
    Content-Type: text/plain

    qualcuno sa come risolvere l'errore 304 ??? . Ho inviato un ticket ad aruba e aspetto risposta...


  • Admin

    Il 304 non è un errore.

    Semplicemente il tuo file robots.txt ha settata una scadenza e dunque finché non scade la risorsa non viene richiesta.


  • User

    Probabilmente la situazione è la seguente:
    Google per evitare utilizzi impropri , sfrutta il meccanismo di caching; usando lo stesso ETag nella richiesta, il webserver risponde a Google dicendo "la pagina rispetto all'ultima volta non è cambiata" ( e questo giustificherebbe il 304 ).
    il 304 lo risolvi soltanto modificando il contenuto del file e sottomettendo nuovamente la richiesta.
    A scanso di equivoci fai una cosa:
    Metti nel file robots.txt solo questa riga ->

    User-agent: *

    e osservi se cambia qualcosa; qualora cambiasse significa che il problema è nella formattazione del file robots.txt; in alternativa insisti con il ticket verso aruba


  • User

    Iceman...niente fatte le tue modifiche ho modificato il file (cancellato e ricreato il nuovo con la sola direttiva del post di sopra ) ma il server risponde sempre nella stessa maniera 304, secondo me finchè il server non risponde con codice 200 google non legge il file. Ora è da capire solo se ciò lo posso fare forzando la cosa nel .htaccess oppure è una cosa da settare nel modulo di apache del dell'hosting.


  • Admin

    Cancella completamente il file robots.txt e con il 404 Google accederà alle risorse.


  • User

    gia provato, anche se cancello il file il webmaster tool dice che robots.txt non è raggiungibile


  • Admin

    Ma almeno ti torna un 404?


  • User

    si , usando firebug nell'header torna il 404


  • User

    a sto punto penso che è colpa del provider


  • User

    Girando tra le varie discussioni dei google groups sul tema webmaster circola la voce che sia un "glitch" di google e che sia un problema abbastanza comune...
    stamattina l'errore è cambiato ....da "robots.txt non raggiungibile" a "pagina non raggiungibile". Questa cosa avvalora l'ipotesi che il problema non è legato ne al provider (confermatomi oggi che non esiste alcun blocco ip) ne alla programmazione del sito.