+ Rispondi alla Discussione
Risultati da 1 a 4 di 4

File robots.txt non funziona

Ultimo Messaggio di Giorgiotave il:
  1. #1
    User
    Data Registrazione
    Apr 2005
    Località
    Roma
    Messaggi
    41

    File robots.txt non funziona

    Salve a tutti nella root principale del mio sito ho il file robots.txt con delle regole che non vengono rispettate dallo spider di google. Qualcuno sa dirmi il perchè!?!??

    Esempio:
    User-agent: *
    Disallow: /forgot.php

    Oggi ho visto che lo spider è entrato nella pagina forgot.php
    Forse può dipendere dal fatto che il file robots è stato messo dopo che lo spider ha scandagliato il sito una prima volta... e dopo non lo considera più avendo immagazzinato già informazioni riguardo la presenza della pagina forgot.php?!

    Inoltre utilizzo questo script per vedere se lo spider di google passa per le mie pagine:
    <?php if(eregi("googlebot",$HTTP_USER_AGENT))
    {
    if ($QUERY_STRING != "")
    {$url = "http://".$SERVER_NAME.$PHP_SELF.'?'.$QUERY_STRING;}
    else
    {$url = "http://".$SERVER_NAME.$PHP_SELF;}
    $today = date("F j, Y, g:i a");
    mail("info@ricettenostrane.it", "Googlebot detected on http://$SERVER_NAME", "$today - Google crawled $url");
    } ?>

    Nonostante abbia reso le mie pagine statiche attraverso il file .htaccess vedo che lo script mi dice che lo spider è passato per la pagina http://www.ricettenostrane.it/viewricetta.php?id_fls=35
    non è che lo spider riesce ad eludere i link statici richiedendo l'indirizzo reale della pagina tramite le variabili lato server??!?!?

    Grazie a tutti
    Cucina italiana - Ricette tipiche italiane

  2. #2
    Esperto L'avatar di beke
    Data Registrazione
    Mar 2005
    Località
    Firenze
    Messaggi
    1,317
    Oggi ho visto che lo spider è entrato nella pagina forgot.php
    Forse può dipendere dal fatto che il file robots è stato messo dopo che lo spider ha scandagliato il sito una prima volta... e dopo non lo considera più avendo immagazzinato già informazioni riguardo la presenza della pagina forgot.php?!
    Ma lo spider è ripassato da file robots.txt dopo che hai inserito la riga di esclusione per quella pagina?

    Nonostante abbia reso le mie pagine statiche attraverso il file .htaccess vedo che lo script mi dice che lo spider è passato per la pagina http://www.ricettenostrane.it/viewricetta.php?id_fls=35
    non è che lo spider riesce ad eludere i link statici richiedendo l'indirizzo reale della pagina tramite le variabili lato server??!?!?
    Secondo me no, dipende esclusivamente dal fatto che la pagina esiste già nel suo DB, con quelle nuove non dovrebbe farlo. Quella corrispondente con l'url "staticizzato" te l'ha già presa?

    Dovresti in ogni caso chiedere a Google di rimuovere la "vecchia" altrimenti in teoria puoi incorrere in problemi di contenuto duplicato.

    http://www.google.it/intl/it/remove.html

    Oppure studiare un meccanismo che ritorni un 301 alla richiesta della pagina con querystring.

  3. #3
    User
    Data Registrazione
    Apr 2005
    Località
    Roma
    Messaggi
    41
    Allora, non so se lo spider è passato per il file robots... trattandosi di un file txt non ho inserito lo script per vedere quando passa lo spider anche li. Quindi non so come vedere se è ripassato per il robots.txt. Per quanto riguarda le pagine statiche nuove, lo spider è passato in pagine nuove statiche ma tramite gli url dinamici e non capisco proprio il perchè. Addirittura alcune pagine le ho proprio spostate in un'altra cartella e le ho rese statiche. Ebbene lo spider le ha trovate ma a me lo script posta gli url dinamici e ciò mi fa venire dei dubbi. Tuttavia lo script che ho pubblicato prima mi posta le variabili lato server degli url delle pagine visitate... quindi può essere che a me arrivino le pagine dinamiche mentre lo spider visita quelle statiche. Giusto!?!?!?

    Grazie
    Cucina italiana - Ricette tipiche italiane

  4. #4
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    42,416
    Visita il canale Youtube di Giorgiotave
    Se escludi un file con il robots lui bassa e mette nel db solo il link, se non vado errato.....
    Il Forum GT si rinnova: nuova struttura di categorie, notifiche impostabili che finalmente funzionano e nuove regole per i link e immagini!

+ Rispondi alla Discussione

Tag per Questa Discussione

^ Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •  
  • Il codice BB è Attivato
  • Le faccine sono Attivato
  • Il codice [IMG] è Attivato
  • Il codice [VIDEO] è Attivato
  • Il codice HTML è Disattivato
  • Trackbacks Attivato
  • Pingback Attivato
  • Refback Attivato

SEO by vBSEO 3.6.0 PL2 ©2011, Crawlability, Inc.