• User

    Istruzioni robots.txt

    Buongiorno a tutti,

    ho un problema relativo al robots.txt. Nonostante l'istruzione "Disallow: /?", Google continua ad indicizzare Url del tipo "sito.com/?s=popgadget" che producono inutili e dannose duplicazioni. Quale soluzione mi consigliate?


  • Moderatore

    Ciao outsider63, attraverso lo strumento del Webmaster Tools per l'analisi del robots.txt ho potuto verificare che è possibile bloccare pagine della forma sito.com/index.php?p=param, con la riga "Disallow: /sito.com/index.php?p=param".
    La stessa pagina sarebbe raggiungibile anche attraverso la forma abbreviata *sito.com/?p=param, *ma la riga "Disallow: /sito.com/?p=param" non serve a bloccarla, evidentemente l'istruzione Disallow richiede la forma estesa con sui sono state indicizzate le pagine.
    Se questo è il tuo caso, cercando con l'operatore site l'URL esatto con cui sono indicizzate quelle pagine dovresti riuscire a bloccarle, cosa che puoi verificare subito con lo strumento di analisi del robots in wmt.


  • User

    ciao,

    prova a utilizzare un wildcard:

    Disallow: /*?s

    N.B.

    Se uno o più pagine appartenenti a quelle dinamiche è stata linkata da qualche altro sito, è a discrezione di G. farma apparire nelle serp o meno.

    :ciauz:


  • User Attivo

    Ma il robots.txt non dovrebbe essere considerato anche quando le pagine da esso disabilitate sono linkata da altri siti?
    Cioè, lo spider che segue il link da un sito esterno passa comunque per la root e capisce che la pagina con disallow nel robots.txt in questione non deve essere indicizzata..


  • User

    Grazie mille per l'aiuto! Secondo voi troppi disallow sono una cosa negativa? Ho degli Url generati da un vecchio plugin di WP che che formulava url di questo tipo:

    /2008/04/18/titolo-post/denominazione-immagine/

    Spesso però, il nome dato all'immagine ripeteva (per ovvie ragioni) i termini del titolo del post. Ora utilizzo un altro sistema per fare le gallery, ma Google mi ha indicizzato una ventina di Url (il sito ha 5,000 pagine indicizzate) che presentano una certa densità di parole chiave. Per evitare i soliti filtri li vorrei mettere in disallow. Sono troppi?


  • User

    301 redirects le vecchie URL da qualche parte?

    Potrebbe essere una soluzione migliore.


  • User Attivo

    Una ventina di url non sono assolutamente troppe per il robots.txt
    Se vuoi snellire puoi bloccare tutti i contenuti della cartella superiore.. ma non so nel tuo caso come sono strutturati i contenuti. Se per esempio vuoi bloccare le url dei file che sono dentro alla directory titolo-post/ metti il disallow a /titolo-post/