+ Rispondi alla Discussione
Risultati da 1 a 7 di 7

Istruzioni robots.txt

Ultimo Messaggio di antonico il:
  1. #1
    User
    Data Registrazione
    Jun 2006
    Messaggi
    45

    Istruzioni robots.txt

    Buongiorno a tutti,

    ho un problema relativo al robots.txt. Nonostante l'istruzione "Disallow: /?", Google continua ad indicizzare Url del tipo "sito.com/?s=popgadget" che producono inutili e dannose duplicazioni. Quale soluzione mi consigliate?

  2. #2
    Moderatore L'avatar di gianrudi
    Data Registrazione
    Apr 2008
    Localit
    ventimiglia
    Messaggi
    1,115
    Ciao outsider63, attraverso lo strumento del Webmaster Tools per l'analisi del robots.txt ho potuto verificare che possibile bloccare pagine della forma sito.com/index.php?p=param, con la riga "Disallow: /sito.com/index.php?p=param".
    La stessa pagina sarebbe raggiungibile anche attraverso la forma abbreviata sito.com/?p=param, ma la riga "Disallow: /sito.com/?p=param" non serve a bloccarla, evidentemente l'istruzione Disallow richiede la forma estesa con sui sono state indicizzate le pagine.
    Se questo il tuo caso, cercando con l'operatore site l'URL esatto con cui sono indicizzate quelle pagine dovresti riuscire a bloccarle, cosa che puoi verificare subito con lo strumento di analisi del robots in wmt.
    Ultima modifica di gianrudi; 11-11-08 alle 09:47

  3. #3
    User
    Data Registrazione
    Apr 2008
    Messaggi
    31
    ciao,

    prova a utilizzare un wildcard:

    Disallow: /*?s


    N.B.

    Se uno o pi pagine appartenenti a quelle dinamiche stata linkata da qualche altro sito, a discrezione di G. farma apparire nelle serp o meno.


  4. #4
    Utente Premium L'avatar di antonico
    Data Registrazione
    Jun 2008
    Messaggi
    380
    Ma il robots.txt non dovrebbe essere considerato anche quando le pagine da esso disabilitate sono linkata da altri siti?
    Cio, lo spider che segue il link da un sito esterno passa comunque per la root e capisce che la pagina con disallow nel robots.txt in questione non deve essere indicizzata..

  5. #5
    User
    Data Registrazione
    Jun 2006
    Messaggi
    45
    Grazie mille per l'aiuto! Secondo voi troppi disallow sono una cosa negativa? Ho degli Url generati da un vecchio plugin di WP che che formulava url di questo tipo:

    /2008/04/18/titolo-post/denominazione-immagine/

    Spesso per, il nome dato all'immagine ripeteva (per ovvie ragioni) i termini del titolo del post. Ora utilizzo un altro sistema per fare le gallery, ma Google mi ha indicizzato una ventina di Url (il sito ha 5,000 pagine indicizzate) che presentano una certa densit di parole chiave. Per evitare i soliti filtri li vorrei mettere in disallow. Sono troppi?
    Ultima modifica di outsider63; 11-11-08 alle 19:56

  6. #6
    User
    Data Registrazione
    Apr 2008
    Messaggi
    31
    301 redirects le vecchie URL da qualche parte?

    Potrebbe essere una soluzione migliore.

  7. #7
    Utente Premium L'avatar di antonico
    Data Registrazione
    Jun 2008
    Messaggi
    380
    Una ventina di url non sono assolutamente troppe per il robots.txt
    Se vuoi snellire puoi bloccare tutti i contenuti della cartella superiore.. ma non so nel tuo caso come sono strutturati i contenuti. Se per esempio vuoi bloccare le url dei file che sono dentro alla directory titolo-post/ metti il disallow a /titolo-post/

+ Rispondi alla Discussione

Tag per Questa Discussione

^ Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •  
  • Il codice BB Attivato
  • Le faccine sono Attivato
  • Il codice [IMG] Attivato
  • Il codice [VIDEO] Attivato
  • Il codice HTML Disattivato
  • Trackbacks Attivato
  • Pingback Attivato
  • Refback Attivato

SEO by vBSEO 3.6.0 PL2 ©2011, Crawlability, Inc.