• User

    Problema contenuti duplicati in drupal

    Salve, dando un'occhiata agli strumenti per webmaster di google (nella sezione diagnostica), ho notato che il mio sito basato su drupal presenta molti tag title e meta descrizioni duplicate.

    Per esempio:

    la pagina con titolo:

    Tipi di Uovo - Embriologia - appunti_di_scienze - pagina 1 - cliccascienze.it

    è raggiungibile da due url differenti

    cliccascienze.it/appunti-di-scienze/tipi-di-uovo.html (clean url)
    cliccascienze.it/node/74 (url originale)

    Questo accade perchè drupal quando crea i clean url, lascia intatti ed accessibili gli url originali.

    Ho letto un pò quà e la e ho esaminato il mio file robot che contiene la segunte stringa di codice:

    User-agent: *

    Directories

    Disallow: /includes/
    Disallow: /misc/
    Disallow: /modules/
    Disallow: /profiles/
    Disallow: /scripts/
    Disallow: /sites/
    Disallow: /themes/
    Disallow: /node$

    Visto che così com'è il boot indicizza ugualmente entrambi gli url ho pensato di modificare l'ultima riga togliendo il simbolo $ e sostituendolo con /.

    in pratica:

    User-agent: *

    Directories

    Disallow: /includes/
    Disallow: /misc/
    Disallow: /modules/
    Disallow: /profiles/
    Disallow: /scripts/
    Disallow: /sites/
    Disallow: /themes/
    Disallow: /node/

    Così facendo (almeno in teoria) dovrei evitare che google indicizzi tutte e due le url.

    Secondo voi ho fatto bene? Accetto pareri consigli e soluzioni alternative. Nei prossimi giorni poi vi farò sapere come reagisce webmaster tools.

    Grazie in anticipo e buona Pasqua a tutti!


  • Moderatore

    Ciao O_svaldo,
    esatto, come hai modificato è giusto per il tuo caso specifico.

    Ciao
    Enea


  • User

    Grazie per la risposta.

    Ci sono degli aggiornamenti...
    questa mattina visitando strumenti per webmaster ho trovato il seguente avviso:

    Robots.txt sta bloccando pagine importanti?

    Cliccandoci sopra vengo rimandato alla pagina di analisi del file robots.txt

    Guardando poi nella diagnostica ho visto che tutti gli errori di title e meta duplicati sono rimasti. Come faccio ad eliminare questo errore?

    Tra l'altro la cosa è particolarmente fastidiosa perchè da qualche tempo a questa parte google mi indicizza le url sporche... e non i clean url...

    Per esempio se ricerco Poliembrinia la urul trovata da google è:

    cliccascienze.it/node/44

    e non cliccascienze.it/appunti-di-scienze/poliembrionia.html

    Help me...


  • Moderatore

    Se guardi sotto la voce "Diagnostica" ci dovrebbe essere una frase con link "Alcune pagine importanti.." ecc, se ci passi sopra dovrebbe farti vedere di quale url si tratta, oppure se ci clicchi ti rimanda direttamenta nella pagina incriminata.

    Devi aspettare qualche giorno prima che il GWT si aggiorni.

    Una domanda: ma perché se imposti i friendly url ti lascia anche le vecchie url?
    In teoria non dovrebbe fare così, sicuramente ci dovrebbe essere una soluzione, tipo l'uso del file .htaccess per esempio con il redirect dalla vecchia url alla nuova.

    Io non conosco drupal quindi vado per presupposizione.

    Eventualmente potresti aggiungere il rel="canonocal" alle pagine con l'url vecchio.

    Ciao
    Enea


  • User

    In effetti c'è un modulo apposito che si occupa di fare questo redirect, infatti quando si visitano i vecchi url automaticamente si viene reindirizzati ai nuovi...

    Il punto è che però google se ne frega e indicizza ancora i vecchi url

    per quanto riguarda la pagina incriminata l'ho trovata ed ho fatto questo ulteriore tentativo:

    ho inserito Allow: /node/XXX (xxx è la pagina specifica) all'interno del file robots.txt staremo a vedere cosa farà google nei prossimi giorni.


  • Moderatore

    @O_svaldo said:

    In effetti c'è un modulo apposito che si occupa di fare questo redirect, infatti quando si visitano i vecchi url automaticamente si viene reindirizzati ai nuovi...

    Allora c'è qualcosa che non funziona correttamente, per questo specifico caso però io non posso aiutarti non conoscendo quel cms, ti consiglio di aprire una discussione nel forum drupal chiedere li.

    @O_svaldo said:

    ho inserito Allow: /node/XXX (xxx è la pagina specifica) all'interno del file robots.txt staremo a vedere cosa farà google nei prossimi giorni.

    Se per quella pagina esiste anche la copia con la friendly url rischi di avere un doppione.

    In teoria dovresti aspettare un po' di tempo prima di fare modifiche perchè il GWT non aggiorna in tempo reale ma dopo qualche giorno.

    Ciao
    Enea


  • User Newbie

    Meta Tags , Global Redirect e Path Auto
    Se stai usando questi moduli non dovresti avere alcun problema.
    Nel tuo caso sconsiglio l'uso del robots.txt


  • Moderatore

    Ciao Mirel Imbrea e benvenuto nel forumGT,
    potresti spegare perché in questo caso sconsigli l'uso del robots.txt?

    Ciao
    Enea


  • User Newbie

    Ciao Enea grazie per il benvenuto...

    La maggior parte degli utenti "DRUPAL" che hanno questo tipo di problema bloccano /node/** percorso

    Il problema di Osvaldo sta nel modulo "Nodewords"

    Se vado a creare un nodo con il titolo "imbrea mirel", se si utilizza l'auto percorso si ottiene: "site.com / imbrea-mirel", ma l'url canonica utilizza il percorso predefinito :
    <link rel="canonical" href="/node/55" />

    Questo ha portato ad una indicizzazione errata dell'intero sito


  • User

    Ciao, per caso sono capitato su questa vecchia pagina e come drupalista concordo con Mirel Imbrea.
    In questi casi, con Drupal 7, i moduli da utilizzare sono Global Redirect, Meta Tags e Pathauto.
    Il modulo Nodewords era per Drupal 6, sostituito da Meta Tags in Drupal 7.
    Global Redirect viene utilizzato per diversi scopi al fine di evitare contenuti duplicati; personalmente lo uso per il deslash (/) e per i termini della Tassonomia.
    Meta Tag, utilizzato da me per impostare diversi meta name, in questo caso per impostare il canonical e Pathauto per la generazione degli alias.
    Saluto
    Giovanni Di Giovanni