• User Newbie

    Istruzioni robots per pagine web che creano pdf

    Ciao a tutti,

    il mio dubbio è questo. Sto ottimizzando un sito web che prevede per ogni pagina la creazione di un pdf (con contenuti identici). In fase di analisi ho visto che tali pagine pdf sono state indicizzate da Google con stesso title tag delle normali pagine (cosa d'altronde normale). Mi chiedevo quindi se questi pdf possono dare origine a contenuti duplicati (probabile) e se fosse meglio escluderli dall'indice agendo sul robots oppure utilizzare il rel canonical sulle pagine originali. Quest'ultima operazioni mi sarebbe più complessa in quanto le pagine del sito sono numerose.

    Spero di essere stato chiaro e resto in attesa dei vostri consigli :wink3:

    Grazie.


  • ModSenior

    Ciao Darius83, i file pdf con lo stesso contenuto delle pagine html può essere considerato contenuto duplicato. Sarà l'algoritmo di Google a decidere di volta in volta se è meglio mostrare la pagina del tuo sito oppure la versione in pdf.

    Una soluzione è quella di bloccare l'indicizzazione di queste risorse in pdf ma non bloccandole con le istruzioni nel file robots.txt ma inviando l'istruzione "noindex" nelle intestazioni http (Google indicizza comunque una risorsa bloccata nel file robots se trova dei riferimenti esterni).
    Se utilizzi Apache come webserver puoi seguire l'esempio preso dalla guida di Google:

    image

    Io invierei solo il noindex, cioè non invierei anche il nofollow.

    Valerio Notarfrancesco


  • User Newbie

    Grazie mille! Seguirò sicuramente il tuo utilissimo consiglio! :wink3:

    dario