robot.txt: limitare gli url non friendlyzzati

jester72

robot.txt: limitare gli url non friendlyzzati

Salve a tutti,
ho un piccolo dubbio. Stavo verificando l'accesso del crawler di Google sulle pagine del mio blog (in wordpress). Qualche giorno fa ho impostato il robot.txt per impedire l'accesso alle pagine con l'url non friendlyzzato, e dunque con il classico "?". Il mio blog usa le url SEO friendly.
Leggendo i dati su WMT, Google mi dice che gli è impedito l'accesso a circa 4mila e passa pagine. Le pagine in questione sono quelle per lo scaricamento del post in pdf, che fanno riferimento a ogni post. Mi spiego: se la pagina dell'articolo è hxxp://miosito/iltitolodelmiopost.html, ho bloccato hxxp://miosito/iltitolodelmiopost.html/?article2pdf=1.
Ora perché l'ho fatto. Ho pensato che permettere al Crawler di sondare e indicizzare la pagina pdf, potrebbe essere interpretata come un doppio contenuto. Però non ne sono sicuro.
Secondo voi, ho fatto bene, o magari sarebbe invece opportuno permettere a google di accedere alla "directory" virtuale /?article2pdf=1

Grazie della risposta

marco.quadrella

Ciao Jester72.

Con ogni probabilità, lasciando Google libero di navigare il tuo sito, troverai in serp solamente le pagine HTML proprio perché gli altri contenuti saranno considerati duplicati.
Solitamente il motore di ricerca è in grado di gestire questo tipo di situazioni ma il fatto che tu stia creando automaticamente un pdf per ogni post potrebbe creare problemi.

In questo scenario, bloccare le URL attraverso il file robots.txt è probabilmente la scelta più giusta da fare: risparmi banda, consenti al crawler di spendere il suo tempo facendo sul tuo sito cose più utili ed eviti possibili problemi dovuti alla duplicazione dei contenuti.

Una nota a margine: non conosco la struttura dei tuoi URL né il contenuto del tuo file robot.txt; ti consiglio però di usare sempre la regola più precisa che riesci a creare. Eliminando, ad esempio, tutte le URL con un "?" rischi di fermare l'indicizzazione del crawler anche in casi che invece potevano essere gestiti più efficacemente in altra maniera (come con un redirect 301 o il rel canonical).

Per approfondimento ti consiglio la lettura delle due risposte che un dipendente di Google ha dato in questo thread a domande simili alla tua.

Buon lavoro!
(P.s. bentornato sul Forum!)