Quote:
|
agoago
Everfluxx ricorda che per non essere spiderizzati basta il robots.
Il primo spider ignora il robots, ma il bot eseguendo il contenuto letto dal primo spider vede se questo richiama un testo che non e' presente nella pagina spiderizzata.
Ho scritto un post in merito un anno fa, se una pagina richiama un testo bloccato via robots, la pagine viene penalizzata.
Questo perche' il primo spider vede un testo diverso dal testo catturato dal codice della pagina spiderizzata eseguito localmente in seconda battuta dal motore.
Ma se si mette un testo dentro un iframe richiamato da un js, il testo letto dal primo spider ed eseguito poi localmente dal motore corrisponde perfettamente, coincidono.
Un testo esterno bloccato via robots, ma visibile eseguendo la pagina che lo richiama, e' penalizzante, un testo bloccato o no via robots ma richiamato via iframe+js non e' visto quando il motore esegue localmente cosa ha spiderizzato il suo spider.
|
Mi venisse un colpo se ho capito una parola di quello che hai scritto, ago.
Vado per tentativi: tu stai dicendo che il motori non indicizzano i contenuti
JavaScript perché altrimenti, così facendo, indicizzerebbero anche i propri annunci (es.
AdSense). Giusto?
Io dico che per impedire l'indicizzazione degli annunci AdSense basta e avanza il Disallow nel
robots.txt che ho citato sopra.
Tu dici che i motori hanno modo di "eseguire localmente" (?) gli script per verificare se il contenuto
HTML statico + quello generato dinamicamente corrisponde a quello che vede l'utente, renderizzato dal
browser. In caso contrario, è JS-based
cloaking, e come tale va bannato. Okay.
Poi dici che un modo per aggirare questo controllo è includere il testo che si desidera rendere "invisibile" ai motori in un iframe creato per mezzo di una funzione JavaScript, tecnica utilizzata per visualizzare gli annunci AdSense (vedi
http://pagead2.googlesyndication.com/pagead/show_ads.js), e che questa è la tecnica che
Google ha dovuto adottare appunto per impedire l'indicizzazione dei propri annunci da parte di altri
motori di ricerca. Tale tecnica costituisce, a tua detta, una sorta di "backdoor" che permetterebbe ai webmaster di rendere invisibili a Google parte dei propri contenuti.
Io credo che esistano modi più efficaci (e semplici) per impedire l'accesso ai contenuti degli annunci AdSense, anche da parte di motori che non rispettano robots.txt.
Inoltre, se ammettiamo che Google sia in grado di eseguire il codice JavaScript per verificare la rispondenza fra quanto renderizzato dal browser e quanto "visto" dal bot, allora non vedo perché non dovrebbe essere tecnicamente in grado di renderizzare anche il contenuto di un iframe creato per mezzo di una funzione JavaScript.
Infine, per mia esperienza, i maggiori
motori di ricerca (Google, Yahoo!, Live,
Ask) rispettano quasi religiosamente robots.txt (Slurp ogni tanto scazza, ma innocentemente).