Un Evento Unico. 5 Sale. 27 Interventi. SEO, SOCIAL, E-Commerce, Mobile, Turismo.
CLICCA QUI e SCOPRI DI PIù X Chiudi

Discussione: Spiders
Visualizza un messaggio singolo
Vecchio 17-01-07, 22:27   #12 (permalink)
Everfluxx
Esperto
 
L'avatar di Everfluxx
 
Data di registrazione: Jun 2006
Ubicazione: Subpadania
Messaggi: 1,257
Quote:
agoago
Everfluxx ricorda che per non essere spiderizzati basta il robots.

Il primo spider ignora il robots, ma il bot eseguendo il contenuto letto dal primo spider vede se questo richiama un testo che non e' presente nella pagina spiderizzata.

Ho scritto un post in merito un anno fa, se una pagina richiama un testo bloccato via robots, la pagine viene penalizzata.
Questo perche' il primo spider vede un testo diverso dal testo catturato dal codice della pagina spiderizzata eseguito localmente in seconda battuta dal motore.

Ma se si mette un testo dentro un iframe richiamato da un js, il testo letto dal primo spider ed eseguito poi localmente dal motore corrisponde perfettamente, coincidono.

Un testo esterno bloccato via robots, ma visibile eseguendo la pagina che lo richiama, e' penalizzante, un testo bloccato o no via robots ma richiamato via iframe+js non e' visto quando il motore esegue localmente cosa ha spiderizzato il suo spider.
Mi venisse un colpo se ho capito una parola di quello che hai scritto, ago.

Vado per tentativi: tu stai dicendo che il motori non indicizzano i contenuti JavaScript perché altrimenti, così facendo, indicizzerebbero anche i propri annunci (es. AdSense). Giusto?

Io dico che per impedire l'indicizzazione degli annunci AdSense basta e avanza il Disallow nel robots.txt che ho citato sopra.

Tu dici che i motori hanno modo di "eseguire localmente" (?) gli script per verificare se il contenuto HTML statico + quello generato dinamicamente corrisponde a quello che vede l'utente, renderizzato dal browser. In caso contrario, è JS-based cloaking, e come tale va bannato. Okay.

Poi dici che un modo per aggirare questo controllo è includere il testo che si desidera rendere "invisibile" ai motori in un iframe creato per mezzo di una funzione JavaScript, tecnica utilizzata per visualizzare gli annunci AdSense (vedi http://pagead2.googlesyndication.com/pagead/show_ads.js), e che questa è la tecnica che Google ha dovuto adottare appunto per impedire l'indicizzazione dei propri annunci da parte di altri motori di ricerca. Tale tecnica costituisce, a tua detta, una sorta di "backdoor" che permetterebbe ai webmaster di rendere invisibili a Google parte dei propri contenuti.

Io credo che esistano modi più efficaci (e semplici) per impedire l'accesso ai contenuti degli annunci AdSense, anche da parte di motori che non rispettano robots.txt.

Inoltre, se ammettiamo che Google sia in grado di eseguire il codice JavaScript per verificare la rispondenza fra quanto renderizzato dal browser e quanto "visto" dal bot, allora non vedo perché non dovrebbe essere tecnicamente in grado di renderizzare anche il contenuto di un iframe creato per mezzo di una funzione JavaScript.

Infine, per mia esperienza, i maggiori motori di ricerca (Google, Yahoo!, Live, Ask) rispettano quasi religiosamente robots.txt (Slurp ogni tanto scazza, ma innocentemente).
__________________

Ultima modifica di Everfluxx : 17-01-07 22:29.
Everfluxx non in linea   Rispondi citando