• Community Manager

    Lo spider di Google ed alcune indicazioni per i SEO

    All About Googlebot si intitola il post nel Blog Webmaster Central Blog di Google creato da Vanessa Fox per spiegare alcuni comportamenti di Googlebot.

    Troverete sicuramente qualche indicazione interessante, come l'uso dello status 503 quando il sito è down per un aggiornamento.

    Oppure la risposta a cosa è meglio usare, se il robots.txt o i meta robots tag. Alla fine ci segnala un tools per verificare il Robots.txt robots.txt analysis tool

    Controllate in alto che vi fanno cambiare lingua ed impostate l'italiano.

    Inoltre, consiglio il Robots-txt Checker di LowLevel

    :ciauz:


  • Bannato Super User

    faccio una domanda circa il file robots.txt...se a me non interessa "nascondere" certe pagine o cartelle del mio sito allo spider, posso non utilizzarlo?
    e non utilizzandolo posso avere dei problemi?
    escludendo il fatto che io possa avere delle penalizzazioni per quanto riguarda il posizionamento, perchè non sarebbe logico...(per quest'ultima affermazione, correggetemi se sbaglio)


  • User Attivo

    Vanessa "Volpe", che interviene su:

    The Bot Obedience Course

    assieme ad Dr. Rajat Mukherjee di Yahoo.


    Come predetto (detto prima, da tempo) inizia la guerra sul robots, l'unico strumento non legalmente riconosciuto che permette ad ogni wm di illudersi di accettare in casa sua, in toto od in parte, un motore o spider che sia.

    E questo i motori non possono permetterselo, non devono permetterlo.


    Non rispettono (quando gli fa comodo) il file robots.

    Non contenti inizieranno, con articoli - conferenze - dibattiti - autorevoli pareri di seo svendutissimi, la loro lenta ma inarrestabile campagna mirata a convincere ogni wm che nel caso il wm non li faccia entrare nella parte pubblica del suo sito sara' un mentecatto perche': "kiss traffic from the major search engines goodbye".

    Hanno una faccia tosta che rasenta l'imbarazzante, e mi spiace l'esser certo fin da ora, che la quasi totalita' dei seo e dei wm finiranno con il convincersi che il loro lavoro dipendera' dagli umori dei motori e non viceversa.


    I wm, attraverso il robots, tengono i motori per le "balle", e possono stringere a loro piacimento la morsa, fino a castrarli, dipende da cosa fa comodo ai wm, ma i wm decidono.

    Non potendo delegittimare il robots in quanto standard, non potendo ignorarlo in toto in quanto passibili di critiche e stupore, ai motori non rimane altra scelta di convincerci di usare il robots con la massima parsimonia per la parte pubblica del sito, e possibilmente mai nei loro confronti.

    Per quanto mi riguarda, in questo contesto, auguro una morte virtuale alla Vanessa Fox, seppellita da una risata, la mia.


  • User

    Scusa Ago, ma non capisco il tuo post, potresti chiarificare qualche punto ?

    @agoago said:

    Come predetto (detto prima, da tempo) inizia la guerra sul robots, l'unico strumento non legalmente riconosciuto che permette ad ogni wm di illudersi di accettare in casa sua, in toto od in parte, un motore o spider che sia.

    Qual e' il tuo problema, che i motori entrino o non entrino nel tuo sito ?!

    @agoago said:

    E questo i motori non possono permetterselo, non devono permetterlo.

    Cosa non possono permettersi ?

    @agoago said:

    Non rispettano (quando gli fa comodo) il file robots.

    Questo non mi risulta.

    @agoago said:

    Non contenti inizieranno, con articoli - conferenze - dibattiti - autorevoli pareri di seo svendutissimi, la loro lenta ma inarrestabile campagna mirata a convincere ogni wm che nel caso il wm non li faccia entrare nella parte pubblica del suo sito sara' un mentecatto perche': "kiss traffic from the major search engines goodbye".

    Questa poi... se non vuoi che il tuo sito venga visitato dagli spider come fa ad essere indicizzato ?
    Non colgo l'ironia...

    Il resto del post e' un delirio incomprensibile (almeno per me).

    Quello che pubblichi su un sito e' accessibile a tutti (a meno che non utilizzi password per l'accesso etc.), quindi in teoria non solo utenti in carne e ossa ma anche gli utenti "software" sono tecnicamente in grado e implicitamente autorizzati ad accedere a quei contenuti.

    Se i motori di ricerca rispettano il protocollo del robots.txt, e' gia' un favore che ti fanno: evitano gentilmente di accedere a dei contenuti che tu hai messo a disposizione di tutti ma che non vuoi che finiscano tra i risultati di una ricerca.

    Certamente c'e' qualcosa che mi sfugge, ma dal tuo messaggio non e' molto chiaro cosa sia.

    Se puoi spiegarmelo meglio magari lo capisco anch'io.

    Grazie,

    F.


  • User Attivo

    Ray71 scrive:

    "Qual e' il tuo problema, che i motori entrino o non entrino nel tuo sito ?!"

    Ok, a volte scrivo dando per scontato che si conoscano i "precedenti", me ne scuso.

    Il sito di un wm e' roba sua, non appartiene a nessun altro, il wm fa del suo sito cosa vuole, se vuole lo mette online solo di domenica, o puo' decidere che tutti gli utenti che hanno un ip che inizia con 2 non possano accedervi (non bello-corretto da fare, ma rende l'idea).

    Pertanto un wm, deve poter essere libero ma soprattutto certo, che tutti rispettino la sua volonta'.

    Nel caso dei motori la porta della casa-sito si apre e si chiude (in teoria) in base al file robots. Il wm nel suo robots scrive-ordina chi puo' spiderizzare o no tutto o parte del suo sito.

    E' un suo diritto.
    Ma questo suo diritto, nel caso del robots, non e' avvalorato da nessuna norma-legge. Un robots puo' essere o non essere rispettato.

    "Cosa non possono permettersi ?"

    Immagina che tua sia un azionista di un motore, per esempio Google.
    Google e' un motore eccezionale, pertanto tu azionista sai che i tuoi soldi son ben riposti, perche' salvo impossibili follie da parte di G, G avra' sempre una buona fetta del mercato.

    Ma se per un qualsiasi motivo, i primi 5000 wm-siti al mondo decidessero di bloccare G via robots, magari per soli 6 mesi, il valore di G crollerebbe.

    La coca cola non puo' perdere mercato-valore se non in modo lento e gestibile in quanto il suo successo dipende dai gusto di miliardi di persone.

    Ma se passasse il diritto giuridico di un wm di bloccare un motore via robots ecco che tu azionista sapresti che il tuo investimento sarebbe sempre a rischio a seconda degli umori di poche migliaia di wm.

    Se tu fossi il signor google, msn, yahoo, potresti permettertelo-permetterlo?

    "Questo non mi risulta."

    I motori normalmente rispettono i robots, ma prova a leggere nei form dedicati o a gestire molti siti e ti accorgerai delle continue eccezioni.

    "Questa poi... se non vuoi che il tuo sito venga visitato dagli spider come fa ad essere indicizzato ?"

    Se non voglio che sia spiderizzato e' propio perche' non desidero che venga indicizzato da un dato motore. E' un mio-tuo diritto, o almeno dovrebbe....

    "Il resto del post e' un delirio incomprensibile (almeno per me)."

    Mi spiace sia incomprensibile, cerco sempre di spiegarmi, che sia un delirio ci puo' stare, se parli con un anestesista ti dira' che dopo un operazione il paziente tende a delirare mostrando esattamente la sua natura. Chi se la dorme della beata, chi insulta il mondo, chi si rigira come morso da una tarantola... Il delirio e' come il vino, pieno di verita'.

    "Se i motori di ricerca rispettano il protocollo del robots.txt, e' gia' un favore che ti fanno:..."

    Ray71 spero che questa affermazione sia stata dettata dalla foga, viceversa e' peggio di quanto pensassi, e' iniziato il lavaggio di massa.

    Ray71 i motori, in casa tua, in casa mia, devono fare cosa vogliamo noi, non cosa preferiscono loro.

    Per pieta'... almeno a casa nostra, siamo re e non sudditi.


  • User

    @agoago said:

    Il sito di un wm e' roba sua, non appartiene a nessun altro, il wm fa del suo sito cosa vuole, se vuole lo mette online solo di domenica, o puo' decidere che tutti gli utenti che hanno un ip che inizia con 2 non possano accedervi (non bello-corretto da fare, ma rende l'idea).

    Pertanto un wm, deve poter essere libero ma soprattutto certo, che tutti rispettino la sua volonta'.

    Nel caso dei motori la porta della casa-sito si apre e si chiude (in teoria) in base al file robots. Il wm nel suo robots scrive-ordina chi puo' spiderizzare o no tutto o parte del suo sito.

    E' un suo diritto.
    Ma questo suo diritto, nel caso del robots, non e' avvalorato da nessuna norma-legge. Un robots puo' essere o non essere rispettato.

    Questo e' chiaro, ma se non con robots.txt, come potresti decidere chi puo' spiderizzare o no il tuo sito ?
    Considera anche che i principali motori di ricerca sono anzi cosi' corretti da presentarsi con un User-Agent che li possa identificare: nessuno gli vieta di presentarsi come Mozilla o Explorer (e risolvere completamente il problema del Cloaking).

    O forse ti riferisci a qualche episodio in particolare dove il tuo file robots.txt non e' stato rispettato ?

    @agoago said:

    Immagina che tua sia un azionista di un motore, per esempio Google.
    Google e' un motore eccezionale, pertanto tu azionista sai che i tuoi soldi son ben riposti, perche' salvo impossibili follie da parte di G, G avra' sempre una buona fetta del mercato.

    Ma se per un qualsiasi motivo, i primi 5000 wm-siti al mondo decidessero di bloccare G via robots, magari per soli 6 mesi, il valore di G crollerebbe.

    Beh, probabilmente anche il traffico di molti di quei siti crollerebbe e altri siti prenderebbero il loro posto 😉

    @agoago said:

    La coca cola non puo' perdere mercato-valore se non in modo lento e gestibile in quanto il suo successo dipende dai gusto di miliardi di persone.

    Ma se passasse il diritto giuridico di un wm di bloccare un motore via robots ecco che tu azionista sapresti che il tuo investimento sarebbe sempre a rischio a seconda degli umori di poche migliaia di wm.

    Tra l'altro credo che robots.txt abbia valore giuridico ed equivalga a un cartello "no trespassing" (appena trovo qualche dettaglio in proposito lo posto, probabilmente lunedi).

    @agoago said:

    Se tu fossi il signor google, msn, yahoo, potresti permettertelo-permetterlo?

    Mah, se un sito non vuole essere indicizzato e libero di farlo (e ha i mezzi per farlo). Certo non deve poi lamentarsi se non riceve traffico dai motori di ricerca.
    Ma non credo si corra il rischio che i maggiori siti internet facciano questa scelta.

    Allo stesso modo, i principali motori di ricerca potrebbero mettersi d'accordo e "cancellare" dall'indice i maggiori siti del mondo (e allo stesso modo il loro traffico diminuirebbe in favore di motori minori ma con almeno i siti principali nel loro indice).

    @agoago said:

    "Questo non mi risulta."

    I motori normalmente rispettono i robots, ma prova a leggere nei form dedicati o a gestire molti siti e ti accorgerai delle continue eccezioni.

    Puo' darsi, anche se immagino spesso si tratti di errori nel "robots.txt" piu' che di malafede negli spiders.

    @agoago said:

    "Questa poi... se non vuoi che il tuo sito venga visitato dagli spider come fa ad essere indicizzato ?"

    Se non voglio che sia spiderizzato e' propio perche' non desidero che venga indicizzato da un dato motore. E' un mio-tuo diritto, o almeno dovrebbe....

    Un diritto che viene rispettato (a meno che non metti il "robots.txt" quando ormai e' troppo tardi, in quel caso ci vuole un bel po' di tempo prima che le tracce del tuo sito spariscano dagli indici).

    @agoago said:

    [...]
    "Se i motori di ricerca rispettano il protocollo del robots.txt, e' gia' un favore che ti fanno:..."

    Ray71 spero che questa affermazione sia stata dettata dalla foga, viceversa e' peggio di quanto pensassi, e' iniziato il lavaggio di massa.

    Ma che lavaggio e lavaggio! Sara' che io non sono un wm e quindi vedo Google come un "amico" o almeno uno strumento utile e non come un avversario/nemico da battere.

    @agoago said:

    Ray71 i motori, in casa tua, in casa mia, devono fare cosa vogliamo noi, non cosa preferiscono loro.

    Per pieta'... almeno a casa nostra, siamo re e non sudditi.

    Ok, insomma parli proprio come se i robots.txt venissero semplicemente ignorati dai motori.
    Se ti e' capitato che un motore ignorasse il tuo robots.txt e visitasse comunque delle sezioni "proibite" del tuo sito potresti condividere qualche dettaglio in proposito ? O parli in generale (ma allora non capisco a cosa ti riferisci: vuoi che i bot ti leggano nel pensiero invece di leggere il robots.txt ? )

    Saluti

    F.


  • Super User

    @cibino said:

    faccio una domanda circa il file robots.txt...se a me non interessa "nascondere" certe pagine o cartelle del mio sito allo spider, posso non utilizzarlo?
    e non utilizzandolo posso avere dei problemi?
    escludendo il fatto che io possa avere delle penalizzazioni per quanto riguarda il posizionamento, perchè non sarebbe logico...(per quest'ultima affermazione, correggetemi se sbaglio)

    Se hai un sito "normale" puoi non utilizzare il robots.txt e non avrai penalizzazioni di alcun tipo...tuttavia è bene dare un occhiata attentamente a ciò che hai sul tuo sito. Ad esempio per qualche strano motivo potresti avere pagine dinamiche con un solo parametro che Google potrebbe cercare di indicizzare, e se queste pagine sono tutte simili tra loro, potresti essere penalizzato erroneamente per SPAM.
    A me recentemente è successa una cosa così, e con il file robots.txt fatto correttamente ho risolto il problema.
    Si tratta di casi eccezionali ovviamente, però bisogna starci attenti a ciò che Googlebot potrebbe trovare nel tuo sito.


  • User Attivo

    @Ray71 said:

    Se ti e' capitato che un motore ignorasse il tuo robots.txt e visitasse comunque delle sezioni "proibite" del tuo sito potresti condividere qualche dettaglio in proposito ?

    Per esempio...
    http://www.giorgiotave.it/forum/posizionamento-nei-motori-di-ricerca/10831-pagina-indicizzata-nonostante-disallow-robots-txt.html


  • User

    @Nicola said:

    Per esempio...
    http://www.giorgiotave.it/forum/posizionamento-nei-motori-di-ricerca/10831-pagina-indicizzata-nonostante-disallow-robots-txt.html

    Ho letto il thread, in quel caso Googlebot ha onorato robots.txt, e non ha richiesto la pagina da te specificata al tuo webserver in fase di crawling (come potresti verificare dai logs).

    Se pero' in fase di indicizzazione (che e' tutt'altra cosa rispetto al crawling) vengono incontrati dei riferimenti al tuo URL, e questo riceve un page-rank decente, dei link etc. L'URL viene messo comunque in indice, senza contenuto se non quello delle anchors che puntano ad esso.

    Il motivo principale per cui esiste il protocollo di robots.txt, infatti, e' quello di non sovraccaricare i web servers con troppe richieste (quando venne introdotto questo protocollo, quello di non voler essere indicizzati era l'ultimo dei problemi, la scarsita' di banda, invece, era il primo).

    Se proprio vuoi che una tua pagina non venga neanche indicizzata devi segnalarla specificatamente a google tramite il servizio di rimozione url.

    Saluti,

    F.


  • Community Manager

    Si, succede spesso con siti come http://del.icio.us/ 🙂

    Perchè inibiscono tramite Robots.txt gli url, però hanno tanti riferimenti nel web 🙂

    Quindi viene memorizzato solo l'URL 🙂


  • User Attivo

    @Giorgiotave said:

    Quindi viene memorizzato solo l'URL 🙂

    Non per fare il bastian contrario.. ma la mia ce l'ha pure in cache 🙂


  • Community Manager

    Oki riuppo quel thread 🙂


  • User Attivo

    Ray71, non stiamo dicendo tu bianco ed io nero.
    Tutto il mio dire verte su un aspetto a me caro:

    "Un robots puo' essere o non essere rispettato."

    Questo non significa che i migliori motori spesso non rispettino il robots.
    Puo' succedere, probabilmente in casi molto rari, ed ancora piu' probabilmente per questioni tecniche e non per loro scelte-politiche aziendali.

    Quello che non mi piace, che mi disturba, e' che in tanti anni non si sia dato nessun valore pseudo-legale al robots.


    Faccio un esempio. Hai un bel sito, vorresti che fosse indicizzato dai migliori motori ma non vuoi che nessun altro ti consumi banda su banda spiderizzandotelo, magari per cercare indirizzi email, per guardarselo in locale, per raccogliere immagini, etc etc

    Allora metti un robots che dichiara che solo 3-4 motori possono spiderizzarti il sito, gli altri bot no.

    Bene, io lancio un teleportpro, ti spiderizzo-duplico il sito, e tu non puoi farci nulla.

    Magari ti ho rallentato il server, ti ho intasato la linea, ti ho duplicato automaticamente migliaia di pagine magari al solo fine di guardarmele in locale (ed addio incassi adsense) e tu non puoi dirmi nulla.

    Vedi il mio ip, risali e mi scrivi dicendo che non ho rispettato il tuo robots ed io ti rispondo: nel web i robots posso essere legalmente ignorati.


  • Super User

    aggiungo un elemento alla discussione.. dal blog di Matt Cutts (differenze nella considerazione del tag noindex da parte dei big)

    :ciauz:
    Nicola


  • Bannato Super User

    @lukas said:

    Se hai un sito "normale" puoi non utilizzare il robots.txt e non avrai penalizzazioni di alcun tipo...tuttavia è bene dare un occhiata attentamente a ciò che hai sul tuo sito. Ad esempio per qualche strano motivo potresti avere pagine dinamiche con un solo parametro che Google potrebbe cercare di indicizzare, e se queste pagine sono tutte simili tra loro, potresti essere penalizzato erroneamente per SPAM.
    A me recentemente è successa una cosa così, e con il file robots.txt fatto correttamente ho risolto il problema.
    Si tratta di casi eccezionali ovviamente, però bisogna starci attenti a ciò che Googlebot potrebbe trovare nel tuo sito.

    scusa lukas, sono un po' duro stamattina, potresti spiegarmi meglio ciò che dici? io ho pagine dinamiche, però ho "pulito" l'url con l'url rewrite (che è semplicissimo e già implementato in wordpress).
    inoltre, secondo te, il mio blog rientra nel caso specifico da te descritto?
    grazie...;)