• Moderatore

    Attività dei crawler di Google

    Analizzando le visite provenienti dai ragnetti di Google sul mio sito rilevo che i crawlers sono due i cui User-Agent sono:

    1. Googlebot/2_1 (+http://www_google_com/bot_html)
    2. Mozilla/5_0 (compatible; Googlebot/2_1; +http://www_google_com/b

    E' noto che GG effettua due tipi di scansioni: una "leggera" che avviene quasi sempre quotidianamente e analizza solo l'Home Page e eventualmente poche altre pagine direttamente linkate dalla Home.
    Una seconda scansione ("Deep crawling") avviene più sporadicamente ma è molto più profonda: serve per rivisitare l'intero (o quasi) sito web.

    Probabilmente ai due tipi di scansioni corrispondono i suddetti User-Agent.
    Rilevo però che dal 28 Marzo il primo Crawler indicato non viene più a "trovarmi".

    Sapete se sono cambiate le politiche di crawling di Google o se devo aspettarmi che il primo spider nella lista ritorni a farmi visita? Quale dei due è l'addetto al "Deep Crawling"? Adesso fa tutto solo il secondo nella lista (?) :ciauz:

    PS: Quali considerazioni si possono fare sull'analisi dell'attivita dello spider di Google-Desktop (User Agent = Mozilla/4_0 (compatible; Google Desktop)? Posso considerare tali visite come provenienti da visitatori "abituali" (o sono semplici accessi da utenti che hanno salvato alcune mie pagine sui loro Desktop)?


  • Community Manager

    Questo post è molto interessante, sarebbe ancora di più analizzare tramite un apposito software l'attività degli spider.

    Si potrebbero raccogliere dei siti, tanti siti, e poi dare un codice per analizzare gli spider. Poi dividiamo i siti per settore.

    Ma serve un server apposta e un programma apposta. No?

    Giorgio


  • Super User

    @paocavo said:

    Analizzando le visite provenienti dai ragnetti di Google sul mio sito rilevo che i crawlers sono due i cui User-Agent sono:

    1. Googlebot/2_1 (+http://www_google_com/bot_html)
    2. Mozilla/5_0 (compatible; Googlebot/2_1; +http://www_google_com/b

    E' noto che GG effettua due tipi di scansioni: una "leggera" che avviene quasi sempre quotidianamente e analizza solo l'Home Page e eventualmente poche altre pagine direttamente linkate dalla Home.
    Una seconda scansione ("Deep crawling") avviene più sporadicamente ma è molto più profonda: serve per rivisitare l'intero (o quasi) sito web.

    Probabilmente ai due tipi di scansioni corrispondono i suddetti User-Agent.
    Rilevo però che dal 28 Marzo il primo Crawler indicato non viene più a "trovarmi".

    Ciao Paocavo,
    .....no la spiegazione sta nel fatto che da oltre 3 mesi è cambiato il crawler di gg dal vecchio "googlebot" al nuovo "mozilla-googlebot" ... qui trovi tutte le info fra i blogger nostrani, e qui l'articolo di html.it


  • Moderatore

    @Giorgiotave said:

    Questo post è molto interessante, sarebbe ancora di più analizzare tramite un apposito software l'attività degli spider.

    Si potrebbero raccogliere dei siti, tanti siti, e poi dare un codice per analizzare gli spider. Poi dividiamo i siti per settore.

    Ma serve un server apposta e un programma apposta. No?

    Giorgio

    Per il programma ci sto già lavorando 😉 per il server si vedrà...
    Forse una divisione per area geografica dell'IP dei web server visitati porebbe essere indicativa di come si "muove" lo spider...


  • Moderatore

    Grazie per i link! (anche se nel frattempo avevo già risolto l'arcano proposto in questo 3D postato un mese fa...)

    Salutoni!

    @nbriani said:

    Ciao Paocavo,
    .....no la spiegazione sta nel fatto che da oltre 3 mesi è cambiato il crawler di gg dal vecchio "googlebot" al nuovo "mozilla-googlebot" ... qui trovi tutte le info fra i blogger nostrani, e qui l'articolo di html.it


  • Super User

    oops, sorry, non avevo visto la data del tuo post....

    :ciauz:
    Nicola

    p.s. come proseguono gli studi sul tuo interessante lavoro sull'analisi semantica delle keyword di accesso al sito ?


  • Moderatore

    @nbriani said:

    p.s. come proseguono gli studi sul tuo interessante lavoro sull'analisi semantica delle keyword di accesso al sito ?

    Bene, sto raggiungendo ottimi risultati con mix del''algoritmo proposto nel 3D e con il clustering k-means (come suggerito da Low). Adesso sto pensando di passare al passo successivo: analizzare e catalogare paragrafi (non più Keyphrases per MDR) prelevati dal web (per esperimenti sulla creazione di un "proto-MDR" e procedure di Summarization (sunti automatici).

    I dettagli sullo stato di avanzamento dei lavori (lento) saranno disponibili sul 3D relativo (in questo Forum).

    😉


  • User

    gia' lo avevo scritto un po di tempo fa, ma a nessuno e' interessato. mi riferisco al programma x controllare le visite dei motori di ricerca (non solo google). quello che ho fatto, funziona perfettamente.