• Super User

    I percorsi dello spider

    Prendendo esempio dal mio amico micky con cui ormai si è instaurato un rapporto di simpatia e stima reciproca vorrei sottoporre questo banale quesito.

    Fin ad ora mi sembra di aver capito che gli spider dei mdr raggiungono i siti:

    1. per mezzo di segnalazione su apposito form

    2. seguendo i link di altri siti

    e su questo non ci piove....

    ...a questo punto vorrei sapere se dalla seconda visita in poi lo spider raggiunge il sito direttamente o sempre tramite altri link? (o in tutti e due i modi?)....

    ....è ipotizzabile che la visita del bot sia in qualche modo influenzata dalla posizione del sito in una particolare serp?

    :ciauz:


  • User

    Secondo me funziona cosi:

    Lo spider raggiunge il sito per mezzo di segnalazione o link.

    Una volta indicizzato, il sito, a seconda dello spider, verra' visitato 1 volta a settimana (per esempio) per aggiornare la cache e indicizzare nuove pagine.

    Se lo spider, trova un altro link verso questo sito, lo aggiunge come BACK LINK facendolo aumentare (se fosse google) di rank.


  • Super User

    @alexs2k said:

    ...a questo punto vorrei sapere se dalla seconda visita in poi lo spider raggiunge il sito direttamente o sempre tramite altri link? (o in tutti e due i modi?)....

    Varia a seconda di come lo spider è stato progettato.

    A parità di altri fattori, solitamente i motori danno una più alta priorità di spidering ai siti più facilmente raggiungibili attraverso i link sparsi per il Web, cioè a quelli più/meglio linkati.

    Questo obiettivo puà essere raggiunto in vari modi. I due più palesi:

    1. Il motore conserva una lista degli URL e li visita in base alla probabilità che gli stessi hanno di venire raggiunti dagli esseri umani. Per un motore come Google, la probabilità di visita di un URL viene chiamato "PageRank" di quell'URL.

    2. Il motore, oltre a conservare una lista degli URL, simula con i propri spider il comportamento degli utenti, ovvero gli spider vengono fatti partire da un URL (di volta in volta scelto tra tutti quelli esistenti) e ne segue i link in maniera simile a come farebbe una persona. A volte lo spider segue un link che porta ad una pagina dello stesso sito, altre volte segue un link verso un sito esterno. Altre volte salta ad un URl completamente diverso, come se l'utente simulato avesse deciso di digitare un URL nella barra degli indirizzi di un browser.

    Concettualmente i due metodi sono identici, nel senso che sulla carta portano a risultati equivalenti.

    Ma nella pratica viene solitamente usato il primo, perché l'implementazione produce un sistema più efficiente, veloce ed in grado di adattarsi meglio ad eventuali modifiche dei concetti di crawling.


  • Super User

    ok grazie 🙂


  • Super User

    @Alex2k said:

    Prendendo esempio dal mio amico micky con cui ormai si è instaurato un rapporto di simpatia e stima reciproca ...

    :yuppi: ma come faccio a non andare in OT dopo questo :D?
    Grazie è davvero reciproca 🙂

    Secondo me il passaggio del bot è influenzato dalla presenza di link che portano visitatori. Addirittura in un mio sito, non mi ha indicizzato nulla per 20gg, dopo ho raggiunto i 200 al giorno solo dalla link popularity, dopodichè mi ha indicizzato 50 pag in 3 gg :D.