• User

    analisi di access.log per ottimizzazione del crawl budget

    Ciao a tutti,
    analizzando access.log mi sono accortogoogle continua a scansionare anche URL non più presenti nel proprioindice.
    Facendo dei test a campione ho vistoche in molte queste URL vi sono dei chain redirect.
    Secondo voi vale la pena di correggerlioppure questa operazione va limitata solo agli URL importanti delsito già indicizzati e posizionati?


  • Moderatore

    Ciao Raffaele,
    è importante correggere tutto, specie i chain redirect.


  • Moderatore

    Ciao,
    @raffaele80it said:

    Ciao a tutti,
    analizzando access.log mi sono accortogoogle continua a scansionare anche URL non più presenti nel proprioindice.
    Facendo dei test a campione ho vistoche in molte queste URL vi sono dei chain redirect.
    Secondo voi vale la pena di correggerlioppure questa operazione va limitata solo agli URL importanti delsito già indicizzati e posizionati?
    Dò per scontato tu abbia verificato si tratta proprio di googlebot e non di casi di spoofing dello user-agent da parte di bot che seguono link ai vecchi URL.

    Ricordo di aver letto in qualche documento Google che il motore di ricerca controlla per un po' di tempo URL nel proprio indice anche se sono redirezionati (in modo permantente, es. 301) così da essere sicuro i redirect non siano stati impostati erroneamente.
    I vecchi URL in realtà non sono tolti dall'indice, sono solo nascosti alla SERP, così che il grafo dei link possa tenere conto di link che puntano ai vecchi URL.

    Dipende da quanto ti sta a cuore il problema.

    I chain redirect richiedono più tempo a Google per aggiornare il proprio indice perché ogniqualvolta googlebot incontra un redirect, non lo segue direttamente: lo riporta al motore di ricerca che pianificherà una visita al nuovo URL trovato. Ne consegue maggior consumo di crawl budget e tempi maggiori per arrivare all'aggiornamento dell'indice con le pagine di destinazione.

    Va però detto che dopo un po' al risultato ci si arriva. Se i redirect concatenati sono frutto di una migrazione e non sono prodotti di continuo, se il sito non è poi così grosso, e se una semplice regola generica non è sufficiente a risolvere tutto con un redirect unico, potresti anche giudicare non ne valga la pena se giudichi che possa essere solo una situazione transitoria che non prenderà troppo tempo.
    Se però fosse tutto risolvibile con poco sforzo, io lo farei.

    Tieni anche conto che la gran maggioranza dei siti non ha problemi di crawl budget. E' un problema che riguarda solo siti di grosse dimensioni (centinaia di migliaia o millioni di URL) soggetti a frequenti aggiornamenti dei propri contenuti. Es. grossi e-commerce.
    Per siti di poche centinaia di pagine è un non problema. Per dimensioni intermedie va valutato di caso in caso. Di solito non lo è.

    Diverso sarebbe invece il caso in cui non si tratta proprio di Googlebot, ma di user-agent spoofing (lo puoi verificare facendo un reverse-dns dell'indirizzo IP tracciato nei log).
    In quel caso non avresti uno spreco di crawl-budget da parte del motore di ricerca perché del motore di ricerca non si tratta 🙂

    Spero d'esserti stato utile.