Cosa significa Crawl Budget per Googlebot

giorgiotave

Cosa significa Crawl Budget per Googlebot

Piccola Premessa: sul Webmaster Central Blog di Google è apparso un post a firma di Gary Illyes dove si parla del Crawl Budget. Negli ultimi anni siamo stati sempre molto attenti alle dichiarazioni di chi lavora per Google visto il moltiplicarsi delle opinioni personali nei vari account social.

Questa volta è diverso perché siamo nel blog e perché, anche, la firma è "Posted by Gary, Crawling and Indexing teams". L'ultimo post di Gary in questo blog, datato Settembre 2016, era firmato Gary Illyes, Google Search Ranking Team.

Comunque siamo nel ramo delle cose ufficiali e ne approfitto per dire che questa apertura non mi è piaciuta:

Recently, we've heard a number of definitions for "crawl budget", however we don't have a single term that would describe everything that "crawl budget" stands for externally. With this post we'll clarify what we actually have and what it means for Googlebot.

A parte che Recently vuol dire che stavate facendo altro negli ultimi 10 anni, sarebbe anche il caso di ringraziare la comunità di Webmaster e SEO per il lavoro di divulgazione, anche errato, che viene fatto su alcuni temi dove Google tace.

Lo sforzo, che porta magari alla creazione di parole nuove e quindi di un linguaggio, è stato notevole.

Io infatti sono molto contento che da Google abbiano visto, dopo molti anni, l'esplosione di una determinata tematica e abbiano deciso di chiarire. È importante questo per noi. Sono deluso da questo atteggiamento costante che mina il rapporto di fiducia della comunità con Google.

Sono dettagli, ma fanno la differenza. Auspico sempre che Google crei un team specifico per la comunicazione con Webmaster e SEO.

Detto questo, divulghiamo le tematiche che, dopo questo post ufficiale, stanno sotto la grande tematica del Crawl Budget (con buona pace di Gary che non voleva assolutamente associare questo termine, ma che ci vuoi fare, la comunicazione non è un gioco e quel post è fatto malissimo).

Crawl Budget per Googlebot:

Crawl rate limit
Crawl demand
Fattori che incidono
Altri fatti

**Crawl rate limit
**Fin dove si possono spingere?

Se il sito risponde molto velocemente ogni volta che viene spiderizzato e questo rimane una costante allora il limite sale, altrimenti scende. Il limite scende anche se ci sono molti server error.

Da Search Console possiamo regolare il crawling di Googlebot verso il nostro sito, ma attenzione che alzare il limite non significa che automaticamente aumenteremo il crawling.

**Crawl demand
**Anche se il limite non è raggiunto, quindi Googlebot potrebbe spingersi più in là, non lo fa e c'è un'attività bassa. Perchè?

La popolarità: più un URL è popolare più sarà visitato da Googlebot.
Obsolescenza/invecchiamento: i nostri sistemi tentano di evitare che gli URL diventino obsoleti nell'indice

Ovvio che se avete tante pagine e fare un cambio, Google aumenterà il crawling per fare una nuova spiderizzazione dei contenuti.

**Fattori che incidono
**Ovviamente in modo negativo:

Faceted navigation and session identifiers
On-site duplicate content
Soft error pages
Hacked pages
Infinite spaces and proxies
Low quality and spam content

**Altri fatti
**Questa è la parte di domande e risposte dove vi metto solo i fatti, come per esempio il loro uso naturale della parola Crawl Budget che a inizio articolo dicevano che non esisteva. Sì sì, la scusa è che la usano tutti, ma la verità è che Google ha lasciato un vuoto che altri hanno colmato e ora così, senza pensarci, gonfiando un po' il petto, fanno da maestrine in cattedra. Un grazie era gradito.

Ah, per inciso, non a me il grazie, io non ho inventato questo termine né è il mio ramo specifico, alla comunità internazionale intendo.

Mi ricordo invece quando ricevemmo l'informazione nel 2005 che Google aveva un limite di richieste al giorno per IP.

Ecco i fatti:

Un sito veloce aumenta il crawl rate.
Il crawling non è un fattore di ranking.
I contenuti embeddati, amp, hreflang, css, redirect: tutto viene conteggiato nel Crawl Budget.
La direttiva crawl-delay del robots.txt è ignorato da Googlebot.
Il nofollow incide sul crawl budget perché ogni url che è spiderizzata incide. Ovvio che se una URL ha il nofollow da una parte e non dall'altra, il nofollow non indice.

Buona divulgazione a tutti, continuiamo a inventare parole nuove, magari facciamo un vocabolario comune con delle belle definizioni

Un giorno anche quelli di Google si renderanno conto delle loro mancanze e di chi le copre.

kal

Io sorvolo agilmente sulla polemica di comunicazione, trovo che alla fine ci interessi poco.

Piuttosto, il passaggio chiave conferma la bontà di quello che vado dicendo ai clienti da anni è questo:

Wasting server resources on pages like these will drain crawl activity from pages that do actually have value, which may cause a significant delay in discovering great content on a site.

In breve: ottimizzare il crawl budget è utile perché libera risorse. Risorse che possono essere meglio utilizzate su altro.

Necessaria precisazione, quanto scritto qua:

First, we'd like to emphasize that crawl budget, as described below, is not something most publishers have to worry about. If new pages tend to be crawled the same day they're published, crawl budget is not something webmasters need to focus on. Likewise, if a site has fewer than a few thousand URLs, most of the time it will be crawled efficiently.

E' vero che non ha molto senso parlare di crawl budget su siti "piccoli", nell'ordine delle centinaia/poche migliaia di pagine. Inizia ad essere interessante se le pagine sono 10K o più (o comunque per i siti che generano ogni giorno un gran numero di contenuti nuovi).

raffaele.conte

Io invece aggiungo una cosa che ritengo importante su quello che diceva Giorgio: La scarsa e opaca comunicazione di Google verso i Webmaster e SEO dà il la a tante bufale o false dicerie che girano nel Web nel nostro settore.