Il Crawl Budget è uno di quei termini che si sentono spesso legati alle performance dei siti web. Ma cosa esattamente è il Crawl Budget? Chi lo calcola? Come si gestisce?
Ogni sito web occupa uno spazio all’interno della rete con i suoi contenuti organizzati da una serie di URL.
Ciascun URL rimanda a una pagina (o a un elemento all’interno di una pagina), e per apparire nelle ricerche è necessario che qualcuno sappia che quell’URL esiste per poter mostrare il contenuto collegato ad esso.
Questa è l’attività svolta dai bot che esaminano la rete, scoprono i nuovi URL e indicizzano il contenuto delle pagine in modo tale che poi, nelle ricerche degli utenti finali, i contenuti corrispondenti possano emergere.
Ci è capitato più volte di parlare di ciò che si può fare per apparire nei risultati di ricerca e anche di cosa fare nel caso specifico in cui alcuni contenuti non vengano indicizzati da Google neanche dopo un periodo di tempo piuttosto lungo.
Ma quello che facciamo oggi è concentrarci su cosa fanno i bot e come lavorano. Analizziamo quindi il Crawl Budget.
Andando a guardare anche le fonti ufficiali, il Crawl Budget non è altro che il tempo che un bot di Google ha a disposizione per esaminare gli URL di un sito web.
Non è quindi qualcosa che puoi decidere tu, ma è comunque qualcosa su cui puoi intervenire. È per questo che, per esempio, su Google Search Central c’è una documentazione dedicata ed esiste una sezione apposita per l’ottimizzazione (un argomento che poi vedremo).
Il compito di ciascun bot è quindi quello di esaminare ciò che c’è e riportarlo in maniera indicizzata, affinché i contenuti e gli URL vengano inseriti all’interno della SERP quando si effettua una ricerca.
La presenza del Crawl Budget è necessaria, e di nuovo prendiamo questa informazione dalla documentazione ufficiale di Google, proprio perché potenzialmente la rete è infinita e quindi si potrebbe compiere un’azione che, di nuovo potenzialmente, non ha fine.
Quello che determina il Crawl Budget è la somma di due elementi specifici: da una parte il limite della capacità di effettuare il crawling e dall’altra la domanda.
Cominciamo con questo secondo elemento. Google decide quanto tempo dedicare alla scansione e quindi al crawling di un sito web confrontandolo con siti che hanno le stesse dimensioni e che quindi hanno lo stesso numero di URL e di pagine da scansionare.
Siti piccoli e siti grandi vengono quindi trattati con indicazioni leggermente diverse, proprio perché la quantità di ciò che c’è all’interno di un sito con poche decine di pagine è diversa da quella che può trovarsi all’interno di un sito che ha decine di migliaia di contenuti e di URL.
Un altro elemento di cui abbiamo accennato è il limite nella capacità di eseguire il crawling, ovvero ciò che il bot può fare all’interno del server su cui è ospitato il tuo sito web senza sovraccaricarlo.
Così facendo, il lavoro del bot non influenza, o quanto meno non dovrebbe influenzare, il normale funzionamento del sito web e le visite degli utenti umani.
I due valori, il limite della capacità di crawling e la domanda di crawling, possono variare nel tempo. Un esempio facile da comprendere è un sito piccolo che diventa un sito più grande: se il sito si avvicina come dimensione a siti più grandi per i quali per esempio la domanda di crawling è più alta, il tempo che verrà poi messo a disposizione aumenta.
Abbiamo visto quali sono gli elementi principali che influenzano la quantità di tempo che un bot inviato da Google per esaminare il tuo sito ha a disposizione per scansionare gli URL in cerca di contenuti, per esempio nuovi o aggiornati, e di cambiamenti eclatanti che vanno inseriti nella SERP.
Ma come si fa a sapere se effettivamente un bot funziona correttamente e ha esaminato i tuoi contenuti? Di nuovo dalla guida ufficiale che Google dedica agli sviluppatori, ci sono diverse azioni che puoi compiere per verificare se i bot incontrano difficoltà, se il Crawl Budget a disposizione con il tuo sito è sufficiente o se non sia il caso di ottimizzare.
La prima cosa da fare è ovviamente assicurarsi che il sito sia in grado di gestire il traffico che arriva dal bot. Se hai un server di dimensioni troppo ridotte e quindi, nel momento in cui arriva un bot, si creano problemi e rallentamenti, il Crawl Budget non può essere sfruttato in maniera adeguata.
C’è poi da controllare se ci sono pagine che non si caricano abbastanza velocemente. Se i contenuti sono lenti nel rispondere all’esame dei bot, di nuovo si genera una perdita di tempo che ovviamente non vuoi.
La terza cosa da controllare è se ci sono dei contenuti e degli URL che magari non hanno necessità di essere indicizzati e che quindi vanno correttamente segnalati. Per esempio, attraverso una corretta gestione del proprio inventario degli URL.
Abbiamo appena accennato al fatto che potresti decidere che all’interno del tuo sito ci sono degli URL, e quindi dei contenuti, che non vuoi che vengano indicizzati.
I motivi per cui un contenuto potrebbe non essere indicizzato per volere del gestore del sito sono diversi e ognuno segue quelle che sono le proprie strategie. Anche decidere che un contenuto non deve essere scansionato e indicizzato fa parte di un’eventuale strategia per posizionarsi correttamente nella SERP.
Il cuore di tutto è ovviamente il file robots.txt in cui puoi inserire gli URL che vuoi che il bot ignori per convogliare così la sua attività e il Crawl Budget che ha a disposizione sui contenuti che invece devono essere indicizzati per permetterti di apparire nella SERP.
Importante è l’utilizzo, che Google in realtà sconsiglia, del tag noindex. Questo tag sembra, dall’esterno, la soluzione per escludere l’indicizzazione di un contenuto, ma in realtà i bot iniziano comunque la scansione anche dei contenuti con questo tag fino a quando non lo incontrano.
Un altro elemento importante da controllare sempre perché il Crawl Budget allocato al tuo sito web sia utilizzato nella maniera corretta è la presenza di errori, come per esempio i famigerati errori 404.
Anche le pagine che rimandano a un errore potrebbero finire scansionate e quindi consumare inutilmente del Crawl Budget. Ciò che devi fare è assicurarti che gli errori non si verifichino e, eventualmente, segnalarli al bot.
Stesso discorso per il reindirizzamento di un contenuto. Può capitare di eliminare una pagina e di aver spostato il contenuto su un altro URL.
Ciò comporta eventualmente un reindirizzamento che va segnalato, ma occorre evitare che ci siano contenuti che generano catene di reindirizzamento perché vanno a influire negativamente su quella che è poi la scansione.
Per avere una buona panoramica di quello che succede, ricordati di controllare i log dei server. Così facendo, puoi sapere quali sono gli URL che vengono visitati, gli errori e anche i reindirizzamenti. Attenzione perché non tutti i piani di hosting e non tutte le tipologie di hosting consentono di guardare i log dei server.
Un componente su cui puoi lavorare che ha un’influenza interessante sul Crawl Budget e sulla scansione del tuo sito è ovviamente la sitemap.
La costruzione di una sitemap corretta aiuta a indirizzare gli sforzi dei bot su quei contenuti che sono per te più importanti rispetto ad altri.
È infatti ciò che si trova sulla sitemap che viene scansionato con priorità rispetto ai contenuti che i bot per esempio potrebbero trovare per caso esaminando il tuo sito in cerca di aggiornamenti.
È chiaro però che non puoi, o non dovresti, inserire tutte le pagine del tuo sito web all’interno della sitemap. Così facendo rischi di ottenere l’effetto contrario e di far sprecare ai bot il loro Crawl Budget su contenuti che non ti servono. Quello che può fare una sitemap è creare delle indicazioni riguardo le aree che vuoi emergano nella SERP.
Per coloro che vogliono ampliare il loro bacino potenziale di utenza, l'alternativa agli spazi Google…
L'IA è uno strumento potentissimo che sta ridefinendo il campo di gioco e i professionisti…
La sicurezza del tuo sito costruito con WordPress passa anche per la sicurezza di tutti…
Per decenni, il "passaparola" tra amici e familiari è stato il Santo Graal del marketing.…
Nel marketing digitale, metriche come il traffico e i "like" sono spesso viste come l'obiettivo…
Google offre a chi costruisce siti web tutta una serie di servizi che consentono di…