Da parte di Google è arrivato un annuncio sul blog ufficiale Search Central che ha come oggetto i GoogleBot e un tool che era inserito all’interno di Search Console.
I GoogleBot sono il sistema con cui Google annusa internet, esamina i siti web e poi raccoglie su di essi tutte le informazioni che potrebbero essere necessarie nel momento in cui un utente esegue una ricerca. Sono quindi degli strumenti del tutto innocui e che anzi hanno uno scopo ben preciso che è quello di indicizzare ciò che c’è sulle pagine del tuo sito WordPress.
Ma il loro lavoro può avere ripercussioni sulla qualità dell’esperienza che gli utenti stessi hanno poi di quei contenuti indicizzati. Un problema che finora era stato contenuto grazie all’introduzione di un tool specifico che poteva essere modulato. Ma secondo quanto annunciato da Google quel tool ora non serve più, perché i bot sono diventati molto più bravi nel fare il loro lavoro senza interferire con il traffico degli utenti. Esaminiamo quindi l’annuncio e cerchiamo di comprendere quelle che potrebbero essere le conseguenze sul tuo lavoro nel momento in cui il tool verrà effettivamente spento.
I GoogleBot più educati, il Crawl Rate Limiter Tool va in pensione
Con un post sul blog Google Search Central è stato annunciato che a partire dal prossimo 8 gennaio 2024 il Crawl Rate Limiter Tool non sarà più attivo. Si tratta di un tool arrivato circa una quindicina d’anni fa su richiesta proprio dei gestori dei siti web che si trovavano a dovere a volte fronteggiare una situazione piuttosto spiacevole con i siti, o più specificatamente i server su cui i siti erano costruiti, che venivano investiti da una quantità altissima di bot che poi avevano ripercussioni sul traffico e sulla tenuta dei siti.
Il tool permetteva di controllare la quantità di bot che potevano raggiungere un sito e le sue pagine. Nonostante però l’ottima idea il tool era piuttosto lento e di solito impiegava circa 24 ore per attivare il limite che poi però ogni 90 giorni andava resettato e poi inserito di nuovo. A quanto pare tutto questo lavoro sta per andare in soffitta. L’annuncio parla infatti di “miglioramenti” che sono stati fatti alla “logica del crawling e agli altri tool disponibili ai publisher” che hanno reso l’utilizzo di questo particolare strumento obsoleto. Anche nel post ufficiale si riconosce che il Crawl Rate Limiter Tool era piuttosto lento mentre la nuova tecnologia che supporta i GoogleBot è ora in grado di percepire in modo automatico se un server rischia di superare la propria capacità ottimale e quindi rallentano da soli la frequenza delle loro visite.
Una situazione che ha quindi lo scopo di semplificare la vita dei gestori di siti web. Sei il tuo sito ha sperimentato in qualche occasione dei picchi nel traffico dovuto ai bot questa situazione verrà adesso gestita in modo automatico dagli algoritmi che gestiscono i GoogleBot. Questa dovrebbe però essere la situazione ottimale E infatti in chiusura di post, Google raccomanda di utilizzare comunque il form con cui è possibile chiedere di ridurre la frequenza della scansione. Il fatto che l’algoritmo sia migliorato non significa che sia ovviamente perfetto. E quando si parla di bot e di crawler si parla anche di file robots.txt. Quanto conosci il tuo?
Cosa c’è nel file robots.txt e come utilizzarlo
Il file robots.txt è un file che, da definizione Google, serve a dire ai motori di ricerca quali sono le URL presenti sul tuo sito e su cui possono lavorare. Si tratta di un altro sistema per limitare l’eventuale sovraccarico ma non può essere utilizzato per escludere una pagina web dal crawling dei bot. Ricordando che per escludere tecnicamente una pagina occorre inserire il codice noindex o aggiungere una password, vediamo invece cosa fa e a cosa serve il file robots.txt.
Questo file, che si trova all’interno della directory principale del sito, viene costruito da zero e, una volta costruito, periodicamente potrebbe essere aggiornato. Nel file possono essere inseriti alcuni bot nella categoria Consenti e altri bot nella categoria Non Consenti: Allow e Disallow. Molto interessante è da notare che per esempio, oltre ai bot dei motori di ricerca, puoi anche permettere o non permettere che i contenuti del tuo sito vengano scandagliati dai bot che OpenAI manda in giro per far studiare, potremmo dire così, l’intelligenza artificiale di ChatGPT. Il file robots.txt può essere aggiornato, se per esempio decidi di escludere ChatGPT, ma per fare ciò non puoi agire all’interno del sito. Quello che devi fare è scaricare il file, modificarlo e ricaricarlo. Tieni presente che le modifiche al file robots.txt entrano di solito nel sistema con uno scarto di 24 ore. Se hai bisogno di fare un aggiornamento più rapido della cache puoi utilizzare il tester dei file robots.txt.