Nella loro instancabile attività quotidiana i bot attivati per fare il crawling delle pagine da parte dei motori di ricerca possono incontrare tutta una serie di problemi. Alcuni di quelli più fastidiosi sono gli errori 404 che vengono solitamente distinti in Soft 404 e Hard 404.
Visti così sembrerebbe che un errore Soft passa in qualche modo essere meno preoccupante di un errore Hard ma qui, al contrario di ciò che sembra, la conoscenza della lingua inglese ci aiuta solo a intorpidire le acque.
Prendendo spunto da un post che Gary Illyes di Google ha pubblicato sul suo account LinkedIn, proviamo invece a fare chiarezza su quanto possono essere pericolosi e fastidiosi proprio gli errori Soft 404. Cominciamo però con alcune definizioni.
Soft 404 e Hard 404, cosa significano?
L’errore 404 sappiamo già che significa che una pagina o un contenuto che dovrebbe trovarsi a un determinato indirizzo su internet in realtà non è più lì oppure un link che, per tutta una serie di motivi, non è scritto nella forma corretta e quindi non rimanda al contenuto per il quale era stato indicizzato.
Se la pagina non è più al suo posto si può mettere in pratica una correzione. Tecnicamente questi errori sono definiti errori Hard 404. Il motivo è che sono errori che sono mostrati nello stesso identico modo sia all’utente sia al bot che si sta occupando di fare crawling del contenuto.
La differenza, e quindi la necessità di avere degli errori definiti Soft 404 è quando ciò che l’utente vede e ciò che il crawler vede non sono la stessa cosa.
Gli errori Soft 404 sono quegli errori che si verificano nel momento in cui il server produce un codice status 200, ovvero il codice che indica che va tutto bene, ma in realtà il contenuto poi non c’è o la URL non è corretta.
Un esempio di codice 404 che si risolve in un Soft 404 è quando si permette al sito di reindirizzare alla home page in caso di contenuti mancanti. Stesso discorso se il crawling finisce poi con il toccare una pagina 404 personalizzata. Google etichetta questo genere di comportamenti come errori Soft 404.
Per avere sotto controllo quello che non va sul tuo sito puoi fare riferimento alla Search Console, che ti restituisce il volume e poi l’elenco delle pagine che, a seguito dell’esame dei bot, hanno restituito un errore 404. Quello che però risulta interessante è che un errore Soft 404 non si verifica soltanto se crei una pagina che reindirizza ma anche se il crawler per esempio individua quello che viene considerato “thin content”.
Ovvero un contenuto che non ha una quantità di elementi testuali, quindi di parole, sufficienti a permettere una corretta classificazione di ciò che c’è all’interno. E un’altra situazione in cui si può incappare in un errore Soft 404 è in caso di contenuti duplicati. Se hai alcune pagine che condividono una quantità eccessiva di contenuto ti ritroverai che alcune di quelle pagine producono un errore 404, nella versione Soft.
La soluzione degli errori Soft 404 è quella di andare a stanare per esempio le pagine con poco contenuto significativo o quelle che si somigliano troppo prestando, in generale, attenzione a che tutti i link funzionino e rimandino a qualcosa che si trova effettivamente sul tuo sito WordPress. Un errore 404 può comunque capitare, ma paradossalmente, e lo vedremo andando a leggere con attenzione il post di Gary Illyes, è meglio che sia un errore Hard 404.
Perché Soft non va bene?
Il post di Illyes racconta gli errori Soft 404 dal punto di vista dei bot. L’esperto analista di Google fa un esempio che è ottimo per comprendere quanto sono fastidiosi questi errori. Il Soft 404 viene infatti paragonato a quelle situazione in cui il menù di un bar di un ristorante offre una serie di prodotti che però in realtà non sono disponibili in cucina.
Tutto sembra funzionare, sulla carta, ma nella realtà non funziona nulla. I bot che si trovano a dover fare crawling delle pagine web e vengono accolti da risposte 200 quando in realtà il link non funziona sprecano così risorse.
Risorse che, prosegue il ragionamento di Illyes, potrebbero invece essere utilizzate al meglio per catalogare e indicizzare le pagine in cui sono realmente presenti buoni contenuti, che farebbero del bene agli utenti e, di riflesso, al sito web su cui si trovano. Il problema con gli errori Soft 404 è che sprecano “crawl budget”, ovvero quelle risorse che vengono allocate al tuo sito da parte dei bot.
E sono risorse doppiamente sprecate perché, oltre a consumare spazio per altro, le pagine poi non vengono mostrate e quindi non producono traffico.
In generale quando esamini il tuo sito web attraverso la Google Search Console, devi essere attento e accorto ad esaminare tutto ciò che non va. Ogni volta che un contenuto o una pagina produce una anomalia stai, nei fatti, sprecando risorse e lasciando campo alla concorrenza.