La guida al file robots.txt

guida file robot.txt

Hai sentito parlare del file robots.txt e vuoi sapere come utilizzarlo per il tuo sito web?

In questa guida introduttiva troverai tutte le informazioni di cui hai bisogno per creare e configurare questo file. Inoltre, vedremo se è realmente utile per la SEO.

Iniziamo la nostra guida. Prima però voglio ricordarti che che puoi richiedere subito la consulenza del nostro esperto SEO, se hai domande su come far crescere il tuo sito web sui motori di ricerca. Fissa subito una call gratuita!

Che cos’è il file robots.txt

Il file robotx.txt è il mezzo utilizzato dai web master per fornire istruzioni ai bot dei motori di ricerca (cioè, ai robottini che si occupano della scansione delle pagine web). Questo strumento si definisce Protocollo di Esclusione Robot (in inglese, Robots Exclusion Protocol).

Quando un bot inizia il processo di scansione di un sito web, il primo URL che visita è www.example.com/robots.txt; qui troverà le istruzioni fornite dal web master.

Concretamente, si può usare il file robots.txt per indicare ai bot di non effettuare la scansione di una o più pagine del proprio sito web. Questo è particolarmente utile se si hanno, per esempio, contenuti duplicati che potrebbero causare una penalizzazione da parte dei motori di ricerca.

La struttura del file robots.txt

La struttura base di questo file è molto semplice; ecco un esempio:

User-agent: *
Disallow:

La prima riga serve ad indicare i bot a cui si desidera comunicare le istruzioni (in questo caso, il simbolo * indica “tutti i bot”).

La seconda riga, invece, si riferisce alle pagine/sezioni del sito web che non dovrebbero essere visitate dai bot (nell’esempio, nessuna).

Un file contente i codici qui sopra NON esclude, quindi, alcun bot o pagina del sito web dal processo di scansione.

Nelle prossime sezioni di questa guida, approfondirò l’utilizzo dei vari codici all’interno del file.

Sitemap

Il file robots.txt può essere utilizzato anche per indicare ai bot la locazione della sitemap del proprio sito. Questo può essere fatto aggiungendo al file la seguente riga (personalizzata con le informazioni relative al proprio spazio web):

Sitemap: http://example.com/sitemap_location.xml

Utilizzare WordPress è un innegabile vantaggio anche in termini di SEO, ti spieghiamo perché.

Dove creare il file

Non tutti i siti hanno un robots.txt: se i bot non trovano alcun file, effettueranno la scansione di tutte le pagine. Questo accade anche se un file esiste ma non contiene alcun testo.

Se vuoi creare un file robots.txt per il tuo spazio web, aggiungi il file alla directory top-level del tuo server (in modo che i bot possano trovarlo visitando www.example.com/robots.txt , o, in altre parole, sostituendo robots.txt a index.html)

Nome del file

Quando crei il file per il tuo sito web, assicurati di chiamarlo robots.txt usando solo lettere minuscole (se utilizzi il maiuscolo, i bot non saranno in grado di riconoscere il file).

I codici da utilizzare

Vediamo, dunque, quali sono i codici che puoi utilizzare all’interno del file per fornire istruzioni ai motori di ricerca (in questa guida indico solo i codici fondamentali; per approfondire l’argomento, visita il sito ufficiale dedicato del Protocollo di Escusione Robot)

User-agent

Come abbiamo già visto, questo campo serve ad indicare i bot specifici a cui sono indirizzate le istruzioni.

Un asterisco, come vedi di seguito, è utilizzato per indicare “tutti i robot”:

User-agent: *
Disallow:

E’ però possibile anche indicare i nomi dei singoli user-agent (per esempio, se si vuole limitare l’accesso al bot di un particolare motore di ricerca). Visita questa pagina per trovare la lista dei nomi dei bot di tutti i motori di ricerca.

Se si desidera creare istruzioni specifiche per diversi user-agent, è possibile farlo in questo modo:

User-agent: nomeuseragent1
Disallow:
User-agent: *
Disallow: /latuadirectory/

Disallow

Questa voce introduce la lista di pagine/sezioni che i bot non dovrebbero visitare.

Uno slash indica “tutti i contenuti del sito”.

User-agent: *
Disallow: /

Quindi, il codice qui sopra servirà a bloccare tutti i bot da tutto il sito.

Lasciare uno spazio vuoto, come vedi qui sotto, permette invece completo accesso (in quando non viene imposta alcuna restrizione).

User-agent: *
Disallow:

Directories

E’ possibile restringere l’accesso a specifiche directory del server. Per farlo, è sufficiente indicare ciascuna directory (una per riga) dopo la dicitura Disallow:

User-agent: *
Disallow: /junk/
Disallow: /tmp/

Altre informazioni specifiche per i bot Google possono essere trovate su questa pagina.

Note importanti

I bot possono decidere di ignorare il file robots.txt. Questo avviene più spesso nel caso di bot “maligni” (per esempio, quelli utilizzati per attività di spamming);

Il file robots.txt è pubblicamente accessibile. Fai quindi attenzione a non inserire informazioni riservate.

Da queste due note, puoi facilmente comprendere perché questo file non dovrebbe essere utilizzato per nascondere parti del tuo sito web.

Inoltre, segnalo che:

Ciascun sottodominio deve avere un proprio robots.txt;

Ogni parametro deve essere inserito su una riga singola (come abbiamo visto nell’esempio relativo alle directories). Non vengono riconosciuti spazi o virgole.

Robots.txt e SEO

Vediamo, ora, se il file robots.txt può essere realmente utilizzato ed ottimizzato per la SEO.

Per iniziare, voglio fare un’importante distinzione tra l’attività di scansione (crawling) e quella di indicizzazione (indexing).

Il termine scansione si riferisce all’attività di analisi delle pagine web svolta dai crawler dei motori di ricerca. Questi robottini analizzano contenuti, link, ecc; e riferiscono le informazioni trovate ai server.

Indicizzazione indica, invece, l’inserimento degli URL delle pagine web nell’indice dei motori di ricerca.

Talvolta, anche se i bot dei motori di ricerca “rispettano” l’istruzione di non effetturare la scansione di specifiche pagine web, queste vengono comunque indicizzate.

In questo caso, gli URL delle singole pagine appaiono sulla pagina SERP ma ad essi non viene associata alcuna informazione.

D’altro lato, è anche possibile che i bot ignorino del tutto il file robots.txt.

Suggerisco, quindi, di bloccare i bot dei motori di ricerca utilizzando Meta NoIndex. In questo caso, mi riferisco ai tag meta da posizionare nella sezione “head” della pagina html per la quale si vuole restringere l’accesso.

Generalmente, questa soluzione funziona meglio, in quanto previene l’indicizzazione delle pagine (per vedere esempi di codice, consiglio di visitare questa pagina).

Seppur utilizzare i tag meta sia preferibile, è da segnalare che anch’essi possono essere ignorati dai bot dei motori di ricerca.

D’altro lato, è importante assicurarsi che non sia bloccato l’accesso a parti del sito che vuoi siano indicizzate dai motori di ricerca.

Conclusione

In questa guida introduttiva hai imparato che cos’è e come creare un file robots.txt. Abbiamo anche visto se è effettivamente utile per la SEO e come si differenzia dal tag Meta NoIndex.

Il tuo sito ha già questo file? Quali configurazioni hai utilizzato? Se hai domande o suggerimenti, ci vediamo nella sezione commenti qui sotto.

Consulenza SEO per Siti in WordPress

Andrea Di Rocco

Andrea Di Rocco

Ciao! Sono Andrea, il webmaster di SOS WordPress. La mia missione è di aiutarti a diventare autonomo nel creare il tuo sito web, posizionarti sui motori di ricerca e guadagnare online grazie al tuo progetto. Oltre a questo voglio far si che tu spenda il minor quantitativo di soldi e tempo mentre raggiungi i tuoi obiettivi sul web. Conosciamoci nell'area commenti di questo articolo!

[PROMO LIMITATA] 50% SU HOSTING SITEGROUND + ASSISTENZA SOS WP GRATIS

SiteGround - Miglior hosting per Wordpress
32 commenti
  1. dice:

    Ciao Andrea,
    ti chiedo un consiglio in merito ai file robots.
    Solitamente con i siti dei nostri clienti utilizziamo delle url di prova e con gli ultimi due mi è capitato che quando li crico online sulla url definitiva, google mantiene in memoria anche la url di prova dando errore 404.
    La mia domanda è per evirtare il problema della indicizzazione della url di prova posso utilizzare il file robots impostato su “Disallow: /” e modificare l’impostazione solo quando viene caricato nella url definitiva?
    Grazie mille
    daniela

    Rispondi
  2. dice:

    Ciao Andrea,
    mi risulta da un test che 5 pagine indicizzate del mio sito non son state trovate nella sitemap. Da che cosa può dipendere? Come posso intervenire. Grazie mille!

    Rispondi
  3. dice:

    Ciao Andrea,
    Ho un problema con la scansione del robots.txt di GWM sui banners dei miei inserzionisti(tutti diversi) che risultano bloccati. Posso escluderli dal crawl inserendo un codice Disallow? Se sì, potresti dirmi come dovrei scriverlo?

    Grazie per l’utilissimo post

    Rispondi
    • dice:

      Ciao Paola!
      Per escluderli dal crawl puoi semplicemente mettere il link degli inserzionisti come “Nofollow”.
      Come mai vuoi inserire il Disallow? In questo caso la via più diretta sarebbe quella che ti ho indicato.
      Fammi sapere, e grazie del tuo commento!

      Rispondi
  4. dice:

    salve andrea
    le volevo chiedere un consiglio, se lascio il Disallow: senza toccare niente in questo caso viene scansionato tutto giusto? e consigliabile lasciarlo così oppure mettere delle limitazioni? io poco fa avevo aggiunto la stringa /wp-admin, ma dopo un po ci sono stati molti blocchi nel sitemap, forse perche avevo qualche configurazione su Yoast SEO che mi recava tale problema, le volevo chiedere se adesso lascio il Disallow: senza nessun tipo di blocco rischi qualcosa in termine di sicurezza al blog? avevo letto in giro che alcune cartelle meglio non condividere, per questo avevo modificato il file, spero di essere stato chiaro nel mio problema, grazie in anticipo e mi scusi per il msg lungo.

    Rispondi
    • dice:

      Ciao Luigi,
      nessun problema, sono felice di risponderti ;-).
      Vorrei capire se hai lasciato la stringa che avevi inserito, oppure no. Non credo che possa essere particolarmente utile per te la modifica del file sia in chiave sicurezza, sia per l’indicizzazione. Un saluto!

      Rispondi
    • dice:

      Ciao Lorenzo,
      se usi già un buon plugin per la SEO (come Yoast SEO), può essere ininfluente.
      Grazie del tuo commento, un saluto

      Rispondi
    • dice:

      Ciao Pietro,
      il file robots.txt va inserito nella cartella principale del tuo sito, non in una sotto cartella.
      Il suo indirizzo dovrebbe quindi essere “www.ilmiosito.it/robots.txt“.
      Spero di esserti stato di aiuto,
      Un saluto, e continua a seguirci!

      Rispondi
  5. dice:

    grazie, ho trovato interessante la tua lezione, non riesco però a trovare il file robots.txt “fisicamente”, cioè esploro le dir sia in ssh che in ftp e non lo trovo, però e lo chiamo sito/robots.txt invece funziona e si vede… perché questo mio interesse? Perché google mi riporta degli errori di scansione e disponibilità del nostro caro file e non si capisce il perché… è forse un file “nascosto”? Non credo perché con l’SSH io vedo tutto ed i permessi delle directory sono chiari e non può esserci nulla di “nascosto”, ed allora? Gestisco la sitemap con due plugin, il Google XML Sitemaps di Arne Brachhold, ed il WordPress SEO di Joost de Valk, ma sembra che il file robots lo scriva il primo plugin, mettendoci la propria sitemap e non la seconda. Ora, c’era quindi ridondanza e quindi ho disattivato il primo plugin, visto che il secondo gestisce anche la parte seo, e vedrò se google continuerà a lamentarsi sulla raggiungibilità del robots.txt… resta però il fatto che non si “vede” fisicamente il file…. alla ricerca del file perduto… chiamo harrison ford?

    Rispondi
    • dice:

      Ciao Alberto,
      non credo serva scomodare Harrison Ford per trovare il file robots.txt :-).
      Quali errori ti riporta Google?
      Un saluto!

      Rispondi
    • dice:

      Ciao Alberto,
      speriamo di non dover chiamare Harrison Ford..;-).
      Dimmi, che errore ti segnala Google in dettaglio?
      Un saluto!

      Rispondi
      • dice:

        Ciao, vabbeh, Indy ha ben altro da fare per fortuna… ecco che cosa mi dice il Google pensiero…
        Googlebot can’t access your site

        Over the last 24 hours, Googlebot encountered 21 errors while attempting to access your robots.txt. To ensure that we didn’t crawl any pages listed in that file, we postponed our crawl. Your site’s overall robots.txt error rate is 70.0%.

        Rispondi
        • dice:

          Ciao Alberto,
          se hai disattivato il primo plugin, penso che ti convenga creare tu stesso il file robots.txt.
          Fammi sapere!

          Rispondi
            • dice:

              Ciao Alberto,
              devi inserire il file nella cartella principale del sito, quella che contiene anche wp-content/wp-admin/wp-includes, e anche il file index.php.
              Un saluto!

              Rispondi
  6. dice:

    Grazie per la guida, ho solo una domanda: ci sono directory di un sito creato con wordpress che consigliate di “oscurare” ai bot di google? Lo chiedo perche avevo letto in rete che alcune directory potrebbero contenere file duplicati che abbasserebbero il rank. Grazie ancora per il vostro lavoro e per aver accolto la mia richiesta nel pubblicare questa guida.

    Rispondi

Lascia un Commento

Vuoi partecipare alla discussione?
Fornisci il tuo contributo!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *