Il file robots.txt serve per comunicare al crawler quali pagine di un sito web devono essere scansionate. Dunque, se vuoi nascondergli alcune sezioni, devi fare affidamento alle istruzioni noindex presenti all’interno della Guida di Search Console di Google.

Inoltre, esso permette la scansione dei siti web più rapida, fluida e per evitare al server un eccesso di richieste da parte del crawler. Ricorda che puoi escludere le pagine duplicate o non essenziali che possono danneggiare il tuo posizionamento.

Adesso che hai chiaro di cosa si tratta, passiamo dalla teoria alla pratica!

Come creare il file robots.txt?

Il file .txt deve essere creato all’interno della directory principale del tuo sito web e nominato “robots”.

Ricorda che puoi avere un solo file robots.txt per sito!

Crea un gruppo

Ogni gruppo può avere una o più istruzioni (chiamate anche regole). L’unico accorgimento che devi avere è quello di ricordarti di utilizzare una sola istruzione per riga.

Istruzioni robots.txt

Le istruzioni possono essere di tre tipi:

user-agent: il crawler a cui si applica la regola
allow: tutti i file o le directory a cui il crawler può accedere
disallow: tutti i file o le directory a cui il crawler non può accedere

Dove inserire robots.txt?

Il file robots.txt deve essere inserito all’interno della directory principale del tuo sito web e fare in modo che il suo URL sia http://www.mywebsite.com/robots.txt.

Non metterlo altrove, altrimenti non funzionerà!

Esempi di Robots.txt

Per esempio, al fine di impedire a Googlebot di eseguire la scansione dell’intero sito web, all’interno del file devi scrivere le seguenti stringhe:

#Prevent GoogleBot from scanning. (questo è un commento. Puoi scrivere quello che vuoi)

User-agent: googlebot
Disallow: /

Se invece vuoi escludere directory specifiche per tutti i crawler:

User-agent: *
Disallow: /directory1
Disallow: /directory2
(l’asterisco significa “tutti”)

Puoi anche escludere tutte le directory tranne una a un crawler specifico:

User-agent: specific-crawler
Allow: /directory1
User-agent: *
Allow: /

In questo modo, stai dicendo che ogni altro crawler può accedere all’intero sito web.

Infine, puoi anche impedire la scansione di un formato di file specifico, come per esempio le immagini jpg:

User-agent: *
Disallow: /*.jpg$

Il carattere “$” stabilisce una regola valida per tutte le stringhe che terminano con .jpg.

Per vedere altri esempi, visita la guida di Google Search Console.

Studia la SEO Tecnica

Siamo arrivati alla fine di questa guida. Come puoi notare, la SEO Tecnica non è una materia semplice, eppure è fondamentale per fare SEO nel modo corretto.

Puoi approfondirla ulteriormente grazie alla nostra raccolta di guide per principianti sulla SEO Tecnica.

Facci sapere nei commenti come procede lo studio!