| 12 Dicembre, 2019

Cos’è il crawling dei motori di ricerca?

 scritto da:
SEO Tester Online
 @seotesteronline
3 min
Indice

Per comprendere a fondo la SEO e le dinamiche che la governano, è importante capire come un motore di ricerca analizza e organizza le informazioni che raccoglie.

Uno dei processi fondamentali che permette ai motori di ricerca di indicizzare un contenuto è il cosiddetto crawling, termine utilizzato per indicare il lavoro del bot (o spider) volto ad analizzare una determinata pagina web.

Come funziona il crawling?

Il motore di ricerca utilizza il crawling per accedere, scoprire e scansionare le pagine del web.

I crawler svolgono l’attività di crawling di un sito web, scansionando tutti i link, come quelli indicati nella sitemap e seguendo (in alcuni casi) le indicazioni riportate nel file robots.txt: un documento che definisce le direttive suggerite al motore di ricerca nella scansione di un sito web.

Tramite il file robots.txt, ad esempio, possiamo suggerire al motore di ricerca di non analizzare/indicizzare determinate risorse del nostro sito web, mentre tramite la sitemap, ovvero una lista degli URL del tuo sito web, possiamo tracciare una mappa che faciliti il lavoro di scansione da parte del crawler.

I crawler dei motori di ricerca fanno uso di algoritmi e di regole per stabilire con che frequenza sottoporre ad una nuova scansione una specifica pagina e quante pagine del sito vanno indicizzate. Ciò è utile, ad esempio per distinguere una pagina che cambia regolarmente da una che rimane immutata. La prima verrà, di certo, scansionata più frequentemente. Uno dei concetti chiave in questo caso è il crawl budget.

Crawling di immagini, audio e video

Solitamente, il motore di ricerca scansiona e indicizza ogni indirizzo URL che incrocia sulla sua strada.

Anche per i file di tipo non testuale come immagini, file audio o video, il motore di ricerca risulta essere sempre più in grado di interpretare i contenuti, ma è di certo sempre meglio lavorare per rendere il nome del file e i metadati “parlanti”, per favorire il lavoro del motore di ricerca, e fare in modo che ogni risorsa sia indicizzabile e si posizionani al meglio nella SERP.

Il crawler su Link, Sitemaps e pagina di submission

Il crawler scopre nuove pagine scansionando quelle esistenti ed estraendo i link ad altre pagine per scoprire nuove URL. 

Questi indirizzi andranno aggiunti alla lista dei file da analizzare e in un secondo momento scaricati dal bot.

Con questo processo, il motore di ricerca troverà sempre nuove pagine dal web, che a loro volta linkeranno ad ulteriori URL.

Un altro modo per riconoscere nuove pagine web è la scansione delle sitemaps. Che, come dicevamo è una lista degli URL, creato per fornire al bot una lista delle pagine scansionabili.

Esempio di sitemap xml

Una terza possibilità è l’invio manuale delle pagine al motore di ricerca. Si usa questa pratica quando si pubblicano nuovi contenuti, o se ci sono dei cambiamenti, e si vuole ridurre il tempo necessario per Google a notare l’update della pagina.

Tale azione è possibile tramite gli strumenti contenuti in Google Search Console.

Schermata Google Search Console

Va precisato, però, che questa strada è percorribile solo quando si vogliono presentare una manciata di pagine (immaginate di dover sottoporre manualmente migliaia di URL uno per uno). Diversamente, Google preferisce l’utilizzo delle Sitemap XML per grandi volumi di URL.

Come funzionano i motori di ricerca?

Certamente, i motori di ricerca sono affascinanti. I loro algoritmi sono ogni giorno sempre più complessi e non è semplice (a volte è addirittura impossibile) comprendere a pieno come funzionano.

Se vuoi saperne di più, ti consigliamo di leggere il nostro articolo sulle fasi i Scansione, Indicizzazione e Posizionamento dei motori di ricerca.

SEO Tester Online
Studia la SEO e scopri come portare il tuo sito web in prima posizione.

Lascia una recensione

avatar
  Subscribe  
Notificami
Articoli correlati
Share via
Copy link
Powered by Social Snap