Cos’è un web crawler

Directory


Un crawler  (chiamato anche web crawler, spider o robot), è un software che analizza i contenuti di una rete (o di un database) seguendo percorsi metodici ed automatizzati, di regola per conto di motori di ricerca.

Il crawler rappresenta un tipo di bot (programma o script che automatizza delle operazioni), e solitamente acquisisce  una copia testuale di tutti i documenti visionati creando un indice.

E’ attraverso i  crawler che viene indicizzata la rete web.




Il crawler prende in considerazione una lista di URL da visitare fornita dal motore di ricerca (il quale, inizialmente, si basa sugli indirizzi suggeriti dagli utenti o su una lista precompilata dai programmatori stessi).

Durante l’analisi di un URL e del sito interessato vengono  identifica tutti i collegamenti ipertestuali presenti nel documento i quali vengono poi aggiunti ad una lista di URL .

Attraverso il crawler diviene quindi possibile l’indicizzazione di tutti i siti web o di siti mirati.


 

Discussione

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

%d blogger hanno fatto clic su Mi Piace per questo: