Cos’è un web crawler
Directory
Un crawler (chiamato anche web crawler, spider o robot), è un software che analizza i contenuti di una rete (o di un database) seguendo percorsi metodici ed automatizzati, di regola per conto di motori di ricerca.
Il crawler rappresenta un tipo di bot (programma o script che automatizza delle operazioni), e solitamente acquisisce una copia testuale di tutti i documenti visionati creando un indice.
E’ attraverso i crawler che viene indicizzata la rete web.
Il crawler prende in considerazione una lista di URL da visitare fornita dal motore di ricerca (il quale, inizialmente, si basa sugli indirizzi suggeriti dagli utenti o su una lista precompilata dai programmatori stessi).
Durante l’analisi di un URL e del sito interessato vengono identifica tutti i collegamenti ipertestuali presenti nel documento i quali vengono poi aggiunti ad una lista di URL .
Attraverso il crawler diviene quindi possibile l’indicizzazione di tutti i siti web o di siti mirati.
Discussione