Benvenuto Visitatore

Motori di ricerca: criteri di valutazione

Nel campo del recupero di informazioni nel Web, un ruolo di straordinaria importanza è dato ai motori di ricerca. Essi, grazie ad un incessante processo di caching dei siti presenti in rete e di indicizzazione, riescono a fornirci all’istante centinaia di link. Ma quali parametri possiamo usare per giudicare l’operato del motore di ricerca?

I motori di ricerca svolgono un ruolo fondamentale nel World Wide Web odierno. Al punto che un motore di ricerca innovativo che utilizzi delle nuove tecniche di indicizzazione e di ranking delle informazioni raccolte, può rapidamente diventare una forza di prim’ordine nell’intero panorama informatico mondiale. E questo processo di acquisizione di sempre più potere sta andando “in onda” in questi ultimi mesi da parte di google. Ma parleremo un’altra volta dei dettagli di google e del concetto che l’ha reso così grande. Per oggi voglio parlarvi dei criteri che possono essere utilizzati per giudicare il funzionamento (efficacia oltre che efficienza) di un motore di ricerca.

Gli algoritmi di indicizzazione sono sempre più complessi. All’inizio la logica era “il documento è rilevante a questa ricerca effettuata se contiene la parola richiesta dall’utente”. Era un “dentro o fuori”.. una logica booleana. Poi è stata introdotta la logica Fuzzy, per cui non esistono solo due valori, ma un grado di pertinenza variabile. Per ora, se non sapete di cosa stia parlando, prendete queste informazioni così come ve le passo, sarebbe troppo OT spiegarvi tutto questo ora. Poi tanto non è il fulcro del mio discorso.. per cui passiamo oltre.

Grazie agli algoritmi di indicizzazione, un motore di ricerca può capire se un documento (nel nostro caso una pagina Web) sia o meno legata alla query effettuata dall’utente. Ma il risultato com’è? Dunque, non ci sono dei criteri standard per dire se il motore di ricerca si comporta al meglio oppure no; questo perchè è necessario valutare l’operato di un search engine in una determinata richiesta.

Vediamola così. C’è un insieme di documenti collezionati, arriva la richiesta e alcuni di essi vengono riportati all’utente, altri no. Chiamiamoli $collection, $restituiti $non_restituiti.

Siamo sicuri che tutti i documenti in $restituiti siano davvero pertinenti alla richiesta?
Siamo sicuri che tutti i documenti pertinenti in $collection siano stai restituiti?

Pensateci.. il concetto è molto diverso. Infatti esistono due termini distinti per indicare la qualità di una risposta di un motore di ricerca ad una data richiesta:

Precision e Recall

precision è il rapporto tra i documenti pertinenti alla richiesta restituiti all’utente e l’insieme dei documenti restituiti.
E’ cioè la capacità di restituire all’utente solo documenti che siano allineati alle richieste all’utente. un 100% sarebbe una roba stupenda.. solo link pertinenti.. roba da non crederci

recall invece è la capacità di estrarre dalla propria raccolta di documenti tutti quelli pertinenti. E’ definito come il rapporto tra i documenti pertinenti restituiti all’utente e tutti i documenti pertinenti alla richiesta effettuata dall’utente presenti nella raccolta. Certo, un 100% si ottiene restituendo all’utente l’intero $collection. Ma poi vi voglio vedere a cercare quello che veramente vi serve :).

In base all’algoritmo usato, questi parametri variano notevolmente, dipende dalla politica dell’azienda, insomma. Visto che non sempre sono conciliabili i due obiettibvi, bisogna scegliere se far navigare l’utente in mezzo a migliaia di pagine oppure rischiare di non dargli tutte le informazioni necessarie..


Tags:

Post Correlati:

  • Nessuno

Posta un Commento

La tua email non verrà pubblicata o resa visibile a terzi. I campi obbligatori sono contrassegnati da *

*
*