Information Retrieval
(IR - Recupero di Informazioni) può essere definita come l'insieme di tutte le tecniche che si adoperano per il recupero dei dati elettronici.
Una delle tecniche che stanno alla base dell'Information Retrieval è la differenza della ricerca delle parole tra una pagina web e la ricerca delle parole all'interno di parti di testo più brevi e create appositamente dall'autore perchè il documento fosse riconoscibile da tutti (lâ??abstract, le intestazioni per autore, titolo, soggetto, la firma, il footer, le citazioni, la data dell'articolo).
Un'altra delle tecniche molto citate nell'Information Retrieval è il rapporto fra il richiamo dei documenti che citano quella frase nel database e la precisione di estrarre solo quelli più pertinenti.
richiamo = documenti pertinenti recuperati nella ricerca /(*) documenti (pertinenti o no) recuperati nella ricerca
precisione = documenti pertinenti recuperati nella ricerca /(*) documenti pertinenti esistenti nella banca dati interrogata
(*) Il carattere / nella formula sopra sta ad indicare una divisione
Per fare un'esempio pratico con i Motori di Ricerca, prendiamo in esame la chiave Velocipedi Equestri. Facendo una ricerca nel nostro database, scopriamo che in totale abbiamo 2000 documenti archiviati e di questi solo 400 parlano di quell'argomento.
Ora, facendo la ricerca, scopriamo che il nostro motore ci offre 600 documenti e analizzandoli scopriamo che 300 sono rilevanti per la nostra ricerca.
Avremo un richiamo pari a 300/400, quindi abbiamo recuperato i 3/4 dei documenti rilevanti, ma abbiamo una precisione di 300/600 quindi solo metà dei documenti che abbiamo individuato risultano utili.
I restandi 300 documenti, sono inutili per la nostra ricerca e hanno creato dei fastidi.
Le strategie di richiamo e precisione dei vari motori possono variare da caso a caso e da chiave a chiave. E' ovvio che una ricerca che fornisca un richiamo e una precisione totale è difficile ottenerla, come è evidente che se si aumenta il richiamo diminuisce la precisione.
E' molto conveniente, in termini di costo di ricerca, offrire un richiamo molto ampio senza cercare molti raffinamenti quando la ricerca è in corso.
Tra i raffinamenti in possesso dell'utente ci può essere l'operatore Booleano. (Sistema Binario)
Operatore And: utilizzato per rintracciare tutti i documenti che contengono tutti i termini. Ad esempio, per «velocipedi AND equestri», si ottengono tutti i record che contengono sia la parola velocipedi sia quella equestri. Molti motori di ricerca inserisce un And (oppure +) di default alla ricerca.
Operatore OR: utilizzato per rintracciare i documenti che contengono almeno un termine. Ad esempio, specificando «velocipedi OR equestri», si ottengono tutti i documenti presenti nel database che contengono la parola velocipedi, tutti quelli che contengono la parola equestri e tutti quelli che le contengono entrambe. Difficilmente i motori di ricerca usano questo operatore di default.
Operatore NOT: utilizzato per rintracciare i documenti di una determinata chiave escludendo quella che però ne soddisfa un altra. Ad esempio, specificando «velocipedi NOT equestri», si ottengono tutti i documenti che contengono la parola velocipedi tranne quelli che contengono anche la parola equestri.
Operatore XOR: utilizzato per rintracciare i documenti che contengono solo una chiave di quelle indicate. Ad esempio, specificando «velocipedi XOR equestri», si ottengono tutti i documenti che contengono la sola parola velocipedi e tutti quelli che contengono la sola parola equestri, ma non quelli che le contengono entrambe. In realtà lâ??espressione «A XOR B» è riconducibile alla forma «(A OR B) NOT (A AND B)».
Articolo in Costruzione.
Articoli Correlati:
Studiato da:
Information retrieval: strumenti e strategie
--Giorgiotave 18:27, Dic 17, 2005 (W. Europe Standard Time)