Connect.gt

Condividiamo idee e conoscenza dal 2003...
...dopo 17 anni una Nuova Storia è nata
Scopri di più

Information Retrieval

(IR - Recupero di Informazioni) può essere definita come l'insieme di tutte le tecniche che si adoperano per il recupero dei dati elettronici.

Una delle tecniche che stanno alla base dell'Information Retrieval è la differenza della ricerca delle parole tra una pagina web e la ricerca delle parole all'interno di parti di testo più brevi e create appositamente dall'autore perchè il documento fosse riconoscibile da tutti (lâ??abstract, le intestazioni per autore, titolo, soggetto, la firma, il footer, le citazioni, la data dell'articolo).

Un'altra delle tecniche molto citate nell'Information Retrieval è il rapporto fra il richiamo dei documenti che citano quella frase nel database e la precisione di estrarre solo quelli più pertinenti.


richiamo = documenti pertinenti recuperati nella ricerca /(*) documenti (pertinenti o no) recuperati nella ricerca

precisione = documenti pertinenti recuperati nella ricerca /(*) documenti pertinenti esistenti nella banca dati interrogata


(*) Il carattere / nella formula sopra sta ad indicare una divisione


Per fare un'esempio pratico con i Motori di Ricerca, prendiamo in esame la chiave Velocipedi Equestri. Facendo una ricerca nel nostro database, scopriamo che in totale abbiamo 2000 documenti archiviati e di questi solo 400 parlano di quell'argomento.

Ora, facendo la ricerca, scopriamo che il nostro motore ci offre 600 documenti e analizzandoli scopriamo che 300 sono rilevanti per la nostra ricerca.

Avremo un richiamo pari a 300/400, quindi abbiamo recuperato i 3/4 dei documenti rilevanti, ma abbiamo una precisione di 300/600 quindi solo metà dei documenti che abbiamo individuato risultano utili.

I restandi 300 documenti, sono inutili per la nostra ricerca e hanno creato dei fastidi.

Le strategie di richiamo e precisione dei vari motori possono variare da caso a caso e da chiave a chiave. E' ovvio che una ricerca che fornisca un richiamo e una precisione totale è difficile ottenerla, come è evidente che se si aumenta il richiamo diminuisce la precisione.

E' molto conveniente, in termini di costo di ricerca, offrire un richiamo molto ampio senza cercare molti raffinamenti quando la ricerca è in corso.

Tra i raffinamenti in possesso dell'utente ci può essere l'operatore Booleano. (Sistema Binario)


velocipedi_and_equestri.jpg

Operatore And: utilizzato per rintracciare tutti i documenti che contengono tutti i termini. Ad esempio, per «velocipedi AND equestri», si ottengono tutti i record che contengono sia la parola velocipedi sia quella equestri. Molti motori di ricerca inserisce un And (oppure +) di default alla ricerca.


velocipedi_or_equestri.jpg

Operatore OR: utilizzato per rintracciare i documenti che contengono almeno un termine. Ad esempio, specificando «velocipedi OR equestri», si ottengono tutti i documenti presenti nel database che contengono la parola velocipedi, tutti quelli che contengono la parola equestri e tutti quelli che le contengono entrambe. Difficilmente i motori di ricerca usano questo operatore di default.


velocipedi_not_equestri.jpg

Operatore NOT: utilizzato per rintracciare i documenti di una determinata chiave escludendo quella che però ne soddisfa un altra. Ad esempio, specificando «velocipedi NOT equestri», si ottengono tutti i documenti che contengono la parola velocipedi tranne quelli che contengono anche la parola equestri.


velocipedi_xor_equestri.jpg

Operatore XOR: utilizzato per rintracciare i documenti che contengono solo una chiave di quelle indicate. Ad esempio, specificando «velocipedi XOR equestri», si ottengono tutti i documenti che contengono la sola parola velocipedi e tutti quelli che contengono la sola parola equestri, ma non quelli che le contengono entrambe. In realtà lâ??espressione «A XOR B» è riconducibile alla forma «(A OR B) NOT (A AND B)».


Articolo in Costruzione.


Articoli Correlati:

Espansione della query

Vector model

Booleano

Binario


Studiato da:

Information retrieval: strumenti e strategie

Arretratezza dei Seo


--Giorgiotave 18:27, Dic 17, 2005 (W. Europe Standard Time)


  • Questa pagina è stata modificata per l'ultima volta il 22 mag 2009 alle 11:58.
  • Questa pagina è stata letta 15 415 volte.