Connect.gt

Vector Model (term vector model)

E' il più importante tra i modelli usati per costruire un sistema di recupero di informazioni o testi in grado di permettere un ordinamento sul set di documenti prodotto in uscita; esso viene indicato come vector space model.

L´aumento della mole di dati consultabili in internet ha avuto come conseguenza da parte degli utenti l´accresciuta difficoltà di ricercare le informazioni interessanti per i propri scopi (tale difficoltà viene sovente indicata come information overload: impossibilità di trovare le informazioni rilevanti a causa dell´eccessiva quantità di informazioni da controllare) e, con essa, la necessità di avere a disposizione degli strumenti efficaci per il recupero dell´informazione. E´ in questo scenario che si colloca quel settore dell´informatica che va sotto il nome di Information Retrieval.

Grandi quantità di dati testuali --> Accesso il più possibile veloce ai dati rilevanti --> Information Retrieval (IR) Systems

Quindi, in poche parole, l´Information Retrieval si occupa dei problemi relativi alla memorizzazione, rappresentazione e reperimento di documenti.

Da questo semplice grafico si deducono due dei problemi più importanti che bisogna affrontare. Il primo consiste nel fatto che l´Information Retrieval generalmente si occupa di dati testuali: gli "oggetti" con cui si ha a che fare sono tipicamente lettere, articoli, libri, pagine web e via discorrendo. Si tratta quindi di dati non strutturati, contenenti informazioni che sono espresse in linguaggio naturale; questo comporta una serie di problematiche da affrontare quando si tratta di effettuare delle ricerche sul loro contenuto:

o Ambiguità, polisemia: le parole possono avere più significati diversi

o Sinonimia: ci possono essere più modi diversi per esprimere il medesimo concetto

o Imprecisione: il linguaggio naturale è sovente molto vago, non è facile trovare il confine tra "abbastanza largo" e "relativamente stretto".

Talvolta in letteratura, si dice che un sistema di IR recupera informazioni che risolvono uno "stato anomalo di conoscenza" (Anomalous State of Knowledge, ASK).

Una prima, banale soluzione a questo problema consisterebbe nell´associare ad ogni documento dei metadati, quali ad esempio una serie di keyword che ne identifichino il contenuto (qui si intendono metadati compilati a mano, non generati automaticamente da un calcolatore), in tal modo le ricerche verrebbero effettuate su questi metadati, anziché su tutto il contenuto dei documenti. Questa soluzione si scontra però principalmente con la difficoltà di mantenere la coerenza nella generazione degli indici, infatti l´estrazione dei concetti e delle keyword dai documenti dipende dall´esperienza e dalle opinioni di chi costruisce l´indice (alcuni esperimenti hanno dimostrato che mediamente c´è un 20% di differenza tra i termini scelti da due esperti per caratterizzare un certo documento), un concetto che per un utente è centrale in un determinato documento può risultare di scarso interesse per un altro. Gli sforzi maggiori vengono quindi rivolti verso le tecniche di full text retrieval.

Il secondo problema, che è poi il nocciolo dell´Information Retrieval, è legato al reperimento delle informazioni, che da qui in avanti chiameremo anche documenti, rilevanti per le esigenze dell´utente. Come già detto in precedenza è impensabile che l´utente proceda con la lettura di tutti i documenti memorizzati alla ricerca di quelli significativi per la propria richiesta (nel tal caso si avrebbe una situazione di perfect retrieval), bisogna quindi studiare come caratterizzare in maniera automatica la collezione di documenti e cercare di duplicare via software il processo umano di lettura. Più dettagliatamente si deve cercare di estrarre informazioni di natura sintattica e semantica dal testo ed usarle per decidere se un documento sia rilevante oppure no a fronte di una determinata richiesta. Come già detto il concetto di rilevanza è centrale nell´information retrieval, lo scopo fondamentale di una strategia automatica di retrieval è quello di restituire il più alto numero di documenti rilevanti e, allo stesso tempo, il minor numero possibile di documenti non rilevanti.

Apriamo una piccola parentesi: bisogna distinguere tra due diversi tipi di recupero (o retrieval) dei dati, ossia il recupero deterministico e il recupero incerto. Nel primo, la collezione oggetto della ricerca è costituita da dati strutturati ed è divisa in due parti ben distinte: i dati che soddisfano la richiesta e quelli che non la soddisfano; si è in questa situazione quando si ha a che fare, ad esempio, con le basi di dati relazionali e con le interrogazioni espresse in linguaggio SQL.

Supponiamo ad esempio di avere una collezione di documenti e di voler sottoporre ad un ipotetico sistema la seguente richiesta (espressa per ora in linguaggio naturale): RESTITUISCI TUTTI I DOCUMENTI IN CUI SI PARLA DI VELOCIPEDI EQUESTRI Cosa si intende di preciso: i documenti che hanno come argomento i velocipedi equestri o quelli in cui se ne fa solo un accenno; inoltre, come faccio a sapere se un articolo ha come argomento principale lo studio dei velocipedi equestri o se questo costituisce solo una parte minima ?

Queste sono le tipiche domande a cui cerca di dare risposta un sistema di Information Retrieval.

Vector space model

Supponiamo ad esempio di avere una collezione di documenti caratterizzata da 7 index term:

marketing, velocipedi, equestri, cavalli, biciclette, posizionamento, forum.

Se avessimo la query:

"forum organico di posizionamento autarchico di velocipedi equestri in bicicletta da corsa".

Eliminate le stop words (di - in - da) questa verrebbe rappresentata mediante il vettore:

q = ( 1, 0, 1, 0, 1, 1, 1, 0 ) dove un componente vale 1 se il corrispondente termine è presente nella query e 0 se non è presente.

I milioni di documenti di solito presenti nelle collezioni, possono essere rappresentati nello stesso modo, supponiamo di avere:

d1 = ( 1 , 1 , 0 , 1 , 0 , 1 , 0 )

d2 = ( 0 , 1 , 1 , 1 , 0 , 0 , 1 )

d3 = ( 0 , 0 , 1 , 0 , 1 , 1 , 1 )

Per determinare quale documento sia più simile alla query si può calcolare l´angolo tra il vettore che rappresenta quest´ultima ed i vettori che rappresentano i vari documenti: quanto più è piccolo l´angolo tra due vettori, tanto più i due vettori (nel nostro caso la query ed un documento) sono considerati simili.

--Andrez 07:15, Dic 18, 2005 (W. Europe Standard Time)

Connect.gt

Vector model

Vector Model (term vector model)