14-01-06, 09:53
|
#7 (permalink)
|
|
Esperta
Data di registrazione: Jan 2005
Ubicazione: Krabi Thailand - VE member
Messaggi: 1,625
|
Valori e peso delle parole
Fino ad ora abbiamo visto espressioni come (W n, J * W n, q) delle quali però ignoriamo che peso esse indichino esattamente.
Abbiamo visto che usando i pesi possiamo calcolare la somiglianza fra i vettori e quindi la prossimità dell'accoppiamento fra un vettore del documento e un vettore di domanda.
Confrontando il vettore di domanda a molti vettori di documento, possiamo allineare i documenti in base "alla qualità" dell'accoppiamento rapportata alla domanda.
Ma da cosa sono prodotti quei pesi e da dove provengono?
Le sezioni seguenti descrivono come sono calcolati i pesi.
Ci sono veramente parecchi tipi di pesi che devono essere calcolati!
Un insieme dei pesi che ovviamente abbiamo bisogno di conoscere, sono i pesi usati nel vettore di domanda.
Il vettore di domanda contiene tutti i termini utilizzabili indicizzati nel documento.
Il peso nel vettore di domanda riflette l'importantanza della parola chiave nel contesto dell'intero documento.
Quando la N è grande, questo insieme di pesi è abbastanza stabile.
Un nuovo documento può essere aggiunto all'insieme del documento senza cambiare significativamente il valore nel vettore di domanda.
Il secondo insieme dei pesi che ci serve è potenzialmente enorme.
Per ciascuno di N documenti dell'insieme di documenti, dobbiamo calcolare un peso per ogni termine indicizzato in quel documento.
Ogni documento ha un vettore del documento contenente il peso per ogni termine indicizzato presente nel documento.
Se abbiamo 1.000 documenti e 1.000 termini indicizzati, dovremo calcolare 1.000.000 di pesi.
Ogni volta che aggiungiamo un nuovo documento all'insieme dei documenti, dobbiamo calcolare un insieme dei pesi per le parole del nuovo documento.
Cos'è che rende una parola importante per una ricerca?
Può essere importante in due contesti: nella regolazione del documento originale e nel contesto dell'intera raccolta.
Una parola che compare in ogni documento, per esempio, non avrebbe valore nell'insieme del documento.
Per calcolare il peso di una parola chiave, ci occorre quindi un sistema per combinare l'importanza di una parola in un documento e misurare l'importanza di una parola nell'intero insieme del documento.
Una volta che abbiamo quei valori, possimo calcolare i pesi.
Questa tabella ci mostra come questi fattori combinano in generale i termini:
Importanza nel documento____Importanza insieme dei documenti____ Peso
________Alto____________________ Alto__________________ Molto alto
_______Basso___________________ Alto__________________ Medio
_______Alto_____________________ Basso________________ Medio
_______Basso___________________ Basso________________ Molto basso
Gli esperti del reperimento delle informazioni [IR] usano metodi differenti per calcolare i pesi del vettore del documento che per calcolare i pesi del vettore di domanda, ed hanno una varietà di tecniche di misurazione dell'importanza della parola nei vari differenti contesti.
In generale, per calcolare questi valori essi usano tecniche statistiche che comprendono l'analisi di frequenza della parola.
Guarderemo alle frequenze degli algoritmi e quindi infine vedremo come sono combinati nei pesi.
La prossima volta vedremo:
f i, J: La frequenza normalizzata di termine (tf) del ki nella d J
E' possibile discutere questi argomenti qui.
|
|
|
|
|