TF*IDF (term frequency * inverse document frequency)

In un documento web più frequenti i termini sono più importanti essi tendono ad essere e quindi più significativi per il contenuto. La pesatura di questa frequenza è chiamata Term Frequency. TF

I termini che appaiono in molti documenti differenti sono meno indicativi del contenuto (e.g. a, da, per, io, questo, ha, ho, è...): = Inverse Document Frequency IDF

L´inverse document frequency (idf) e´ un indice del potere di discriminazione di un termine Pesatura TF-IDF.

Un indicatore che cattura le precedenti proprietà e´ il fattore tf-idf. Un termine che occorre frequentemente in un documento ma raramente nell´intera collezione riceve un peso alto. Esistono molte varianti che forniscono alternative funzioni di pesatura: sperimentalmente, tf-idf ha dimostrato ottime prestazioni Pesatura : Frequenza


Nei MDR l'indicizzazione si configura come un operazione di ponderazione della frequenza di un determinato item linguistico e della sua rilevanza all'interno di un testo.

Il termine indicizzazione fa riferimento, in particolare, alla creazione di una lista (detta, appunto, indice) recante, per ciascun item di un documento, indicazioni relative alla posizione occupata all'interno del documento stesso e un coefficiente, il coefficiente di frequenza, utilizzato per valutare la rilevanza dell'oggetto all'interno dell'intero universo di documenti.

In sostanza, la rilevanza di un termine viene definita come la probabilità (P) che l'oggetto (O) (sia questo testuale, grafico o sonoro) soddisfi la necessità informativa (I) di una futura query utente. L'indicizzazione è, dunque, un processo probabilistico (o bayesiano) a priori: le probabilità di rilevanza di ogni oggetto e di ogni legame tra oggetti, vengono individuate a priori, nel momento in cui si crea l'indice.

Il processo di indicizzazione viene, dunque, definito come:

P(I|O)


Per determinare la rilevanza di ciascun oggetto, non solo viene calcolata la frequenza di ogni item all'interno del documento di riferimento (TF, term frequency) ma essa viene anche relazionata alla frequenza dell' item nell'intero universo dei documenti (IDF, inverse documet frequency). P(I|O) = TF*IDF

Il valore IDF rappresenta un dato di fondamentale importanza nel processo di indicizzazione poiché consente di valorizzare le parole rare e specialistiche (a vantaggio della pertinenza dei risultati) all'interno di un documento. L'inverse document frequency, il numero di documenti in cui una parola compare, è rappresentata da una curva logaritmica: i termini che compaiono in molti documenti avranno valori bassi di IDF.

IDF = log(N/DF)

Ove

N rappresenta la collezione dei documenti

DF, document frequency, è il numero dei documenti della collezione che contengono la parola.


Al termine del processo di indicizzazione, ad ogni termine sarà assegnato un coefficiente W il cui valore rappresenterà la rilevanza di tale item.

W = TF * IDF = P/O * log(N/DF)

Ove

P è il numero di parole del documento in esame

O è il numero di occorrenze della parola indicizzata nel documento


--Andrez 11:47, Gen 1, 2006 (W. Europe Standard Time)


  • Questa pagina è stata modificata per l'ultima volta il 9 lug 2009 alle 01:04.
  • Questa pagina è stata letta 5 939 volte.