Un Evento Unico. 5 Sale. 27 Interventi. SEO, SOCIAL, E-Commerce, Mobile, Turismo.
CLICCA QUI e SCOPRI DI PIù X Chiudi

Visualizza un messaggio singolo
Vecchio 29-01-06, 06:59   #8 (permalink)
Mamilu
Esperta
 
L'avatar di Mamilu
 
Data di registrazione: Jan 2005
Ubicazione: Krabi Thailand - VE member
Messaggi: 1,625
f i, j: Termine di frequenza normalizzato (tf) di ki in d j

la prima frequenza che esaminiamo è la frequenza di termine di una parola all'interno di un documento. Stiamo andando ad imparare come calcolare la frequenza normalizzata ki in d j

La normalizzazione è un processo matematico di adattamento o di confinamento in posizione ordinata.

Un conteggio approssimativo di frequenza è essenzialmente inutile.

In un documento molto grande, una parola rara può tranquillamente comparire anche 25 volte.

Un piccolo documento nello stesso insieme di documenti può anche non avere parole che compaiono 25 volte.

Come possiamo confrontare questi conteggi? Dobbiamo normalizzare il conteggio di frequenza, in modo che sia possibile misurare quanto è rara una parola relativamente al suo documento senza considerare la dimensione del documento stesso.

Un modo per farlo è comparare il numero di volte che una data parola compare (freq i , j) al numero di volte che la parola più presente compare nel testo (max (freq l, j)).

Questo è un modo per ridurre i risultati ed adattarli approssimativamente alla dimensione del testo.

Se li dividiamo, otteniamo una regolare gamma di valori, inferiore o uguale a uno.

Diamo un'occhiata alla formula:


Questo ci dimostra che la frequenza normalizzata per una data parola in un dato documento (f i , j) è uguale alla frequenza approssimativa della parola nel documento (freq i , j) diviso la frequenza approssimativa della parola più comune nel documento (max l freq l , j )

Vediamo nell'esempio seguente come si normalizzano con precisione i conteggi approssimativi di frequenza.

Come sempre, il freq i , j è il conteggio approssimativo di un dato termine ki in un dato documento d j. Quindi dovremo immaginare di computare il valore di freq i , j per tutti i termini nel d j e conosceremo così la parola più comune, max (freq i , j).

Quella sarà spesso la parola " il "; qui immaginiamo che sia presente 100 volte.



word____________ freq i , j____ max (freq i , j)___ f i , j

intercettazione______ 1_________ 100__________ .01

risoluzione_________ 10________ 100__________ 0.1

di________________ 50________ 100__________ 0.5

il________________ 100_______ 100___________ 1



Quindi, " il " appare 100 volte ed è la frase più popolare. Questo gli rende una frequenza normalizzata di 1,0.

La parola " risoluzione" compare dieci volte in questo documento, quindi la sua frequenza normalizzata è 10/100 o 0,1.
La parola "intercettazione" appare ma una volta sola ed ha una frequenza normalizzata di 0,01.

In generale, vediamo che le parole più comuni dovrebbero avere un'alta frequenza normalizzata e le parole più rare una più bassa frequenza normalizzata.

La legge di Zipf dice che ci saranno poche parole prossime ad uno e molte parole nell'allineamento più basso con un numero corretto nel mezzo, ma questo è un'altro argomento.

Per concludere, per una parola nell'insieme dei documenti ma non contenuta nel documento in esame, f i , j consideriamo uguale a zero, da freq i , j = 0 e quello è nel numeratore della frequenza normalizzata.

Possiamo quindi evincere che la frequenza normalizzata è:
una misura di frequenza che varia da zero a 1 per ogni termine in un documento.
Questa formula assegna un più alto valore alle parole che compaiono più spesso delle parole che compaiono di meno; in un certo senso, le parole più comuni sono più importanti o utili che le parole che appaiono soltanto una o due volte.



La prossima volta:
Frequenza inversa del documento

E' possibile discutere questi argomenti qui.
__________________
Le ricette di Mamilù
The quiet atmosphere of the exotic Siam
Mamilu non in linea