Theory of Information Retrieval, Florida State University LIS-5263 (Fall, 2003)
Introduzione
Questo documento contiene le spiegazioni di alcuni concetti matematici elementari e mostra la loro applicazione nello sviluppo del modello vettoriale di reperimento delle informazioni come descritto nel "
Modern Information Retrieval" by Baeza-Yates and Ribeiro-Neto (1999)
È stato scritto in parziale adempimento dei requisiti richiesti dall'Università di Stato della Florida. [classe 2003, "Lis-5263 - Teoria di reperimento delle informazioni]
La discussione è divisa in due parti; la prima riguarda la matematica di base e la seconda la matematica del modello vettoriale.
Questo è dunque un documento scolastico.
La prima sezione riguarda essenzialmente gli elementi matematici fondamentali:
*Logaritmi
*Coseno
*Sommatoria
* Prodotto scalare (moltiplicazione di vettore)
La seconda sezione spiega la matematica richiesta per calcolare il modello vettoriale:
* La frequenza inversa del documento (IDF)
* Frequenza normalizzata (f i, j )
* Calcolo del peso
Elementi matematici fondamentali
Logaritmi: log(N)
Il logaritmo è la prima funzione matematica che dobbiamo capire perché il Modello Vettoriale ha equazioni logaritmiche (N/ni).
Se non conosciamo cos’è un logaritmo non possiamo capire il concetto del Modello Vettoriale.
In primo luogo, che cosa è una funzione matematica? Nella sua forma più semplice, una funzione è un calcolo che prende un numero come input, effettua un calcolo su quell'input e restituisce il valore del calcolo.
Consideriamo la funzione quadrata, "sq".
- sq(2) restituisce 4.
- sq(9) restituisce 81.
Così il sq(N) significa restituire il valore di N * N.
Seguendo questa linea di pensiero, il log (2) significa restituire il logaritmo del numero 2.
Il log (N) significa restituire il valore del logaritmo della variabile N, qualunque valore N possa avere.
Conosciamo ora come quadrare un numero, ma che cosa è la funzione di logaritmo?
Come è calcolato?
Si chiama logaritmo in base a di b l'unica soluzione dell'equazione esponenziale elementare.
Supponiamo di dover risolvere un'equazione esponenziale ax=b :
:
• se a e b si scrivono come potenze (razionali) della stessa base, si eguagliano gli esponenti :
2x =8 --> 2x = 23 --> x=3
• se a e b non si scrivono come potenze (razionali) della stessa base, le soluzioni si scrivono sotto forma di logaritmi : 2x = 8 --> x=log2 8
Il logaritmo risulta essere l'operazione inversa dell'esponenziale.
Senza studiare troppo il senso del termine, possiamo giocare un pò con Google e vedere le risposte che restituisce per la funzione di logaritmo. Google ha un calcolatore incorporato che utilizziamo per questa ricerca.
Digitiamo "log 0,5" (senza le virgolette) in Google e otteniamo -0,301029996.
Proviamo con "log 95" ed otteniamo 1,97772361.
Possiamo tentarne altri; qual è il log 6666?
Questi numeri a caso ci danno un’idea del sistema, ma se realizziamo una tabella organizzata di numeri, questa ci rivela la vera traccia:
N -->log ( N )
1 --> 0
10 --> 1
100 --> 2
1000 --> 3
10000 --> 4
Base 10 alla potenza del log (N)=N.
Quindi, se abbiamo un numero (10) e prendiamo il suo logaritmo e innalziamo 10 a quella potenza, otteniamo di nuovo il nostro numero originale:
- 10 alla prima =10
- 10 alla seconda = 100
- 10 alla terza = 1.000
- 10 alla quarta = 10.000
La tabella indica che la funzione di logaritmo è utile nei numeri compressi molto grandi fino ai formati maneggevoli; questo è un calcolo di riduzione in "ordine di grandezza”.
Inoltre, notiamo che il log(1) è uguale a zero.
Ripetiamo facendo un altro esempio.
La caratteristica più interessante della funzione di logaritmo è che i log dei valori fra 0 e 1 sono numeri negativi.
Per esempio, log (0,5) = -0,301029996.
Molte volte vedremo -log(x) in un'equazione.
Se il valore di quel segno è negativo, ora sappiamo dunque che la X è una variabile che varia da zero ad uno.
Così ora se vediamo il log (N) in un'equazione, abbiamo un’idea di che cosa significhi e con esso possiamo valutare alcuni valori.
Un logaritmo misura quindi l'ordine di grandezza di un numero N.
E’ solo un più piccolo numero che sostituisce quello originale.
E nel caso speciale dove la N è uno, allora il log(N) sarà zero.
E' possibile discutere questi argomenti qui.