Quote:
|
doopcircus
Il modello più affinato che si trova negli appunti, quello finale diciamo, se ho capito qualcosina prevede una formula di "pesatura" di un documento j-esimo rispetto ad un termine i-esimo del tipo :
wi,j = tfi,j/max tfi,j * log(D/dfi)
|
doopcircus, la tua analisi è tutta corretta, ma vieni tratto in inganno dalla funzione di quella formula.
Non si tratta di "quello finale". Quella formula determina il peso di un singolo termine all'interno di un documento, non il peso globale di un documento rispetto alla query dell'utente, nemmeno nel caso in cui la query dovesse coincidere con il termine.
Successivamente, l'insieme dei pesi di
tutti i termini di un documento stabilisce la posizione di quel documento all'interno di uno spazio multidimensionale.
In fase di ricerca, il motore calcola la "distanza" tra ciascun documento e la query e riporta i risultati in ordine di "distanza" minore (se si escludono gli altri fattori di ranking, ovviamente).
"distanza" è volutamente virgolettato in quanto in realtà si usa una misurazione differente. Ma il concetto generale rimane quello della vicinanza geometrica. Nei testi che ti ho segnalato trovi anche la formula per calcolare tali "distanze".