Quote:
|
Giorgiotave
Quindi in pura teoria lui potrebbe andare a visionare tutti i documenti presenti nel suo database e confrontarli con il LSI.
|
Il LSI è un modello vettoriale che può essere usato in modo complementare oppure anche
sostitutivo del term
vector model.
Facendo test, penso sia possibile individuare nei risultati effetti simili a quelle che produrrebbe l'applicazione del LSI.
Ma sconsiglio di prestarvi attenzione fino a quando non si possieda una ottima comprensione del term vector model e delle sue implicazioni pratiche nell'ottimizzazione delle pagine. Anche perché il LSI è anche più difficile da comprendere.
Quote:
|
Oltre a questa tecnica quale altre potrebbe usare?
|
Clustering, pseudo relevance feedback e dizionario di sinonimi sono le più diffuse.
Quote:
|
Voglio capire bene tutti i meccanismi in modo da studiarli e vedere cosa hanno in comune e qual'è quello che potrebbe risultare il migliore.
|
In questo caso lo studio non basta, perché i risultati migliori si ottengono provando tutte le tecniche e individuando quella che appare la migliore. L'IR è una disciplina più empirica di quello che sipensa: si inizia con un'intuizione o
deduzione matematica, ma poi bisogna vedere se i risultati pratici corrispondono a quanto veniva predetto dalla teoria.
Quote:
|
Ecco, come detto sopra, dobbiamo anche studiare qualche tecnica il motore potrebbe usare e, una volta conosciute le più popolari, possiamo decidere di fare qualche test.
|
Vedi sopra: clustering e pseudo relevance feedback.
Vedo bene anche qualche tecnica basata su informazioni antropiche, ma è difficile da testare e comunque gli effetti di un'espanzione attraverso clustering mi sembrano molto più evidenti.
Quote:
|
So bene che è molto probabile che queste tecniche vengano messe in opera per chiavi diverse
|
Anche se l'effetto apparente è quello, è improbabile che esistano algoritmi diversi per query diverse. In un sistema progettato decentemente, l'algoritmo dovrebbe essere unico, con alcune parti/pesi/fattori che si "affievoliscono" automaticamente (fino eventualmente ad avere valenza nulla) a seconda della query.
Quote:
|
Si preleva il contenuto dei documenti top-ranked e filtrando i termini non utili (per es. i termini usati troppo spesso nell'intero indice e i termini usati troppo poco) si ottengono i termini con i quali verrà formata la query espansa.
|
In un modello vettoriale, l'espanzione avviene sommando (algebricamente) al vettore della query iniziale i vettori dei documenti estrapolati con la prima ricerca.
Esistono vari modiper effettuare la somma. A volte è una somma, altre volte una media, ecc.