Clusterizzare News

marco.leone

Clusterizzare News

Ciao a tutti
sono alle prime armi con le problematiche di information retrieval, e volevo sottoporvi 1 problema che devo decidere come trattare in modo efficiente,
e con 1 grado di recall e precision medi, per 1 algoritmo di clustering di News: in pratica sto implementando 1 prototipo di 1 motore di ricerca di News, e , per 1 data notizia di cui online effettuo il retrieving da feed rss, e di cui dispongo di informazioni quali titolo,descrizione(breve,2,3 righe...),autore,pubdate,ho bisogno di sapere quali siano le notizie "simili" tra quelle già presenti nel search engine perchè prelevate precedentemente,
quelle cioè che potrebbe essere utile raggruppare in 1 cluster di notizie correlate per argomento. Per farlo dovrei utilizzare euristiche sintattiche, e non ontologie e semantiche, e la mia idea ingenua era quella di costruirmi 1 indice invertito(col tool lucene)
dei vari titoli e description delle News che sono già presenti,e fare 1 query di qualche tipo sull'indice per conoscere dal set di matching quali siano le News che stimo essere simili. Ho letto qualcosa sul cercare di utilizzare nelle query le keywords, ma mi chiedevo se queste fossero tutte quelle che compaiono nel titolo 1 volta escluse le stopwords,o magari anche quelle della description, e come poter pensare di costruire la query(and di keywords, or , oppure altro?).
Se qualcuno ha qualche buona euristica da suggerirmi, o crede che la mia soluzione sia stupida e sconsigliabile, o meglio ancora può indicarmi qualche soluzione esistente in letteratura per questo problema, tenendo presente che l'ottenimento dell'informazione sulla stima del cluster deve essere il più performante temporalmente possibile(anche a discapito della precisione e/o recall), mi sarebbe molto d'aiuto.
Grazie tante!
Marco Leone