Un Evento Unico. 5 Sale. 27 Interventi. SEO, SOCIAL, E-Commerce, Mobile, Turismo.
CLICCA QUI e SCOPRI DI PIù X Chiudi
 
Forum GT: Condividiamo idee e conoscenza Forum GT: Condividiamo idee e conoscenza


Condividi questo contenuto nei Social Network:
Ti stiamo aspettando: Registrati subito e gratis. Entra a far parte di una delle comunità più attive in Italia. Se hai dimenticato i tuoi dati li puoi recuperare subito.


Vai indietro   Forum per Webmaster: Condividiamo Idee e Conoscenza > Seo e Tecnologie > Laboratorio Seo
Benvenuto! Forum Regole FAQ Lista utenti Calendario Segna come letti

Laboratorio Seo I test sui motori di ricerca

Hey Amico Visitatore,
Condividi con noi le tue idee e la tua conoscenza Aprendo una nuova discussione nella sezione Laboratorio Seo


Rispondi
 
LinkBack Strumenti di discussione
Vecchio 14-12-07, 21:21   #1 (permalink)
User Newbie
 
Data di registrazione: Dec 2007
Messaggi: 4
Smile Clusterizzare News


Ciao a tutti!
sono alle prime armi con le problematiche di IR, e volevo sottoporvi 1 problema che devo decidere come trattare in modo efficiente,
e con 1 grado di recall e precision medi, per 1 algoritmo di clustering di News: in pratica sto implementando 1 prototipo di 1 motore di ricerca di News, e , per 1 data notizia di cui online effettuo il crawling da feed rss, e di cui dispongo di informazioni quali titolo,descrizione(breve,2,3 righe...),autore,pubdate,ho bisogno di sapere quali siano le notizie "simili" tra quelle già presenti nel search engine perchè prelevate precedentemente,
quelle cioè che potrebbe essere utile raggruppare in 1 cluster di notizie correlate per tipo di storia discussa.

Per farlo dovrei utilizzare preferibilmente euristiche sintattiche, e non ontologie e semantiche, ad ogni modo devo cercare di fare 1 processamento che consenta al sistema di avere performance temporali piuttosto veloci(poichè il grosso del calcolo andrà fatto successivamente,e relativamente a delle operazione di mining di soggettività che dovrò effettuare sul testo delle singole News...).
la mia idea ingenua era quella di costruirmi 1 indice invertito(col tool lucene)dei titoli delle News man mano che esse vengono reperite online dal crawler, immaginando che le parole che costituiscono il titolo della News siano rappresentanti delle keywords della News, e fare 1 query booleana su tale indice invertito mettendo in OR le parole del titolo di 1 News appena ricevuta dal crawler online, per stimare il grado di similarità con le News già memorizzate, contando quante matchano la query....
Se qualcuno ha qualche buona euristica da suggerirmi, o credi che la mia idea sia stupida e sconsigliabile, o meglio ancora puoi indicarmi qualche soluzione esistente in letteratura per questo problema, tenendo presente che l'ottenimento dell'informazione sulla stima del cluster deve essere il più performante temporalmente possibile(anche a discapito della precisione e/o recall), mi sarebbe molto d'aiuto. :-)
Grazie tante!
Ciao! Marco
marco leone non in linea   Rispondi citando
Vecchio 15-12-07, 13:16   #2 (permalink)
Moderatore
 
L'avatar di paocavo
 
Data di registrazione: Mar 2006
Ubicazione: Lecce, Italy
Messaggi: 1,007
Ciao Marco è benvenuto nel Forum GT!

Molto interessante il tuo quesito
L'idea dell'indice inverso è sicuramente buona, efficente (in termini di complessità computazionale) ma non sempre efficace (per questioni semantiche).
Altri algoritmi (molto) più efficaci (ma più complessi e bisognosi di potenza) sono:

1) EM (Expectation Maximization) Clustering

2) K-means Clustering

3) Il classificatore ingenuo di Bayes

Buona lettura!

paocavo non in linea   Rispondi citando
Vecchio 15-12-07, 15:51   #3 (permalink)
 
Data di registrazione: Sep 2007
Messaggi: 520
Marco ma il tuo obiettivo è creare qualcosa simile a techmeme?
niubbo non in linea   Rispondi citando
Vecchio 15-12-07, 20:15   #4 (permalink)
User Newbie
 
Data di registrazione: Dec 2007
Messaggi: 4
Non conosco textmeme...
quel che devo fare è un prototipo di News search engine,
che una volta prelevata una News dal modulo di retrieving,
debba assegnare ad essa un valore di Ranking per la visualizzazione
delle News sulla homepage del prototipo, che usino criteri quali la freschezza della News(pubdate) la grandezza delle notizie correlate(simili per la storia trattata), l' importanza della sorgente della News...E' quindi per calcolare il rank iniziale di 1 notizia appena ricevuta che ho bisogno di stimare il numero di notizie simili già presenti nell'indice del searchengine...il rank ovviamente diminuirà col tempo, perchè la notizia dovrà invecchiare col tempo.
marco leone non in linea   Rispondi citando
Vecchio 07-01-08, 16:30   #5 (permalink)
User
 
L'avatar di veke87
 
Data di registrazione: Nov 2007
Messaggi: 181
Ciao, stavo pensando anche io a costruire una cosa simile... possiamo collaborarE^?
__________________
Htc G1 forum android in italiano
veke87 non in linea   Rispondi citando
Vecchio 07-01-08, 16:53   #6 (permalink)
User Newbie
 
Data di registrazione: Dec 2007
Messaggi: 4
Veik tu cosa devi fare di preciso?
Il mio è un lavoro per la tesi, ma per ora lo sto mettendo
da parte per dedicarmi ad 1 ultimo esame.
Fammi sapere rispondendo,se preferisci, all'indirizzo
malkorgan@gmail.com
A presto,Marco
marco leone non in linea   Rispondi citando
Vecchio 07-01-08, 22:11   #7 (permalink)
User
 
L'avatar di veke87
 
Data di registrazione: Nov 2007
Messaggi: 181
ti ho risposto via e-mail comunque se vuoi contattarmi ecco il mio msn :
veke@splash-boys.com
__________________
Htc G1 forum android in italiano
veke87 non in linea   Rispondi citando
Rispondi


Strumenti di discussione

Regole di scrittura
Non puoi postare nuove discussioni
Non puoi rispondere alle discussioni
Non puoi allegare file
Non puoi editare i tuoi post

BB code is Attivo
smilies è Attivo
[IMG] il codice è Attivo
Il codice HTML è Disattivato
Trackbacks are Attivo
Pingbacks are Attivo
Refbacks are Disattivato
Vai al forum



Tutti gli orari sono GMT +3. Attualmente sono le 16:57.




Forum GT - © 2004-2009 GT idea S.r.l P.iva 02418200800 - Privacy/Disclaimer

SEO by vBSEO 3.2.0 ©2008, Crawlability, Inc.