Analisi semantica sulla pagina WEB

zar1978

Analisi semantica sulla pagina WEB

Salve a tutti. Spero di postare il mio messaggio nel forum giusto. Vengo subito al dunque. Mi servirebbe scrivere un algoritmo che sia capace di valutare il contenuto semantico di una pagina web.
Il mio dominio applicativo è l'elenco di tutte le aziende italiane che hanno un sito web. Per contenuto semantico intendo, il nome dell'azienda, l'indirizzo, i contatti, il settore merceologico etc etc.
Per realizzare il mio scopo mi sono appoggiato al progetto apache UIMA, che sfruttando il concetto di espressioni regolari, fornisce gli strumenti adatti per estrarre dal testo le informazioni significative (come numeri di telefono, mail, indirizzi etc etc).
Il problema sorge per la ragione sociale dell'impresa. Utilizzando una semplice espressione regolare non riesco ad estrarre da una pagina html (ripulita dei tag) le informazioni che mi servono. Ho pensato allora di realizzare un algoritmo che sfruttando il contenuto di alcuni tag significativi della pagina stessa (TITLE, ANCHOR, DESCRIPTION, etc etc) e unendo a quest'analisi, una statistica sulla presenza delle parole nella pagina (classificandole per frequenza), riesca ad estrapolare dal testo la ragione sociale (se contenuta). Ma ancora il risultato non mi convince.
Qualcuno ha qualche idea valida? In sostanza il problema è il seguente:
"Data una pagina web rappresentante un'azienda italiana, verificare se in essa è contenuta la ragione sociale ed estrarla"

Ringrazio in anticipo chiunque mi voglia aiutare.

paocavo

Ciao,
se è "solo" per la ragione sociale punterei sulla analisi dei campi forniti da WHOIS.

Data un url ricavo il dominio ad esempio www . dominio .com
poi interrogo whois tramite l'url:

www . whois .sc / www . dominio .com

è da qui ho tutto quello che mi serve (quasi sempre...)

Buon lavoro!

zar1978

Grazie per la risposta. Potrebbe essere una soluzione valida, e forse la più semplice. Dovrei però realizzare un metodo in java che dato il dominio effettui la chiamata, e soprattutto dovrei modellare l'output con un oggetto "ad hoc".