Un Evento Unico. 5 Sale. 27 Interventi. SEO, SOCIAL, E-Commerce, Mobile, Turismo.
CLICCA QUI e SCOPRI DI PIù X Chiudi
 
Forum GT: Condividiamo idee e conoscenza Forum GT: Condividiamo idee e conoscenza


Condividi questo contenuto nei Social Network:
Ti stiamo aspettando: Registrati subito e gratis. Entra a far parte di una delle comunità più attive in Italia. Se hai dimenticato i tuoi dati li puoi recuperare subito.


Vai indietro   Forum per Webmaster: Condividiamo Idee e Conoscenza > Seo e Tecnologie > Laboratorio Seo
Benvenuto! Forum Regole FAQ Lista utenti Calendario Segna come letti

Laboratorio Seo I test sui motori di ricerca

Hey Amico Visitatore,
Condividi con noi le tue idee e la tua conoscenza Aprendo una nuova discussione nella sezione Laboratorio Seo


Rispondi
 
LinkBack Strumenti di discussione
Vecchio 25-09-09, 13:07   #1 (permalink)
User Newbie
 
Data di registrazione: Sep 2009
Messaggi: 2
Analisi semantica sulla pagina WEB

Salve a tutti. Spero di postare il mio messaggio nel forum giusto. Vengo subito al dunque. Mi servirebbe scrivere un algoritmo che sia capace di valutare il contenuto semantico di una pagina web.
Il mio dominio applicativo è l'elenco di tutte le aziende italiane che hanno un sito web. Per contenuto semantico intendo, il nome dell'azienda, l'indirizzo, i contatti, il settore merceologico etc etc.
Per realizzare il mio scopo mi sono appoggiato al progetto apache UIMA, che sfruttando il concetto di espressioni regolari, fornisce gli strumenti adatti per estrarre dal testo le informazioni significative (come numeri di telefono, mail, indirizzi etc etc).
Il problema sorge per la ragione sociale dell'impresa. Utilizzando una semplice espressione regolare non riesco ad estrarre da una pagina html (ripulita dei tag) le informazioni che mi servono. Ho pensato allora di realizzare un algoritmo che sfruttando il contenuto di alcuni tag significativi della pagina stessa (TITLE, ANCHOR, DESCRIPTION, etc etc) e unendo a quest'analisi, una statistica sulla presenza delle parole nella pagina (classificandole per frequenza), riesca ad estrapolare dal testo la ragione sociale (se contenuta). Ma ancora il risultato non mi convince.
Qualcuno ha qualche idea valida? In sostanza il problema è il seguente:
"Data una pagina web rappresentante un'azienda italiana, verificare se in essa è contenuta la ragione sociale ed estrarla"

Ringrazio in anticipo chiunque mi voglia aiutare.

Ultima modifica di zar1978 : 25-09-09 13:12.
zar1978 non in linea   Rispondi citando
Vecchio 28-09-09, 21:42   #2 (permalink)
Moderatore
 
L'avatar di paocavo
 
Data di registrazione: Mar 2006
Ubicazione: Lecce, Italy
Messaggi: 1,007
Ciao,
se è "solo" per la ragione sociale punterei sulla analisi dei campi forniti da WHOIS.

Data un url ricavo il dominio ad esempio www . dominio .com
poi interrogo whois tramite l'url:

www . whois .sc / www . dominio .com

è da qui ho tutto quello che mi serve (quasi sempre...)

Buon lavoro!
paocavo non in linea   Rispondi citando
Vecchio 29-09-09, 09:33   #3 (permalink)
User Newbie
 
Data di registrazione: Sep 2009
Messaggi: 2
Grazie per la risposta. Potrebbe essere una soluzione valida, e forse la più semplice. Dovrei però realizzare un metodo in java che dato il dominio effettui la chiamata, e soprattutto dovrei modellare l'output con un oggetto "ad hoc".
zar1978 non in linea   Rispondi citando
Rispondi
Tags: , , , , ,



Strumenti di discussione

Regole di scrittura
Non puoi postare nuove discussioni
Non puoi rispondere alle discussioni
Non puoi allegare file
Non puoi editare i tuoi post

BB code is Attivo
smilies è Attivo
[IMG] il codice è Attivo
Il codice HTML è Disattivato
Trackbacks are Attivo
Pingbacks are Attivo
Refbacks are Disattivato
Vai al forum



Tutti gli orari sono GMT +3. Attualmente sono le 16:09.




Forum GT - © 2004-2009 GT idea S.r.l P.iva 02418200800 - Privacy/Disclaimer

SEO by vBSEO 3.2.0 ©2008, Crawlability, Inc.