Un Evento Unico. 5 Sale. 27 Interventi. SEO, SOCIAL, E-Commerce, Mobile, Turismo.
CLICCA QUI e SCOPRI DI PIù X Chiudi
 
Forum GT: Condividiamo idee e conoscenza Forum GT: Condividiamo idee e conoscenza


Condividi questo contenuto nei Social Network:
Ti stiamo aspettando: Registrati subito e gratis. Entra a far parte di una delle comunità più attive in Italia. Se hai dimenticato i tuoi dati li puoi recuperare subito.


Vai indietro   Forum per Webmaster: Condividiamo Idee e Conoscenza > Ripostiglio > Sezioni Storiche > Teecno
Benvenuto! Forum Regole FAQ Lista utenti Calendario Segna come letti

Teecno Costruzione, sviluppo e promozione del nostro MdR

Hey Amico Visitatore,
Condividi con noi le tue idee e la tua conoscenza Aprendo una nuova discussione nella sezione Teecno


Rispondi
 
LinkBack Strumenti di discussione
Vecchio 21-12-06, 12:40   #16 (permalink)
User
 
Data di registrazione: Oct 2006
Messaggi: 228
Invia un messaggio tramite Yahoo a AlbertoSeo
Quoto UMOR. La funzione parser_html da per scontate parecchie cose come ad esempio che la pagina sia conforme ad un DDT. Inoltre, non limitatevi a controllate la sola intestazione HTTP per capire se si tratti o meno di HTML (i campi HTTP HEADER sono manipolabili), ma affidatevi ad analisi spot.

... Colgo la palla la balzo per suggerirvi una chicca: sottoporre le pagine ad un validatore come quello del validator.w3.org.
AlbertoSeo non in linea   Rispondi citando
Vecchio 21-12-06, 16:52   #17 (permalink)
User
 
Data di registrazione: Oct 2006
Messaggi: 228
Invia un messaggio tramite Yahoo a AlbertoSeo
Tratto da: http://infolab.stanford.edu/~backrub/google.html

Parsing -- Any parser which is designed to run on the entire Web must handle a huge array of possible errors. These range from typos in HTML tags to kilobytes of zeros in the middle of a tag, non-ASCII characters, HTML tags nested hundreds deep, and a great variety of other errors that challenge anyone's imagination to come up with equally creative ones.
AlbertoSeo non in linea   Rispondi citando
Vecchio 28-12-06, 12:13   #18 (permalink)
Esperto
 
Data di registrazione: Oct 2006
Messaggi: 333
Ciao, una curiosità: l'output che deve dare la funzione e che serve a teecno è ancora quello iniziale?

Cosa fare nel caso ci siano due h1, si considera il secondo dato che dovrebbe essere più specifico?
Fra_T non in linea   Rispondi citando
Vecchio 29-12-06, 12:09   #19 (permalink)
User
 
Data di registrazione: Oct 2006
Messaggi: 228
Invia un messaggio tramite Yahoo a AlbertoSeo
Quote:
Fra_T
Cosa fare nel caso ci siano due h1, si considera il secondo dato che dovrebbe essere più specifico?
Infatti, lo sviluppo dei parser html è una area di ricerca molto interessante ma anche estremamente complessa. Io mi affiderei in questo caso alla stessa scelta dei motori di ricerca più importanti: mozilla. La piattaforma offre una serie di tool fantastici per l'analisi dei contenuti html attraverso l'interfaccia DOM standardizzata. Ciao
AlbertoSeo non in linea   Rispondi citando
Vecchio 20-02-07, 17:00   #20 (permalink)
User
 
L'avatar di 4ustat
 
Data di registrazione: Feb 2007
Messaggi: 94
Invia un messaggio tramite MSN a 4ustat Invia un messaggio tramite Skype a 4ustat
per quanto riguarda la gestione degli errori, proporrei la vecchia teoria delle iptable di linux (scusate se la prendo alla lunga ) ossia e' valido solo quello che dichiariamo e non l'operazione contraria (ossia tutto valido tranne quello che gli diciamo noi) che mi sembra piu' ostica , visto che gli errori sono tanti e tali quasi da non poter essere classificati.

non so le regular expression sono più lente, ma di sicuro sono molto più affidabili, leggibili e robuste proprio perche' vanno nella direzione espressa sopra... ossia verificano esattamente cosa far passare
__________________
http://www.wikibarletta.com
4ustat non in linea   Rispondi citando
Rispondi
Tags: , ,



Strumenti di discussione

Regole di scrittura
Non puoi postare nuove discussioni
Non puoi rispondere alle discussioni
Non puoi allegare file
Non puoi editare i tuoi post

BB code is Attivo
smilies è Attivo
[IMG] il codice è Attivo
Il codice HTML è Disattivato
Trackbacks are Attivo
Pingbacks are Attivo
Refbacks are Disattivato
Vai al forum



Tutti gli orari sono GMT +3. Attualmente sono le 14:13.




Forum GT - © 2004-2009 GT idea S.r.l P.iva 02418200800 - Privacy/Disclaimer

SEO by vBSEO 3.2.0 ©2008, Crawlability, Inc.