Validazione W3C e posizionamento di un sito

raele.l.angelo

Validazione W3C e posizionamento di un sito

Ciao a tutti

riprendo qui l'argomento della validazione W3C e della sua influenza nell'indicizzazione di un sito.

ho trovato[url=http://www.ezilon.com/information/article_2361.shtml] questo articolo, che secondo me potrebbe interessare, dal quale vi traduco i passaggi piu' importanti:

Il codice html che non segue le regole ufficiali e' chiamato codice invalido. Perche' un codice VALIDO e' importante per il search engine optimization e per tutto il tuo lavoro di marketing??

Il motore di ricerca deve analizzare il codice html del tuo sito per trovare il contenuto rilevante. Se il tuo codice html contiene errori, il motore di ricerca potrebbe non essere in grado di trovare il contenuto della pagina, e cosi' finirebbe il tuo lavoro di seo e sem...

Gli spider dei motori sono programmi ed obbediscono agli standard html. Essi possono indicizzare il tuo sito solo se esso e'obbediente, rispondente agli standard html. Se c'e' un errore nel codice della tua pagina, lo spider potrebbe stoppare l'acquisizione dei dati dal tuo sito e potrebbe perdere quelli gia' collezionati per via dell'errore.

Sebbene i piu' grandi motori di ricerca possono affrontare errori minori nel codice html, una singola parentesi mancante nel tuo codice puo' essere la ragione per cui il tuo sito non puo' essere trovato sui motori di ricerca.

Per quanto mi riguarda, visto che sono un neofita nel seo, il discorso sopra non fa una piega. ...e potrebbe anche essere la ragione per cui molti siti non riescono a salire o addirittura ad entrare su GG.
Personalmente cerchero' d'ora in poi di validare sempre un sito, cosa che si complica un pochino se bisogna validare html, css, links, wai accessibility.....pero' tant'e'!!!!

Ora due domande: secondo voi un sito validato W3C viene anche inserito in qualche sorta di directory?

altra cosa: link in uscita (banner validazione) a W3C su tutte le pagine di un sito potrebbero essere utile per il posizionamento di un sito?

giorgiotave

Io ho la mia idea a riguardo:

un codice valido ci vuole per un web migliore. E' una cosa molto importante a cui credo molto. Ma non toccatemi i motori di ricerca.

Secondo voi google può controllare la validazione del codice?

E' uno spreco di risorse per lui.

Non ho fatto test, quindi prego le smentite

lucas

Sono daccordo con Giorgio.

D'altraparte è difficile trovare in testa alle serp codice validato. Diciamo che scrivere i siti in HTML corretto e accessibili è sempre una buona cosa, ma dubito che influenzi i motori.

L'unica cosa che posso dire è che siti miei validati e siti miei non validati hanno più o meno le stesse posizioni e non mi è mai sembrato un fattore discriminante.

Però nemmeno io ho fatto test in proposito.

Lucas

emanueledg

Occorre dire che i MDR sono poco inclini all'analisi degli errori HTML perché leggono prevalentemente i contenuti al di fuori dei tag.
Ci si chiede se i MDR hanno un sistema di controllo della validità del codice: ebbene sì, i principali e più potenti effettuano un controllo della struttura HTML basato sull'analisi del DOM (document object model) di ogni singola pagina (non sul WAI, più esigente e rigoroso).
È un sistema semplice che sintetizza ogni documento in una serie di elementi con una gerarchia; ogni elemento può essere collocato al di sotto di altri (livello inferiore) o di seguito (pari livello) e all'occorrenza può avere determinati attributi, specifici per ogni elemento.

C'è un sistema molto utile di analisi del DOM nel menu strumenti di Firefox, che associa anche un numero di priorità ai nodi in base all'ordinamento nel documento e permette di ricercarli in base a tag, id, e attributo/i.

Detto questo, gli errori HTML in relazione ai MDR si possono classificare in due macrocategorie.
La prima è quella degli errori "semplici" che, seppure generando un output differente dalle intenzioni dell'impaginatore, non comportano una mancata visualizzazione del testo.
Per esempio:


<TABLE BORDER=1 WIDTH=200>
<TR><TD>Table content</TR>
</TABLE>

la mancata chiusura del tag TableData non causa l'omissione del testo "Table content" nella tabella all'interno del documento.
Per esser più precisi le specifiche del W3C stabiliscono che la chiusura di entrambi i tag TD e TR non è obbligatoria (se non ci credete, guardate [url=http://www.w3.org/TR/REC-html40/struct/tables.html]qui a metà pagina) pertanto un browser W3C conformant chiude normalmente la tabella senza farsi problemi. Sia MSIE sia FF rispettano questa specifica, e, ciò che più ci interessa, anche gli spider leggono quel contenuto per indicizzarlo.

Nell'esempio visto sopra non c'è conseguenza visibile all'errore dell'impaginatore. Vediamo invece questo esempio:


<FONT FACE="Arial SIZE="4">text</FONT>

In questo caso il testo inserito all'interno dei tag non sarà né Arial né di dimensione 4.
Questo è un errore più visibile perché a livello grafico si ottiene qualcosa di diverso da quanto desiderato. Il testo stampato a video non sarà formattato come si vorrebbe.
Anche in questo caso però gli spider non si fanno problemi: indicizzano il contenuto di quei tag.

La seconda categoria è quella degli "errori gravi": quegli errori di marcatura che fanno sì che non sia stampato a video il contenuto desiderato. Fa parte di questa categoria di errori l'omissione di virgolette singole ' e doppie " o degli apici < e >. Per esempio:


<FONT FACE="Arial SIZE=4>contenuto del tag "font"</FONT>

In questo caso l'analisi DOM non è in grado di stabilire dove finisca il tag <FONT> di apertura, dal momento che l'apice ">" che ne delimita la chiusura si trova per errore all'interno del valore dell'attributo FACE. Di conseguenza è come se non esistesse. Infatti viene letto:


<FONT FACE="unknown font"</FONT>

e avrà valore solo il tag di chiusura </FONT>, con conseguente risultato di chiusura di altri eventuali tag FONT aperti in precedenza. Di fatto il contenuto dei tag è nullo e non viene letto dal browser (provare per credere) né dallo spider.

Domanda: a causa della struttura DOM non formalmente corretta, si può essere penalizzati per errori del genere?
Sinceramente non credo, visti alcuni errori grossolani HTML trovati spesso nelle prime serp come ha riscontrato anche Lucas.
Se così fosse troppi siti ne sarebbero penalizzati.
Ma se googlebot volesse aumentare la qualità del web non dovrebbe far altro che muovere un dito svalutando quei risultati che secondo il DOM risultino imperfetti (non sarebbe male).
In ogni caso la validazione secondo le linee guida WAI ([url=http://validator.w3.org/check]W3C validator) è molto rigorosa e spesso richiede tempo, dal momento che anche un documento piuttosto complesso, pur essendo un prodotto crossbrowser e funzionando a puntino, può risultare imperfetto all'analisi del validator W3C.

lucas

@emanueledg said:

Ma se googlebot volesse aumentare la qualità del web non dovrebbe far altro che muovere un dito svalutando quei risultati che secondo il DOM risultino imperfetti (non sarebbe male).

Bel post.

In aggiunta c'è da dire che la "qualità tecnica" del web non è una delle priorità di google, e, se divenisse una priorità, andrebbe contro il primo obiettivo (= reperire informazioni di qualità semantica e non tecnica tra "tutte" le pagine presenti sulla rete). Effettuare una selezione del genere a mio giudizio peggiorerebbe la qualità delle serp.

ciao,
Lucas

emanueledg

Sono pienamente d'accordo.
Sebbene nei risultati di una ricerca la qualità tecnica possa migliorare la fruizione delle informazioni da parte dei navigatori (e non è detto che questo accada), d'altra parte la priorità della ricerca è nei contenuti.

beke

Quoto Lucas,
sia per l'apprezzamento dell'ottimo post di emanueledg, sia per la considerazione finale.

Avere codice validato garantisce che gli spider lo possano analizzare senza problemi, ma non è comunque necessario averlo.
Google in particolare riesce ad ingoiare davvero di tutto pur di estrarre informazioni utili dai documenti.

calabria

Scusate se Uppo questo post ma l'argomento mi interessa e forse qualcosa è cambiato.

Io ritengo che anche Google potrebbe (se non ora, in imminente futuro) dare maggior spazio al w3c non tanto per una situazione di reperimento informazioni ma per garantire che queste siano accessibili da tutti gli utenti.

Una mole di informazioni se non sono totalmente accessibili non sono informazioni. Fossi in Google ( e non ho mai testato questo discorso per ora...) andrei alla ricerca del contenuto della pagina in entrambi i casi ma darei maggior visibilità a chi usa il w3c.

moroandrea

Per le prove che ho fatto io, a GG e agli altri motori, non gliene frega niente se il tuo sito è validato o meno.
Ci sono, come già notato, risultati in serp abominevoli e completamente sgrammaticati.
Detto questo, auspico che in un futuro prossimo (estremamente viccino) che almeno G si decida a fare un controllo DOM sulle pagine e dare qualche punto in più a quei siti che sono validati.
Data la loro potenza di calcolo, dubito che un controllo che il w3c fa in 4 secondi, a loro richieda chissà quante risorse in +

marcotuscany

A mio avviso, l'avere sulle pagine un codice pulito, assenza di tabelle e facile reperimento delle informazioni per gli spider dei motori è UNO dei parametri che possono favorevolmente agevolare il loro lavoro, altra storia invece la corretta presentazione semantica dei contenuti, una pagina realizzata div+css tableless ha molte più possibilità di essere gestita per questo scopo.

Bisogna tenere sempre in mente che Google DEVE risparmiare risorse, questo lo deve fare dappertutto quindi se hai:

server efficiente (e non spesso giù come capita più spesso in quelli economici)
pagine leggere e prive di ostacoli, in poche parole "spider friendly"
presentazione semanticamente corretta dei contenuti
adeguato supporto di link popularity

sei già ad un ottimo punto.
La validazione effettiva della pagina, almeno per adesso non sembra essere un requisito determinante.

alessandroweb2

Ragazzi, a distanza di anni da questa discussione pensate che sia cambiato qualcosa? secondo me google andrà sempre piu a preferire siti validati w3c...