• Super User

    Far indicizzare una pagina finora largamente snobbata da Google

    Topic diviso da Giorgiotave da qui

    @Stuart said:

    "Perchè diavolo Google dopo più di un mese non ha ancora indicizzato QUESTA pagina pur essendo linkata dal Forum GT e da un altro sito su cui Googlebot è passato almeno 4 volte???"

    Se l'ha scaricata ma non indicizzata, allora la ragione è che la pagina viene snobbata, in quanto del tutto priva di testo.

    (don't panic! ho già pronta una bellissima teoria a riguardo...visto che un po' di spray repellente per Googlebot se lo devono essere spruzzato anche le pagine di Everfluxx a b (http://everfluxx.googlepages.com/c.html) d per questo esperimento )

    Anche ad Everfluxx era stato prospettato il triste scenario della mancata indicizzazione. 😉


  • Super User

    @LowLevel said:

    Anche ad Everfluxx era stato prospettato il triste scenario della mancata indicizzazione. 😉
    Confermo.


  • Super User

    😮


  • Super User

    @"LowLevel" said:

    Se l'ha scaricata ma non indicizzata, allora la ragione è che la pagina viene snobbata, in quanto del tutto priva di testo. Del tutto priva di testo non direi.
    Inconsistente si. Linkata "male" ("pagina 1" e, su un altro sito, "test A") sicuramente. Possiede un link outbound ancora più inconsistente, si.

    Ma non credo sia da ricercare (solo) nella brevità del testo il motivo della non-indicizzazione, visto che ho pagine indicizzate (voci di un glossario online) che sono brevi alla stessa maniera.

    Cordialmente,
    Stuart


  • Super User

    @Stuart said:

    Del tutto priva di testo non direi.

    Dipende da che cosa si intende per "testo".

    Secondo Google e anche secondo il sottoscritto (che è costretto ad ottimizzare le pagine anche per Google), quella pagina non contiene un carattare di testo che sia uno. Però, come dicevo, che cosa si intende per "testo"?

    visto che ho pagine indicizzate (voci di un glossario online) che sono brevi alla stessa maniera.

    La brevità non c'entra, in questo caso. Sono certo che le voci di quel glossario non contengono esclusivamente intestazioni, come avviene nella pagina sul tabagismo. 🙂

    Procediamo per logica: le intestazioni, su quella pagina, a cosa stanno in testa? Puoi mettere una ciliegina sulla torta se non hai la torta?

    E quindi ripropongo la domanda: che cosa si intende per "testo"? In che modo lo intendiamo noi? Come lo intendono i motori di ricerca Y, X e Z? Come lo devono intendere i SEO?

    E ancora: che cosa il motore considera "testo" quando deve decidere se indicizzare un documento o meno? E che cosa considera "testo" in fase di indicizzazione? E in fase di valutazione/ranking?

    Invito te, Everfluxx e chiunque voglia partecipare a fare test in merito.

    Potrebbero venir fuori tante cose interessanti, sia per quanto riguarda la valutazione dei testi da parte di Google, sia per quel che concerne la qualità dei backlink.


  • User Attivo

    LowLevel rispondo piu' per invitarti a proseguire nel discorso che per altro.

    Per me per testo si intende tutto cio' che non sia codice.
    Credo che questa sia la definizione comune.

    Premesso questo poi bisogna capire quale valore un motore assegna alle parole del testo.

    Ci sono stop key, poison key, "inutil" key.

    Poi ci sara' una valutazione di analisi logica e grammaticale che permette ai motori di fare un primo ripulisti-distinguo tra testo corretto e testo "improbabile".

    Poi ci sara' una valutazione di correlazione, un conto allevamento cani un conto allevamento case.

    Poi ci sara' una valutazione in merito a testo originale e non.

    Poi ci sara' una valutazione in base alla punteggiatura, le frasi rientrano in certi range di lunghezza, una frase di 500 parole senza un punto od interruzione puzza di artificiale.

    Poi ci sara' una valutazione dentro la pagina, posso scrivere un'ottima frase originale, ma se la ripeto 3 volte in una pagina...

    Poi ci sara' una valutazione comprensiva di tutto il contenuto del sito, una frase ripetuta in ogni pagina vale come il discorso sopra...

    Poi ci sono i numeri che sono mondo a se.

    Poi c'e' l'uso di lingue e code diversi nella pagina, non so come potrebbe valutare un motore una pagina scritta in 9 lingue diverse.

    Poi c'e' il controllo se una parola esiste o meno, se scrivo fdsfsfdsfds98gs0 non so se per un motore sia considerabile testo.

    Poi c'e' il discorso formattazione del testo, se dopo un punto non trovo una parola che inizia con la maiuscola mi puzza.

    Poi bisogna valutare la visibilita' di un testo, una frase con 600 "br" prima serve a nulla.

    Poi c'e' la stabilita' del testo, se ogni refresh il testo cambia vale nulla.

    Poi c'e' la tipologia-qualita' del testo, "porno zoccole" non vale come "assistenza anziani".

    Poi c'e' l'incrocio tra testo e backlink, se un backlink linca riportando un titolo o la description di una pagina perfettamente, i link vale poco il testo non so...

    Poi ci sara' una valutazione del rapporto tempo e nuovo testo, un sito da poco che ogni giorno mi propone-aggiunge 10 mega di testo nuovo lascia il tempo che trova.

    Dopo tutti questi e molti altri poi, dopo che il marketing ha ucciso o premiato altrettanto tuo testo a seconda della bisogna, allora si capisce che (per esempio) per riuscire a fare dello spam efficace oggi bisogna essere veramente bravi, e non di meno si capisce che quanto il wm serio afferma che il contenuto sia al primo punto non sbaglia.


  • Super User

    Siccome proprio oggi sto battendo il record di downtime di googlerank.com (16 ore in questo preciso momento...) la pagina incriminata non è visibile. Ne copio qui il codice sorgente in modo che si sappia di cosa stiamo parlando

    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
    <html xmlns="http://www.w3.org/1999/xhtml">
    <head>
    <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
    <title>Test Attributo TITLE ai link</title>
    </head>
    <body>
    <h1>Test Attributo TITLE ai link</h1>
    <h2>Se vuoi smettere di fumare ti consiglio il metodo sicuro per farlo:</h2>
    <h3>Occorrente  : le tue solite sigarette ; il tuo solito tabagismo ; uno spillo o un ago, ma va anche bene una puntina da disegno.</h3>
    <h3>Tempistiche. Con questo metodo, senza ridurre il numero di sigarette fumate quotidianamente, smetterai naturalmente di fumare in circa 1 settimana / 10 giorni</h3>
    <h4>Controindicazioni: una sola, <a href="http://www.kapefiles.com/controindicazione.html" title="Google fuma le mie camel Lights">questa</a></h4>
    </body>
    </html>
    

    Questa pagina riceve (al momento) due [2] backlink.

    1. Uno dal forum GT http://www.giorgiotave.it/forum/laboratorio-seo/14512-test-indicizzazione-dellattributo-title-dei-link.html#post116501 con l'àncora pagina n 1
    2. E uno da questa pagina: http://www.kapefx.com/index-ita.html con l'àncora Test "A"

    ** La pagina in questione, dopo quasi un mese, non è stata ancora indicizzata da Google e neanche da MSN.**
    Da Yahoo!, invece, sì. per altro dopo pochi giorni, visto che in cache appare nella sua veste originaria (non avevo ancora messo l'intestazione H1 uguale al TITLE TAG)
    http://search.yahoo.com/search?p=http%3A%2F%2Fwww.googlerank.com%2Fita%2Fgoogle-tabagismo.html&fr=FP-tab-web-t500&toggle=1&cop=&ei=UTF-8
    Non senza una punta di orgoglio sono anche in prima pagina con la chiave Smettere di fumare in una settimana (senza virgolette)

    Back in topic.

    @"LowLevel" said:

    Però, come dicevo, che cosa si intende per "testo"? Per testo intendo informazioni di tipo testuale che il motore riesce (o vuole riuscire) ad estrapolare da un dato documento.
    Secondo questa mia interpretazione molto estesa, ritengo che sia "testo" anche l'attributo ALT di un'immagine, in quanto il motore ritiene quell'*informazione *meritevole di entrare nei complicati processi di valutazione e ranking di una pagina.

    Da utente (umano) ritengo "testo" un contenuto leggibile che soddisfa un mio bisogno. Da utente (umano) non posso realmente distinguere un'intestazione h1 da un'intestazione h4. Sono parole, frasi, paragrafi, capoversi. Al termine della consultazione di una pagina potrò giudicare una pagina "interessante" oppure "spazzatura".

    Umanamente parlando la pagina di cui ho riportato il codice sopra è meno che spazzatura.

    Ciò che mi interessa capire è il motivo per cui anche Google e Msn l'hanno considerata tale.

    • Se perchè la pagina di fatto non contiene testo utile (tutte le frasi sono contenute in heading <hx></hx>)
    • Se perchè la pagina è *clueless *: non vi è attinenza tra il TITLE , l'H1 e le informazioni testuali incluse anch'esse in intestazioni.
    • Se perchè riceve due (2) backlink le cui ancore non attribuiscono un "voto" efficace e specifico.Anche se, secondo il consorzio W3.org tu e Google avete perfettamente ragione a schifare quella pagina...
      @"W3C - The Global Structure of an HTML document" said:

    A heading element briefly describes the topic of the section it introduces. Heading information may be used by user agents, for example, to construct a table of contents for a document automatically. ...molto testardamente continuo a ritenere il PESSIMO backlinking il principale responsabile della mancata indicizzazione.

    Ferma restando la mia ammissione di colpa nell'aver prodotto una pagina html che non tiene conto della struttura classica html --- > intestazione - testo ; intestazione - testo e così via.

    Perchè in quella pagina, seppur piena solo di intestazioni e nessun testo a seguire, potrebbe esserci scritta la più grande genialata del secolo. Come fa Google, nel 2006, a capire se una risorsa contiene qualcosa degno di essere segnalato ai suoi clienti/utenti? Con i backlink.

    E i backlink, se sono pochi come in questo caso, devono essere buoni. E gli attuali backlink non sono buoni abbastanza da escluderli dalle cause della non indicizzazione.

    Il tuo giudizio "umano" è che quella pagina parla di "tabagismo". Il mio giudizio umano è che quella pagina parla di "[come] smettere di fumare". Il giudizio umano di un terzo è che quella pagina parla di un "test sull'attributo TITLE". Se volessimo linkare "votando" quella pagina, probabilmente useremmo una di quelle kwd o kphrase. Se volessimo linkare la pagina solo per suggerirne la lettura scriveremmo un paragrafo di presentazione e poi inseriremmo un link sui generis verso http://www.... senza alcuna ancora se non l'URL.

    Ciò attualmente non avviene. Che poi Google (e MSN) rigettino a priori quella pagina perchè la considerano "priva di testo" lo valuteremo in seguito.

    @"LowLevel" said:

    Invito te, Everfluxx e chiunque voglia partecipare a fare test in merito.
    Potrebbero venir fuori tante cose interessanti, sia per quanto riguarda la valutazione dei testi da parte di Google, sia per quel che concerne la qualità dei backlink. E' ciò infatti che ho intenzione di fare 🙂

    Questa più o meno la scaletta che vorrei seguire:

    a. Aspettare che mi risistemino i DNS di googlerank.com , altrimenti non si va da nessuna parte (:():)
    b. Per puro scrupolo voglio attendere che venga reindicizzata la pagina su kapefx.com su cui è posto il link verso la pagina del "tabagismo"

    Dopodichè:

    ** 1. Modificare le ancore dei backlink in modo che siano coerenti con i contenuti della risorsa linkata**. Un link avrà come anchor "Smettere di fumare" , l'altro "Tabagismo" , e ne aggiungo un terzo che avrà come anchor l'URL stesso

    Ovviamente in questa fase, il contenuto della pagina rimarrà il medesimo riportato sopra. Nessuna variazione.

    1. Se la pagina continua a non essere indicizzata, fare una sostanziale variazione. Lasciare tutto com'è , ma cambiare gli attuali <h3> e <h4> in semplici paragrafi <p>. L'unica intestazione rimane l'<h1> iniziale.

    I backlink rimangono i medesimi.

    1. Se la pagina continua a non essere indicizzata, renderò coerente il TITLE TAG e l'H1 (coerente, non uguale) con il resto del testo, in modo che a tutti gli effetti, la pagina diventi una mini-mini-risorsa su come smettere di fumare.

    I backlink rimangono i medesimi.

    1. Se ancora non dovesse bastare, come ultima variazione cambierò l'outbound link -attualmente verso una pagina non indicizzata su un altro dominio- e lo dirigerò verso un sito istituzionale che parla di tabagismo e problemi collegati all'abuso del fumo.

    Mi verranno comunque altre idee nel corso del test.

    Cordialmente,
    Stuart


  • Community Manager

    Interessante questo nuovo test, un test nel test.

    Lo splitto su richiesta di Stuart 🙂

    E' la prima volta che metto mani nei post di Low 😄

    :ciauz:


  • Super User

    Interessante. Low da quello che dici sembrerebbe pero' che i motivi che influenzino la mancata indicizzaizone dei due test siano nello specifico diversi... o sbaglio?

    Anche Everfluxx potrebbe provare a fare un test parallelo.. (magari iniziando dal rifare le pagine con h1 e testi dal senso compiuto?)

    Nicola


  • Super User

    @Stuart said:

    Perchè in quella pagina, seppur piena solo di intestazioni e nessun testo a seguire, potrebbe esserci scritta la più grande genialata del secolo. Come fa Google, nel 2006, a capire se una risorsa contiene qualcosa degno di essere segnalato ai suoi clienti/utenti? Con i backlink.

    Hmm.. no, non in questo caso.

    Io avevo scritto: "Se l'ha scaricata ma non indicizzata[...]" e tutte le mie affermazioni successive facevano riferimento ad uno scenario in cui i backlink si sono dimostrati sufficienti a spingere Googlebot a scaricare la pagina.

    Pertanto, se i backlink sono stati sufficienti a far scaricare la pagina, la scelta di Google di indicizzarla o meno deve essere dipesa da quello che ha trovato all'interno di quella pagina. Perché se la scelta fosse dipesa dai backlink (o principalmente dai backlink) allora non avrebbe nemmeno sprecato le risorse per prelevarla.

    In questo specifico caso, sono stati i contenuti della pagina a far capire a Google che non era il caso di indicizzarla.

    E' vero che siamo nel 2006, ma non è corretto generalizzare sostenendo che ormai Google capisce (solo o principalmente) con i backlink che una risorsa contiene qualcosa di degno di essere segnalato ai propri utenti.

    Proprio perché siamo nel 2006, Google sarebbe un motore di ricerca fesso e obsoleto se smettesse di integrare le informazioni acquisibili dai backlink con le informazioni acquisibili dai contenuti della pagina.

    Adesso, qualunque SEO della vecchia guardia potrà testimoniarti come era facile posizionarsi sui motori poco evoluti di qualche anno fa usando keyword stuffing dentro intestazioni Hx.

    Se tu, nel 2006, presenti una pagina di quel genere (solo ed esclusivamente intestazioni) a Google, stai certo che non verrà indicizzata. Poi non so che succederebbe se tu gli puntassi decine di link PR9, ma in condizioni "normali" non verrà indicizzata.

    E ti dirò di più: probabilmente è pure inutile modificarla per aggiungere testo in paragrafi. 🙂


  • Super User

    @nbriani said:

    Interessante. Low da quello che dici sembrerebbe pero' che i motivi che influenzino la mancata indicizzaizone dei due test siano nello specifico diversi... o sbaglio?

    Hai ragione, i motivi sono differenti.


  • Super User

    @ LowLevel

    Non era mia intenzione sancire il declino del valore dei "contenuti" a favore unicamente dei "backlink". Rileggendo ora la mia affermazione ammetto che suona fastidiosamente come "assoluta".

    @"LowLevel" said:

    Adesso, qualunque SEO della vecchia guardia potrà testimoniarti come era facile posizionarsi sui motori poco evoluti di qualche anno fa usando keyword stuffing dentro intestazioni Hx.
    Lo so. Ero giovane inesperto e diversamente nomato, ma c'ero anche io 😉

    @"LowLevel" said:

    Se tu, nel 2006, presenti una pagina di quel genere (solo ed esclusivamente intestazioni) a Google, stai certo che non verrà indicizzata. Poi non so che succederebbe se tu gli puntassi decine di link PR9, ma in condizioni "normali" non verrà indicizzata.

    E ti dirò di più: probabilmente è pure inutile modificarla per aggiungere testo in paragrafi. 🙂
    Quanto alla non indicizzazione della versione *tutta-intestazioni *hai visto giusto. Alla fine ho dovuto arrendermi.

    Ora da circa una settimana (vedi sotto) ho semplicemente convertito un paio di intestazioni in semplici <p>. Senza ulteriori aggiunte.

    Last-Modified: Sat, 23 Sep 2006 15:00:31 GMT
    

    Non è ancora stata indicizzata, ma c'è da dire che non Gooblebot non è ancora passato a fare il suo periodico download carico di sdegno.
    😄

    So solo una cosa:
    http://www.googlerank.com/ita/google-tabagismo.html (approfitto per un link al volo)
    verrà indicizzato. Il "quando" non lo so, il "come" ho un paio di idee, il "perchè"... beh lo vedremo insieme 🙂

    Cordialmente,
    Stuart


  • Super User

    Prendendo spunto dai vostri testi parto con uno mio..mi autocito perché non ho molto tempo 😄

    @"http://www.kerouac3001.com" said:

    Prendendo spunto da un post di Enrico Altavilla su GT do il via ad un test sull?indicizzazione di una pagina in base alla tipologia di testo fornita.

    Nel mio caso fornirò al motore di ricerca una pagina con le seguente caratteristiche:

    1. La pagina è in lingua italiana
    2. Ogni coppia consecutiva di parole presenti nel testo non da nessun risultato su google (se cercata tra virgolette)

    Questa seconda caratteristica in particolare si basa sul concetto opposto a quello delle catene di Markov, ovvero un testo formato da coppie che non sono sensate in una determinata lingua non sarà una buona simulazione di quella lingua.

    Quindi il test si propone di vedere se esiste uno svantaggio nell?indicizzazione di un testo che pur usando parole italiane le struttura in un modo che google non riconosce come italiano.

    Inoltre se la pagina dovesse venire indicizzata sarebbe interessante analizzare che tipo di posizionamento avrà, essendo completamente priva di competitività per qualunque sequenza di parole presenti nella pagina (coppie, triple, quadruple).

    Ci sono vari test e varie analisi da poter effettuare, ma prima di tutto bisogna partire: ecco il link.

    Inizio ad inserire BLs e vediamo che succede.
    Per chi voglia le statistiche (solo di quella pagina) eccole: http://www.kerouac3001.com/stats/admin.php

    Datemi il vostro parere 😄


  • Moderatore

    @kerouac3001 said:

    Prendendo spunto dai vostri testi parto con uno mio..mi autocito perché non ho molto tempo 😄

    Inizio ad inserire BLs e vediamo che succede.
    Per chi voglia le statistiche (solo di quella pagina) eccole: http://www.kerouac3001.com/stats/admin.php

    Datemi il vostro parere 😄

    Fuori di testa!!
    il testo mi ricorda Marinetti

    ti terrò sott'occhio!


  • Super User

    News:

    La pagina esiste da ieri pomeriggio e già è stata spiderizzata da google e yahoo. Tra domani e dopodomani dovrebbe venire indicizzata:

    3 Ottobre 2006 - 22:35:33
    Sistema operativo Spider
    Browser Googlebot 2.1
    Risoluzione N/A
    IP 66.249.72.132
    Host crawl-66-249-72-132.googlebot.com

    3 Ottobre 2006 - 20:37:09
    Sistema operativo Spider
    Browser Yahoo!Slurp
    Risoluzione N/A
    IP 74.6.67.140
    Host lj612180.inktomisearch.com


  • Super User

    E nel frattempo, con una gioia la cui intensità non potete minimamente immaginare....

    anche la mia paginetta sul tabagismo di Google è stata indicizzata

    http://64.233.183.104/search?q=cache:daAxoYYacTYJ:www.googlerank.com/ita/google-tabagismo.html+www.googlerank.com/ita/google-tabagismo.html&hl=en&ct=clnk&cd=2

    Che dire.
    Aveva ragione LowLevel: una pagina composta unicamente da intestazioni (Hx), non viene indicizzata

    Cordialmente,
    Stuart


  • Community Manager

  • Super User

    adsense e/o link valgono come "testo", per google. sarebbe richiesto un test specifico per valutare quale dei due lo è. al momento ho solo potuto verificare pagine con intestazioni, adsense, link. stop.


  • Super User

    @must said:

    al momento ho solo potuto verificare pagine con intestazioni, adsense, link. stop. Hmmm. Smells like spam. 😉

    <added>Interessante, comunque. (Capito, Stu/Kerouac? Potete anche fare a meno di usare quelle catene di Markov... :D)</added>


  • Super User

    Post duplicato. *Sorryissimo.

    *Accidenti a me, non ho ancora capito bene la differenza fra "Edit" e "Quote".

    Ne approfitto per dire una banalità, che sicuramente must ha ben presente: AdSense è JavaScript, non testo.