• Community Manager

    [Convegno GT 2006] - Il TrustRank di Google

    Bene, dopo Nelli che ha aperto le danze con [Convegno GT 2006] - come gli utenti usano i MDR, tocca a me aiutato da Nelli e Beke fare questo post.

    Ci stiamo attrezzando per affrontare gli argomenti del Convegno GT. Presto vi darò la possibilità di iscrivervi alla newsletter e creerò un raccoglitore di risorse sul Convegno. Per ora abbiamo raccolto e sto per aggiornare le risorse esterne, cioè i post dalla blogosfera. Passerò poi a quelli in questo forum.


    L'intervento fatto al convegno cercava di porre l'accento sul fatto che la fiducia, un concetto che nella vita maneggiamo quotidianamente, esiste a più livelli anche nell'ambito del web- search.

    Tanto per cominciare gli utenti dei motori attribuiscono un certo grado di fiducia agli stessi quando li usano per effettuare le loro ricerche.

    I motori devono fornire risultati rilevanti per non perdere questa fiducia, ma è un compito difficile.
    Il web è un vero e proprio caos di documenti di ogni formato, tipo e lingua, scritti da chissà chi per gli scopi più diversi, alcuni scritti proprio per ingannare i motori.
    Infatti fin dall'inizio la lotta fra motori e spam è stata serrata ed i motori devono tuttora cercare di scoprire quanti più indizi possono sui documenti da ordinare per valutarne la qualità.

    Quando i motori si limitavano ad analizzare i metatag i webmaster alteravano i risultati delle serp attraverso il keyword-stuffing in questi campi invisibili agli utenti.

    Quando i motori hanno iniziato ad analizzare il contenuto visibile delle pagine i webmaster hanno risposto utilizzando tecniche per inserire nei documenti testo visibile solo ai motori (stesso colore dello sfondo, testo microscopico, riformattazioni tramite javascript e css, frameset al 100% ecc.).

    Quando i motori hanno iniziato ad misurare la link-popularity, considerando ogni link come una attribuzione di popolarità verso il documento linkato i webmaster hanno pubblicato documenti fittizi, inutili per gli utenti, al solo scopo di aumentare il valore di questo parametro.

    Quando Google ha ideato il PageRank, introducendo una scala di valori nell'importanza trasmessa dai link, i webmaster hanno risposto creando enormi reti di siti per compensare con il grande numero di link il basso (http://www.giorgiotave.it/forum/../wikigt/os/PageRank) di ognuno dei documenti che le componevano, oppure, grazie al fatto che il valore di PR era pubblico, a vendere e scambiare link ad alto PR.

    Fino al 2003 queste tecniche hanno funzionato egregiamente, ma da allora qualcosa sembra essere cambiato.

    I motori di ricerca stanno seguendo diverse strade, sia per rimuovere lo spam dalle serp, sia, più in generale, per migliorare queste ultime.

    Una di queste (il TrustRank) consiste nell'utilizzo dei link per la trasmissione di un valore assoluto di fiducia che può essere utilizzato in fase di ordinamento allo scopo di far avanzare i documenti che godono di maggiore fiducia e, di conseguenza, arretrare gli altri.

    Il concetto che sta alla base di tutto l'algoritmo è che un sito privo di spam e ben controllato raramente linka un sito spammoso, semplicemente perchè non ha ragione di farlo.
    Questo ipotetico sito buono, quindi, trasmette in un certo senso la sua fiducia ai siti che linka. A loro volta questi fanno la stessa cosa con quelli da loro linkati e così via.

    Il calcolo del TrustRank, a grandi linee, viene eseguito così:

    Un primo algoritmo (chiamato dagli autori Pagerank inverso) ha identificato un insieme (seed-set) di siti selezionati per poter ottenere la massima copertura possibile in fase di trasmissione della fiducia (siti con molti link in uscita che ne linkano altri che a loro volta hanno la stessa caratteristica e così via).

    Dall'insieme ottenuto sono stati eliminati tutti i siti che non apparivano in nessuna delle maggiori web-directory.

    Dall'insieme ottenuto sono stati eliminati tutti i siti che non erano riconducibili ad una autorità chiaramente identificabile.

    I siti risultanti sono stati esaminati manualmente da uno degli autori che ne ha identificati 178 considerati ?buoni? per formare il seed-set.

    A questi 178 siti viene assegnato un punteggio di fiducia uguale a uno, mentre tutti gli altri rimangono a zero.

    Viene calcolato il TrustRank all'intero grafo allo scopo di trasmettere la fiducia alle pagine collegate al seed-set.

    La formula del TrustRank è simile a quella del PageRank, pertanto può essere scritta come una variante di quest'ultima. In questo caso userò una delle forme più semplici :

    [LEFT] Codice:
    [LEFT]TR(A) = (1-d) + d F(TR(doc1)/C(doc1) + ... + TR(docN)/C(docN))
    [/LEFT]

    [/LEFT]
    La vera differenza fra i due algoritmi sta nel valore F che va a modificare il fattore di attenuazione uniforme (d) che normalmente si usa nel calcolo del PageRank.
    F è il valore di fiducia assegnato manualmente nella fase precedente, quindi è 1 per i documenti del seed-set e zero per tutti gli altri.

    Dopo il primo ciclo di calcolo (l'algoritmo è ricorsivo, come il PageRank) si osserva che ?praticamente? il valore di TR viene trasmesso solo dalle pagine del seed-set.

    Nelle successive iterazioni anche le pagine che hanno ricevuto parte della fiducia (attenuata e divisa per il numero dei link in uscita) dai documenti del seed-set, ne trasmetteranno un po' a quelle a loro collegate finchè i valori non si stabilizzeranno ed avremo così calcolato il Trustrank per tutti i documenti.

    I risultati dell'algoritmo sono ottimi, glinautori hanno verificato che i siti ad alto TrustRank sono praticamente esenti da spam, a differenza di quelli ad alto Pagerank che invece ne contengono parecchio.

    Ulteriori studi esterni hanno confermato la bontà dell?algoritmo e ne hanno identificato alcuni punti critici.

    Ad esempio è molto importante che il seed-set copra uniformemente I topic del web e le varie aree geografiche.

    L?ampiezza del seed- set invece è un parametro meno critico.
    Inoltre studi successivi al TrustRank mostrano come sia possibile trasmettere anche un parametro opposto attraverso i link, il ?distrust?, ovvero la sfiducia.

    In questo caso è il sito che ne linka uno di cui si conosce lo stato ?spammoso? a ricevere il punteggio, quindi la sfiducia viaggia attraverso i link ma in direzione opposta.

    Sono stati fatti esperimenti combinando entrambi i punteggi ed i risultati sono stati soddisfacenti, ancora migliori che con il solo TrustRank.

    Non c?è la certezza matematica che Google stia utilizzando anche il TrustRank per i suoi ordinamenti ma molti indizi fanno pensare che sia così

    1. Google ha brevettato l?algoritmo sei mesi dopo la sua pubblicazione.
    2. L?algoritmo è volutamente stato studiato per utilizzare formule simili a quelle del Pagerank, quindi già ottimizzate per l?infrastruttura di Google.
    3. Non richiede grosse risorse di calcolo.
    4. I risultati sono buoni, e con i mezzi a disposizione di Google possono essere migliorati tantissimo.
    5. Tenere d?occhio un seed-set di qualche centinaio di siti è una cosa fattibilissima per una struttura come Google.

    🙂


  • User Attivo

    Bella Giorgio.....questo era qualcosa su cui mi interrogavo da tempo!:vai:


  • User

    Interessante...

    Nonostante tutto però come dicevi, non c'è alcuna certezza che Google si stia affidando ad un parametro simile nella visualizzazione dei riusltati dopo le ricerche.

    Ma pensavo che se andremo avanti così, prima o poi apparirà nella google toolbar anche una barra del trustrank, come valore da dover innalzare per una migliore visibilità.

    Se non ho capito male, a quanto si dice una delle più importanti ( a mio parere forse unica ) variabile da considerare nel posizionamento è il contenuto delle pagine.

    Ps:

    Ma pensa....ci si fa migliaia di trip sulle possibili tecniche, ma secondo me centra solo la cosa più naturale di questo mondo nel posizionamento:

    Quello che sta dentro al sito e che deve leggere l'utente del motore.

    Una logica umana...forse la migliore, che star dietro ai trucchi.


  • Super User

    Ciao El Malo 🙂

    @El Malo said:

    Se non ho capito male, a quanto si dice una delle più importanti ( a mio parere forse unica ) variabile da considerare nel posizionamento è il contenuto delle pagine.Tutt'altro invece.

    L'unica cosa che sappiamo sull'ordinamento che Google effettua dei documenti è che i fattori tenuti in considerazione sono tantissimi, e che fare diversamente sarebbe un suicidio.
    Quali sono questi fattori Google non viene certo a dirlo a noi (se fosse già stato una realtà commerciale quando hanno ideato il Pagerank probabilmente non ne avrebbero mai divulgato la formula), però nel tempo abbiamo assistito ad un deciso spostamento di importanza dai fattori on-page verso quelli esterni.

    :ciauz:


  • User

    Ciao Beke!!!

    Non intendevo dire che gli altri fattori non centravano, figurati...

    è solo che ultimamente ne sento sparare di tutti i colori sul posizionamento, e quelli che mi fanno ridere di più sono quelli delle grandi imprese che si definiscono leader nel settore.

    Un mix di fattori ben curati, e non esagerati, di certo potrà ottenere un risutato niente male nelle ricerche.

    Però sai, non posso fare a meno di pensare a tutte le volte che uno cerca qualcosa ed esce fuori una marea di fregnacce...

    Per questo davo molta importanza al contenuto ( ovviamente in sinergia con i tag della pagina )