Ti sei perso il VI Convegno gt? Forse puoi rimediare... www.convegnogt.it X Chiudi

Visualizza un messaggio singolo
Vecchio 13-12-06, 18:33   #1 (permalink)
Giorgiotave
 
L'avatar di Giorgiotave
 
Data di registrazione: Oct 2004
Ubicazione: Monasterace
Messaggi: 34,262
Invia un messaggio tramite Skype a Giorgiotave
[Convegno GT 2006] - Il TrustRank di Google

Bene, dopo Nelli che ha aperto le danze con [Convegno GT 2006] - come gli utenti usano i MDR, tocca a me aiutato da Nelli e Beke fare questo post.

Ci stiamo attrezzando per affrontare gli argomenti del Convegno GT. Presto vi darò la possibilità di iscrivervi alla newsletter e creerò un raccoglitore di risorse sul Convegno. Per ora abbiamo raccolto e sto per aggiornare le risorse esterne, cioè i post dalla blogosfera. Passerò poi a quelli in questo forum.

--------------------------------

L'intervento fatto al convegno cercava di porre l'accento sul fatto che la fiducia, un concetto che nella vita maneggiamo quotidianamente, esiste a più livelli anche nell'ambito del web- search.

Tanto per cominciare gli utenti dei motori attribuiscono un certo grado di fiducia agli stessi quando li usano per effettuare le loro ricerche.

I motori devono fornire risultati rilevanti per non perdere questa fiducia, ma è un compito difficile.
Il web è un vero e proprio caos di documenti di ogni formato, tipo e lingua, scritti da chissà chi per gli scopi più diversi, alcuni scritti proprio per ingannare i motori.
Infatti fin dall'inizio la lotta fra motori e spam è stata serrata ed i motori devono tuttora cercare di scoprire quanti più indizi possono sui documenti da ordinare per valutarne la qualità.

Quando i motori si limitavano ad analizzare i metatag i webmaster alteravano i risultati delle serp attraverso il keyword-stuffing in questi campi invisibili agli utenti.

Quando i motori hanno iniziato ad analizzare il contenuto visibile delle pagine i webmaster hanno risposto utilizzando tecniche per inserire nei documenti testo visibile solo ai motori (stesso colore dello sfondo, testo microscopico, riformattazioni tramite javascript e css, frameset al 100% ecc.).

Quando i motori hanno iniziato ad misurare la link-popularity, considerando ogni link come una attribuzione di popolarità verso il documento linkato i webmaster hanno pubblicato documenti fittizi, inutili per gli utenti, al solo scopo di aumentare il valore di questo parametro.

Quando Google ha ideato il PageRank, introducendo una scala di valori nell'importanza trasmessa dai link, i webmaster hanno risposto creando enormi reti di siti per compensare con il grande numero di link il basso PR di ognuno dei documenti che le componevano, oppure, grazie al fatto che il valore di PR era pubblico, a vendere e scambiare link ad alto PR.

Fino al 2003 queste tecniche hanno funzionato egregiamente, ma da allora qualcosa sembra essere cambiato.

I motori di ricerca stanno seguendo diverse strade, sia per rimuovere lo spam dalle serp, sia, più in generale, per migliorare queste ultime.

Una di queste (il TrustRank) consiste nell'utilizzo dei link per la trasmissione di un valore assoluto di fiducia che può essere utilizzato in fase di ordinamento allo scopo di far avanzare i documenti che godono di maggiore fiducia e, di conseguenza, arretrare gli altri.

Il concetto che sta alla base di tutto l'algoritmo è che un sito privo di spam e ben controllato raramente linka un sito spammoso, semplicemente perchè non ha ragione di farlo.
Questo ipotetico sito buono, quindi, trasmette in un certo senso la sua fiducia ai siti che linka. A loro volta questi fanno la stessa cosa con quelli da loro linkati e così via.

Il calcolo del TrustRank, a grandi linee, viene eseguito così:

Un primo algoritmo (chiamato dagli autori Pagerank inverso) ha identificato un insieme (seed-set) di siti selezionati per poter ottenere la massima copertura possibile in fase di trasmissione della fiducia (siti con molti link in uscita che ne linkano altri che a loro volta hanno la stessa caratteristica e così via).

Dall'insieme ottenuto sono stati eliminati tutti i siti che non apparivano in nessuna delle maggiori web-directory.

Dall'insieme ottenuto sono stati eliminati tutti i siti che non erano riconducibili ad una autorità chiaramente identificabile.

I siti risultanti sono stati esaminati manualmente da uno degli autori che ne ha identificati 178 considerati “buoni” per formare il seed-set.

A questi 178 siti viene assegnato un punteggio di fiducia uguale a uno, mentre tutti gli altri rimangono a zero.

Viene calcolato il TrustRank all'intero grafo allo scopo di trasmettere la fiducia alle pagine collegate al seed-set.

La formula del TrustRank è simile a quella del PageRank, pertanto può essere scritta come una variante di quest'ultima. In questo caso userò una delle forme più semplici :

Codice:
TR(A) = (1-d) + d *F*(TR(doc1)/C(doc1) + ... + TR(docN)/C(docN))

La vera differenza fra i due algoritmi sta nel valore F che va a modificare il fattore di attenuazione uniforme (d) che normalmente si usa nel calcolo del PageRank.
F è il valore di fiducia assegnato manualmente nella fase precedente, quindi è 1 per i documenti del seed-set e zero per tutti gli altri.

Dopo il primo ciclo di calcolo (l'algoritmo è ricorsivo, come il PageRank) si osserva che “praticamente” il valore di TR viene trasmesso solo dalle pagine del seed-set.

Nelle successive iterazioni anche le pagine che hanno ricevuto parte della fiducia (attenuata e divisa per il numero dei link in uscita) dai documenti del seed-set, ne trasmetteranno un po' a quelle a loro collegate finchè i valori non si stabilizzeranno ed avremo così calcolato il Trustrank per tutti i documenti.

I risultati dell'algoritmo sono ottimi, glinautori hanno verificato che i siti ad alto TrustRank sono praticamente esenti da spam, a differenza di quelli ad alto Pagerank che invece ne contengono parecchio.

Ulteriori studi esterni hanno confermato la bontà dell’algoritmo e ne hanno identificato alcuni punti critici.

Ad esempio è molto importante che il seed-set copra uniformemente I topic del web e le varie aree geografiche.

L’ampiezza del seed- set invece è un parametro meno critico.
Inoltre studi successivi al TrustRank mostrano come sia possibile trasmettere anche un parametro opposto attraverso i link, il “distrust”, ovvero la sfiducia.

In questo caso è il sito che ne linka uno di cui si conosce lo stato “spammoso” a ricevere il punteggio, quindi la sfiducia viaggia attraverso i link ma in direzione opposta.

Sono stati fatti esperimenti combinando entrambi i punteggi ed i risultati sono stati soddisfacenti, ancora migliori che con il solo TrustRank.

Non c’è la certezza matematica che Google stia utilizzando anche il TrustRank per i suoi ordinamenti ma molti indizi fanno pensare che sia così


1) Google ha brevettato l’algoritmo sei mesi dopo la sua pubblicazione.
2) L’algoritmo è volutamente stato studiato per utilizzare formule simili a quelle del Pagerank, quindi già ottimizzate per l’infrastruttura di Google.
3) Non richiede grosse risorse di calcolo.
4) I risultati sono buoni, e con i mezzi a disposizione di Google possono essere migliorati tantissimo.
5) Tenere d’occhio un seed-set di qualche centinaio di siti è una cosa fattibilissima per una struttura come Google.

-----------------------------

__________________
Giorgio Taverniti Blog - Il mio account Twitter!

Che aspetti? Diventa MODERATRICE del Forum gt !!!
Giorgiotave ora è in linea   Rispondi citando