TrustRank ( TR ) Assegnazione della fiducia.

Il TrustRank è una tecnica d'analisi di pagine web ideata da tecnici di Yahoo! " Link-based spam detection " al fine di distinguere in modo semi-automatico pagine con contenuti validi dallo spam.

Un omonimo marchio TrustRank è stato acquistato e registrato da Google il 16 marzo 2005 inizialmente finalizzato come anti-phishing, poi abbandonato da Google dal febbraio 2008.


La Differenza tra TrustRank e il PageRank

Il PageRank è il noto algoritmo di Google che utilizza da anni per l'indicizzazione delle pagine web, assegnando ad ogni pagina un punteggio basato sul numero di backlink che la puntano.

Il fondamento del PageRank è che una pagina deve essere ovviamente importante se molte altre pagine puntano con un link ad essa. Il PageRank può essere considerato una versione più complessa e raffinata del "Link Popularity" (LP). Il PageRank di un sito aumenta in relazione alla qualità delle pagine web che linkano il sito (per pagine web di qualità si intendono quelle che a loro volta hanno un alto PageRank).


Basi del TrustRank

Nel procedimento ideato da Yahoo, la determinazione certa di una pagina può provenire esclusivamente dalla soggettiva valutazione umana; l´esperto in questione viene definito Oracolo.

Da questo è possibile comunque generare un semplice algoritmo che assegna una valore binario pari a 0 se la pagina contiene spam (bad page), oppure pari a 1 se la pagina è da considerarsi di buona qualità o senza spam (good page).

L´intervento dell´Oracolo come detto porta via molto tempo ed è anche costoso in altri termini, non è possibile un suo intervento costante.

Per diminuire gli interventi dell´Oracolo è possibile adottare una tecnica basata sull´esperienza che ogni singolo navigatore del web può avere: una pagina buona difficilmente punta a una pagina cattiva. Questo perché l´autore di una pagina con una qualità elevata difficilmente ha interesse che venga collegata con pagine con una qualità minore o nulla. Per questo motivo le tecniche di spam hanno cominciato ad adottare dei sistemi per collegare pagine che a prima vista sembrano buone, a pagine contenenti web-spam, con varie tecniche:

  • Introduzione nei siti che offrono la possibilità ai visitatori di inserire commenti, di un numero elevato di link verso le pagine cattive (questo problema viene risolto con la moderazione dei commenti o con la futura introduzione del tag link rel="nofollow" - NDR). Tecnica valida anche per

forum o web chat.

  • Creazione di pagine che offrono contenuti validi, ma che hanno un elevato numero di link nascosti verso siti equivoci. Questa tecnica viene definita Honey Pot. Per avvalorare questa tecnica chi crea queste pagine inserisce anche numerosi link verso pagine buone.
  • Creazione di directory basate sui risultati dei principali motori di ricerca, che utilizzano dei motori chiamati spam-engine, per piazzarsi nei primi posti delle ricerche.

In questi casi di esempio, adottando un algoritmo che funzioni da Oracolo, potrebbero crearsi situazioni equivoche. Se abbiamo un sito di 100 pagine, con 70 pagine buone (quindi con valore binario pari a 1) e 30 pagine cattive (con valore binario pari a 0), si avrà un indice di fiducia intermedio. In questo caso solo l´occhio umano riesce a stabilire una verità certa.


Sperimentazione del TrustRank

Per valutare l´algoritmo TrustRank, il team ha usato l´indicizzazione del motore di ricerca Altavista. Per ridurre la complessità del sistema i test si sono svolti prendendo in considerazione la totalità di ogni sito web, e non ogni singola pagina che lo compone. Quindi diversi miliardi di pagine sono stati raggruppati in 31.003.946 siti, usando uno degli algoritmi proprietari di Altavista.

Osservazione: un terzo dei siti selezionati non avevano alcun tipo di classificazione, questo perché l´algoritmo PageRank che propaga la fiducia si basa sulla presenza di link tra i siti. Ma questi siti comunque avevano un indicizzazione bassa, non è stato difficile quindi separare manualmente siti buoni e siti cattivi. Questo tipo di controllo ha portato via delle settimane, ulteriore conferma dell´impossibilità dell´intervento completamente manuale. Comparazione Inverse Page Rank / High Page Rank Come prima azione è stata adottata la tecnica definita Inverse Page Rank per selezionare dei siti, dei quali sono stati esaminati i primi 25.000 risultati. Da questi è stato necessario eliminare una serie di siti per due motivi principali:

  • Alto numero di siti non indicizzati in nessuna directory principale e quindi reputati poco attendibili.

Dopo questo passaggio i siti attendibili si sono ridotti a 7.900. Di questi sono stati esaminati manualmente i primi 1.250 per selezionarne 178 da usare come gruppo (seed) di siti buoni. Il numero relativamente ridotto della sezione ha consentito di adottare dei criteri molto rigidi di determinazione tra web-spam e pagine buone. Nonostante questo è stato adottato un secondo filtro per selezionare i siti con una sicura e certa autorità (come siti istituzionali o di grandi compagnie). Questo secondo filtro si è reso necessario per garantire una buona longevità del gruppo della selezione (seed).


Valutazione dell´operatore del trustRank

Al fine di valutare la funzionalità del sistema TrustRank bisogna sottolineare nuovamente come il sistema Page Rank non garantisca in alcun modo la qualità dei siti indicizzati. Invece il sistema TrustRank effettua una netta separazione tra siti buoni e siti definiti come web-spam. Questi ultimi difficilmente possono avere un indice TrustRank molto elevato.

Dagli esempi è possibile capire l´efficacia dell´algoritmo TrustRank: TrustRank quindi rimuove gran parte del web-spam dai risultati preminenti per una certa ricerca. Quindi garantisce come i siti più rilevanti siano buoni, ovvero di qualità elevata e senza web-spam. E´ importante specificare come guardando in basso, si evince che i siti meno rilevanti difficilmente siano distinguibili da quelli contenenti spam.

Con la crescita smisurata delle fonti e dei siti sul web i motori di ricerca giocano un ruolo fondamentale per la ricerca e soprattutto l´effettivo successo nella ricerca di informazioni. Il web-spam demolisce questa capacità di successo nella ricerca di informazioni utili. I motori di ricerca quindi devono necessariamente evolvere. Il sistema TrustRank, anche in combinazione al PageRank o altri algoritmi potrebbe contribuire a questa evoluzione.


Risorse Utili

Presentazione di Stefano Becheroni al Convegno GT sul TrustRank


--Andrez 18:42, Dic 19, 2005 (W. Europe Standard Time)


  • Questa pagina è stata modificata per l'ultima volta il 9 lug 2009 alle 02:02.
  • Questa pagina è stata letta 16 097 volte.