L'algoritmo Hilltop

Hilltop è un algoritmo di ordinamento che permette di assegnare ai documenti un punteggio di "autorevolezza" relativo a specifici argomenti, e migliorare in molti casi gli ordinamenti basati sull´analisi del contenuto e, per esempio, sul PageRank.

Quando gli utenti interrogano i motori di ricerca su argomenti molto popolari i motori restituiscono generalmente un grande numero di documenti. Ordinare questi documenti può essere un grosso problema per degli algoritmi che si limitano ad analizzarne il contenuto, perché, diversamente da quanto accade nel campo dell´Information Retrieval classica, dove si suppone che tutti i documenti provengano da fonti autorevoli, nel web esiste una grossa percentuale di SPAM, ovvero documenti che sono scritti appositamente per avere un buon posizionamento nei motori di ricerca ma che presentano un contenuto di bassa utilità per l´utente finale. Anche quando non c´è un tentativo deliberato di ingannare i motori di ricerca, i loro indici sono affollati da un grande numero di documenti di qualità estremamente variabile e difficili da ordinare.

Per prima cosa vengono analizzati gli approcci usati precedentemente per tentare di risolvere il problema, fra questi vi è un accenno specifico al PageRank, del quale individua un limite specifico nel "non poter distinguere fra pagine autorevoli in generale e pagine autorevoli relativamente all´argomento della ricerca. In particolare un sito autorevole in generale può contenere una pagina che soddisfa una certa query ma che non è autorevole rispetto all´argomento".

In altre parole un sito che tratta, per esempio, di animali domestici può essere molto popolare ed avere un alto PR. Molto probabilmente questo PR proviene da link di altri siti che trattano lo stesso argomento e lo consigliano come approfondimento ai propri utenti, un consiglio valido e fondato quindi. Ma se in quello stesso sito ci fosse una sola pagina che trattasse di auto da corsa, non significherebbe che i siti che lo consigliano intendano raccomandare anche la lettura di quella pagina. Eppure in virtù del PR del sito, se ben inserita nella struttura dei link, questa pagina avrebbe buone possibilità di posizionarsi per ricerche riguardanti le auto da corsa.

L´approccio "Hilltop" si basa, come quello del PageRank, sull´assunto che la qualità e la quantità dei link che puntano ad un documento è un buon indice della qualità del documento, la differenza è che Hilltop considera solo i link provenienti da specifici documenti ritenuti "esperti" relativamente alla ricerca effettuata dall´utente, "documenti creati con lo specifico scopo di dirigere le persone verso le risorse". Quando viene eseguita una query, l´algoritmo Hilltop per prima cosa individua una lista dei documenti "esperti" più rilevanti per l´argomento, poi all´interno di questi seleziona i link più rilevanti rispetto alla query e seguendo questi individua le pagine da posizionare. Queste pagine sono poi "ordinate secondo il numero e la rilevanza di esperti non affiliati che puntano ad esse. Così il punteggio di una pagina riflette l´opinione collettiva dei migliori esperti indipendenti dell´argomento della query".

E´molto importante capire che questo tipo di algoritmo funziona solo in presenza di un numero sufficiente di "documenti esperti", cosa che in generale capita per argomenti molto popolari, dove esistono molti siti web che compilano liste di risorse a tema. D'altra parte i webmaster dei siti, in generale, cercano di pubblicare liste di link aggiornate e complete per aumentare la loro popolarità e la loro influenza nella comunità web interessata ad un certo argomento.


Dalla Guida di Beke

--[email protected] 17:45, Dic 19, 2005 (W. Europe Standard Time)


  • Questa pagina è stata modificata per l'ultima volta il 8 lug 2009 alle 00:21.
  • Questa pagina è stata letta 2 908 volte.