Ragionando per “il nostro”
Teecno, ma anche per cercare di capire qualcosa in piu’ del funzionamento dei
MDR, ho scritto un articolo , ma in realtà sono alcune riflessioni-studio personali che mi piacerebbe condividere con il
Forum, per cercare di avere un confronto e un contraddittorio… magari proprio in vista di un possibile utilizzo di certi concetti proprio per lo sviluppo del motore di ricerca targato GT.
.. al raduno
Giorgio ha accennato a qualcosa sull’argomento, e in piu’ ho avuto modo di avere un veloce scambio di battute sulla cosa sia con
Paocavo che con
keroak e cosi’ mi sono convinto a postarlo qui… si tratta appunto di:
Congetture (personali
) sull’importanza della distribuzione nel tempo dell’ottenimento di BL
- Premessa :
Sull’importanza del numero e della qualità dei BL ottenuti da un
ipertesto in rete ai fini della misura della sua “rilevanza”e quindi del
posizionamento sui
motori di ricerca, si è ampiamente scritto e detto molto.
I BL sono senza dubbio, oggi, uno dei fattori determinanti per definire l’autorevolezza di un documento in rete.
E’ ben noto infatti che ai fini del posizionamento sui motori di ricerca due sono i gruppi di fattori decisivi:
- I primi sono “fattori contestuali al testo” del documento:in generale riguardano la corrispondenza del testo presente nel documento (e negli anchor dei link che riceve) con la query cercata
- I secondi sono “fattori propri del documento”:appunto l’”autorevolezza” , la rilevanza, l’importanza del documento nella rete in senso “assoluto”
I due capitoli racchiudono in se un enorme mole di argomenti ciascuno, ma è interessante notare come il primo abbia una valenza specifica relativamente a cio’ che l’utente sta cercando (la query) mentre il secondo sia appunto un criterio trasversale legato al documento in se e quindi molto importante per tutte le possibili query collegate e collegabili al documento stesso.
Da un punto di vista operativo di un MDR in genere,se approssimiamo quindi l’indicizzazione come una lista di “parole” (o “concetti” in una struttura semantica) alle quali vengono associati tutti i documenti che le contengono a cui a loro volta vengono asociati appunto:- una prima serie di valori relativi alla posizione (negli elementi del documento ma anche negli anchor) e alla frequenza delle parole stesse (fattori interni ed esterni ma contestuali al testo)
- una seconda serie di valori (i “fattori propri del documento”) che ne danno invece proprio la misura dell’”autorevolezza” e che sono sostanzialmente legati ai BL che riceve.
(in un insieme di ipertesti come è internet la misura dell’importanza di ogni singolo documento puo’ essere misurata dal numero e dalla tipologia di Link che riceve)
Vi sono anche ulteriori fattori (che magari possiamo provare a trattare un altra volta..
) che potrebbero stare in questa seconda tipologia e che si possono ipotizzare influenzino la rilevanza di un documento, quali il traffico e le visite che riceve, il coefficiente di click/trought sulle serp, i voti e le navigazioni delle toolbar, ecc elementi che potremmo definire “Fattori Social” nel senso che strettamente correlati con il comportamento e la navigazione degli utenti in rete.
Relativamente ai BL, quindi, gli elementi che vengono presi in considerazione possiamo ipotizzare essere:- il numero di BL
- la qualità dei BL ( PR, TrustRank, ExpertRank)
- gli anchor (che comunque vanno a far parte dei fattori contestuali al testo della query)
- la distribuzione dell’ottenimento dei BL nel tempo (?)
Il numero è un fattore che generalmente ha perso l’importanza che aveva un tempo (a causa dell’uso e abuso che i webmaster ne hanno fatto… )
La qualità è invece ancora un fattore determinante ( Google vi ha fondato il suo algoritmo, prima con il Page Rank ora anche con il “Trust Rank” e chissà, ancor piu’con il cosiddetto “expertRank” cioè la misura della qualità del Link in base al “gruppo semantico” di appartenenza del documento linkante… ma anche di questo approfondiremo un'altra volta…)
Gli “anchor” pur se fondamentali fanno parte dei fattori contestuali al testo e non partecipano a formare l’autorevolezza e la rilevanza assoluta di un documento
Poco o nulla si sa invece sull’eventuale utilizzo da parte dei MDR della :
- “Distribuzione nel tempo dell’ottenimento di BL” da parte di un documento ai fini appunto dell’analisi e della stima della sua rilevanza .
Partiamo da un assunto generale: un algoritmo di un MDR deve fare di tutto per offrire i risultati migliori e piu’ rilevanti in risposta alle query dei suoi utenti. Uno dei problemi principali che hanno è quello di evitare che i propri risultati possano essere “manipolati” da webmaster interessati a far “uscire” risultati che non corrispondono al miglior risultato possibile.
Per far questo un MDR ha la necessità di capire, nel caso specifico, come avviene “naturalmente” il processo di acquisizione di autorevolezza di un ipertesto in rete in modo da poter rilevare eventuali anomalie “artificiali”.
Vediamo di fare alcune ipotesi.
Immaginiamo di monitorare nel tempo il numero di BL ottenuti da un documento in rete dal giorno della pubblicazione fino ad oggi.
Ecco alcune possibili situazioni:

Caso 1. E’ la situazione ottimale, i punti di rilevazione del numero di BL, formano curve di incremento lineare e/o esponenziale. Le funzioni rappresentatici potrebbero avvicinarsi molto a rette (del tipo Y=n*X con n positivo) per documenti che acquistano una media/bassa ma “sana” rilevanza nel tempo o curve esponenziali (Y=X^n) per documenti che acquistano una forte autorevolezza: l’assunto è che l’aumento di BL sia incrementale nel tempo.. piu’ si diffondono, maggiori sono le possibilità che aumentino ancora, (diffondendosi maggiormente la conoscenza del documento in rete)

Caso 2. Distribuzioni anomale dell’ottenimento di BL danno adito invece a curve di distribuzione “non lineari” o a una mancata variazione del “coefficiente angolare” della linea di distribuzione di documenti con ottimi BL iniziali. Tali distribuzioni possono essere indicatori, segnali di anomali ottenimenti o perdite di BL a seguito di scambi diffusi, inserimenti su directory al solo scopo di aumentare artificialmente la popolarità, acquisto di link.
Tali distribuzioni possono dare adito a forti penalizzazioni sui coefficienti relativi alla quantità e alla qualità di un documento… che significa che nei casi peggiori si possa immaginare azzerato un boost relativo al numero di Bl o al PR di un documento all’interno dell’algoritmo di ranking.

Caso 3. In questa categoria rientrano quei documenti che perdono”naturalmente” di rilevanza nel tempo… immaginiamo uno spazio temporale ampio (7/10 anni) è possibile presumere che un certo tipo di documento “invecchi” no ottenga nuovi BL e che anzi ne perda nel tempo… si puo’ ipotizzare che una distribuzione siffatta porti a perdite di rilevanza leggere ma costanti da parte di un MDR “ideale”…

Caso 4. C’è un caso abbastanza particolare che apre pero’ una porta a possibili fattori di influenza esterna a questo tipo di algoritmo…. L’immagine potrebbe rappresentare l’andamento di un documento legato a fattori esterni limitati nel tempo .. tipo News, eventi particolari, ecc che ottengono velocemente un gran numero di link, ma tendono anche a perderli velocemente… una distribuzione “gaussiana” del genere potrebbe far corrispondere parallelamente anche una distribuzione gaussiana della rilevanza del documento.
Un altro limite di un algoritmo del genere è la differenza di diffusione di “cluster di concetti” in rete … nel senso che vi sono argomenti potenzialmente trattati da un gran numero di documenti o da costantemente nuovi documenti, ma anche , viceversa, argomenti che hanno una limitata diffusione e che quindi potrebbero (a titolo teorico) “esaurire” ogni possibile BL e non ottenerne di nuovi, nonostante l’autorevolezza massima che potrebbe avere il documento.
Questi due ultimi casi, ci impongono quindi di immaginare, che se esiste un “valore” , un “boost” legato alla diffusione nel tempo del numero di BL , questo venga mediato da considerazioni sulla “grandezza” del cluster (o piu’ semplicemente dell’”argomento”) in termini di numero di documenti che gli appartengono.
Ma è tecnicamente possibile tenere conto di fattori del genere?
(..sarebbe proprio inimmaginabile riuscire a farlo per Teecno??)
Bè, io personalmente credo che sia possibile… faccio ancora delle ipotesi…se strutturiamo il MDR in modo da poter gestire tre diversi momenti di intervento di algoritmi, ad esempio cosi’:- Primo fase (Ricerca di informazione e indicizzazione): la ricerca dell’informazione (spider) e l’organizzazione della indicizzazione (creazione e organizzazione degli indici)
- Seconda fase (“creazione del valore”) : algoritmi che operano sull’indice. Responsabili della creazione di specifici valori per tutti quei fattori di cui si terrà poi conto in fase di ranking . Sono quegli algoritmi che “lavorano” in back-end e non necessariamente “live” ( a questo livello potrebbe operare ad esempio il calcolo di fattori come il PR, del Trust Rank, l’expertRank, ecc ecc )
- Terza fase (Ranking): l’algoritmo di ranking vero e proprio che soppesa e miscela tutti i dati disponibili archiviati dall’indicizzazione e creati in fase 2
…allora è facile immaginare che gli algoritmi che operano al secondo livello possono essere anche i piu’ svariati (a condizione che gli spider abbiano archiviato i dati necessari e sufficienti) e che questi operino non necessariamente in maniera continua ma magari intervengano ad aggiornare i magari numerosi valori legati ai documenti (di cui poi si terrà conto nel ranking)anche in momenti alterni e discontinui.
Ragionando in questi termini ( o meglio se ragionare in questi termini è corretto ?
) allora non è impensabile immaginare di poter memorizzare il numero di BL relativi ad uno specifico documento e memorizzare il dato periodicamente ( ogni settimana, ogni x giorni, ogni mese…non so) e estrapolare in tale occasione la funzione matematica piu’ vicina alla distribuzione ottenuta dallo storico dei dati (potrebbero bastare pochi punti memorizzati) ed assegnare in base a quella un determinato valore al “fattore BL nel tempo” che vada a concorrere con il proprio peso prestabilito ed insieme a tutti gli altri n valori all’algoritmo di Ranking al posizionamento di un sito in Serp...
Che ne pensate ? Potremmo tentare qualche test?
Nicola