Congetture sull?importanza della distribuzione nel tempo del numero di BL

nbriani

Congetture sull?importanza della distribuzione nel tempo del numero di BL

Ragionando per “il nostro” Teecno, ma anche per cercare di capire qualcosa in piu’ del funzionamento dei MDR, ho scritto un articolo , ma in realtà sono alcune riflessioni-studio personali che mi piacerebbe condividere con il Forum, per cercare di avere un confronto e un contraddittorio… magari proprio in vista di un possibile utilizzo di certi concetti proprio per lo sviluppo del motore di ricerca targato GT.

.. al raduno Giorgio ha accennato a qualcosa sull’argomento, e in piu’ ho avuto modo di avere un veloce scambio di battute sulla cosa sia con Paocavo che con keroak e cosi’ mi sono convinto a postarlo qui… si tratta appunto di:

Congetture (personali ) sull’importanza della distribuzione nel tempo dell’ottenimento di BL

- Premessa :

Sull’importanza del numero e della qualità dei BL ottenuti da un ipertesto in rete ai fini della misura della sua “rilevanza”e quindi del posizionamento sui motori di ricerca, si è ampiamente scritto e detto molto.

I BL sono senza dubbio, oggi, uno dei fattori determinanti per definire l’autorevolezza di un documento in rete.

E’ ben noto infatti che ai fini del posizionamento sui motori di ricerca due sono i gruppi di fattori decisivi:
**

I primi sono “fattori contestuali al testo” del documento:in generale riguardano la corrispondenza del testo presente nel documento (e negli anchor dei link che riceve) con la query cercata
I secondi sono “fattori propri del documento”:**appunto l’”autorevolezza” , la rilevanza, l’importanza del documento nella rete in senso “assoluto”

I due capitoli racchiudono in se un enorme mole di argomenti ciascuno, ma è interessante notare come il primo abbia una valenza specifica relativamente a cio’ che l’utente sta cercando (la query) mentre il secondo sia appunto un criterio trasversale legato al documento in se e quindi molto importante per tutte le possibili query collegate e collegabili al documento stesso.

Da un punto di vista operativo di un MDR in genere,se approssimiamo quindi l’indicizzazione come una lista di “parole” (o “concetti” in una struttura semantica) alle quali vengono associati tutti i documenti che le contengono a cui a loro volta vengono asociati appunto:

una prima serie di valori relativi alla posizione (negli elementi del documento ma anche negli anchor) e alla frequenza delle parole stesse (fattori interni ed esterni ma contestuali al testo)
una seconda serie di valori (i “fattori propri del documento”) che ne danno invece proprio la misura dell’”autorevolezza” e che sono sostanzialmente legati ai BL che riceve.
(in un insieme di ipertesti come è internet la misura dell’importanza di ogni singolo documento puo’ essere misurata dal numero e dalla tipologia di Link che riceve)Vi sono anche ulteriori fattori (che magari possiamo provare a trattare un altra volta.. ) che potrebbero stare in questa seconda tipologia e che si possono ipotizzare influenzino la rilevanza di un documento, quali il traffico e le visite che riceve, il coefficiente di click/trought sulle serp, i voti e le navigazioni delle toolbar, ecc elementi che potremmo definire “Fattori Social” nel senso che strettamente correlati con il comportamento e la navigazione degli utenti in rete.

Relativamente ai BL, quindi, gli elementi che vengono presi in considerazione possiamo ipotizzare essere:

il numero di BL
la qualità dei BL (PR, TrustRank, ExpertRank)
gli anchor (che comunque vanno a far parte dei fattori contestuali al testo della query)
**la distribuzione dell’ottenimento dei BL nel tempo (?)**Il numero è un fattore che generalmente ha perso l’importanza che aveva un tempo (a causa dell’uso e abuso che i webmaster ne hanno fatto… )

La qualità è invece ancora un fattore determinante ( Google vi ha fondato il suo algoritmo, prima con il Page Rank ora anche con il “Trust Rank” e chissà, ancor piu’con il cosiddetto “expertRank” cioè la misura della qualità del Link in base al “gruppo semantico” di appartenenza del documento linkante… ma anche di questo approfondiremo un'altra volta…)

Gli “anchor” pur se fondamentali fanno parte dei fattori contestuali al testo e non partecipano a formare l’autorevolezza e la rilevanza assoluta di un documento

Poco o nulla si sa invece sull’eventuale utilizzo da parte dei MDR della :

- “Distribuzione nel tempo dell’ottenimento di BL” da parte di un documento ai fini appunto dell’analisi e della stima della sua rilevanza .

Partiamo da un assunto generale: un algoritmo di un MDR deve fare di tutto per offrire i risultati migliori e piu’ rilevanti in risposta alle query dei suoi utenti. Uno dei problemi principali che hanno è quello di evitare che i propri risultati possano essere “manipolati” da webmaster interessati a far “uscire” risultati che non corrispondono al miglior risultato possibile.

Per far questo un MDR ha la necessità di capire, nel caso specifico, come avviene “naturalmente” il processo di acquisizione di autorevolezza di un ipertesto in rete in modo da poter rilevare eventuali anomalie “artificiali”.

Vediamo di fare alcune ipotesi.

Immaginiamo di monitorare nel tempo il numero di BL ottenuti da un documento in rete dal giorno della pubblicazione fino ad oggi.

Ecco alcune possibili situazioni:

Caso 1. E’ la situazione ottimale, i punti di rilevazione del numero di BL, formano curve di incremento lineare e/o esponenziale. Le funzioni rappresentatici potrebbero avvicinarsi molto a rette (del tipo Y=n*X con n positivo) per documenti che acquistano una media/bassa ma “sana” rilevanza nel tempo o curve esponenziali (Y=X^n) per documenti che acquistano una forte autorevolezza: l’assunto è che l’aumento di BL sia incrementale nel tempo.. piu’ si diffondono, maggiori sono le possibilità che aumentino ancora, (diffondendosi maggiormente la conoscenza del documento in rete)

**Caso 2. **Distribuzioni anomale dell’ottenimento di BL danno adito invece a curve di distribuzione “non lineari” o a una mancata variazione del “coefficiente angolare” della linea di distribuzione di documenti con ottimi BL iniziali. Tali distribuzioni possono essere indicatori, segnali di anomali ottenimenti o perdite di BL a seguito di scambi diffusi, inserimenti su directory al solo scopo di aumentare artificialmente la popolarità, acquisto di link.
Tali distribuzioni possono dare adito a forti penalizzazioni sui coefficienti relativi alla quantità e alla qualità di un documento… che significa che nei casi peggiori si possa immaginare azzerato un boost relativo al numero di Bl o al PR di un documento all’interno dell’algoritmo di ranking.

Caso 3. In questa categoria rientrano quei documenti che perdono”naturalmente” di rilevanza nel tempo… immaginiamo uno spazio temporale ampio (7/10 anni) è possibile presumere che un certo tipo di documento “invecchi” no ottenga nuovi BL e che anzi ne perda nel tempo… si puo’ ipotizzare che una distribuzione siffatta porti a perdite di rilevanza leggere ma costanti da parte di un MDR “ideale”…

Caso 4. C’è un caso abbastanza particolare che apre pero’ una porta a possibili fattori di influenza esterna a questo tipo di algoritmo…. L’immagine potrebbe rappresentare l’andamento di un documento legato a fattori esterni limitati nel tempo .. tipo News, eventi particolari, ecc che ottengono velocemente un gran numero di link, ma tendono anche a perderli velocemente… una distribuzione “gaussiana” del genere potrebbe far corrispondere parallelamente anche una distribuzione gaussiana della rilevanza del documento.

Un altro limite di un algoritmo del genere è la differenza di diffusione di “cluster di concetti” in rete … nel senso che vi sono argomenti potenzialmente trattati da un gran numero di documenti o da costantemente nuovi documenti, ma anche , viceversa, argomenti che hanno una limitata diffusione e che quindi potrebbero (a titolo teorico) “esaurire” ogni possibile BL e non ottenerne di nuovi, nonostante l’autorevolezza massima che potrebbe avere il documento.

Questi due ultimi casi, ci impongono quindi di immaginare, che se esiste un “valore” , un “boost” legato alla diffusione nel tempo del numero di BL , questo venga mediato da considerazioni sulla “grandezza” del cluster (o piu’ semplicemente dell’”argomento”) in termini di numero di documenti che gli appartengono.

Ma è tecnicamente possibile tenere conto di fattori del genere?
(..sarebbe proprio inimmaginabile riuscire a farlo per Teecno??)

**Bè, io personalmente credo che sia possibile… faccio ancora delle ipotesi…se strutturiamo il MDR in modo da poter gestire tre diversi momenti di intervento di algoritmi, ad esempio cosi’:

Primo fase (Ricerca di informazione e indicizzazione la ricerca dell’informazione (spider) e l’organizzazione della indicizzazione (creazione e organizzazione degli indici)
Seconda fase (“creazione del valore”) : algoritmi che operano sull’indice. Responsabili della creazione di specifici valori per tutti quei fattori di cui si terrà poi conto in fase di ranking . Sono quegli algoritmi che “lavorano” in back-end e non necessariamente “live” ( a questo livello potrebbe operare ad esempio il calcolo di fattori come il PR, del Trust Rank, l’expertRank, ecc ecc )
Terza fase (Ranking l’algoritmo di ranking vero e proprio che soppesa e miscela tutti i dati disponibili archiviati dall’indicizzazione e creati in fase 2**
…allora è facile immaginare che gli algoritmi che operano al secondo livello possono essere anche i piu’ svariati (a condizione che gli spider abbiano archiviato i dati necessari e sufficienti) e che questi operino non necessariamente in maniera continua ma magari intervengano ad aggiornare i magari numerosi valori legati ai documenti (di cui poi si terrà conto nel ranking)anche in momenti alterni e discontinui.

Ragionando in questi termini ( o meglio se ragionare in questi termini è corretto ? ) allora non è impensabile immaginare di poter memorizzare il numero di BL relativi ad uno specifico documento e memorizzare il dato periodicamente ( ogni settimana, ogni x giorni, ogni mese…non so) e estrapolare in tale occasione la funzione matematica piu’ vicina alla distribuzione ottenuta dallo storico dei dati (potrebbero bastare pochi punti memorizzati) ed assegnare in base a quella un determinato valore al “fattore BL nel tempo” che vada a concorrere con il proprio peso prestabilito ed insieme a tutti gli altri n valori all’algoritmo di Ranking al posizionamento di un sito in Serp...

Che ne pensate ? Potremmo tentare qualche test?

** **
Nicola

f.bri

Molto interessanti le tue proposte.
Forse sbaglio ma qualche tempo fa ricordo di aver letto che Google capisce quando vi è un eccesso di back link in poco tempo e di conseguenza penalizza la risorsa destinataria dei link.
Se questa mia info è corretta probabilmente Mr. G. tiene già in considerazione sia il fattore back link (e già lo sapevamo) sia il fattore tempo legato alla creazione di nuovi e, forse, alla scomparsa di back link.
Bella l'idea di Teecno.
Se c'è bisogno di volontari per fare test io ci sono

Ciaooo:D

raele.l.angelo

Gran bella analisi Nicola

quando uscirono i dati storici di Google, si parlò molto dell'importanza della distribuzione nel tempo dei BL e dell'aumento "naturale" dei link che puntano ad un documento.

In particolare nella sezione link di quel brevetto, che non sappiamo ancora se sia in funzione o no, si parlava esplicitamente della distribuzione dei link nel tempo, e di come Google cercasse di tener conto dell'aumento dei link in relazione ad una certa data iniziale di acquisizione del documento o della scoperta di un nuovo link che puntava ad esso.

Si parlava di concetti di "ritmi di crescita" per analizzare la variazione nel tempo dei link che puntano a un documento e in questo rilevare quale sia la tendenza del documento: con che frequenza un documento acquista backlink. Un ritmo crescente nel numero e nella velocità di apparizione di nuovi link in un periodo di tempo, può segnalare al motore di ricerca che il documento sia nuovo, fresco, o comunque mantenuto aggiornato, ed essere meritevole, quindi, di maggior valorizzazione.

Così come si parlava dell'individuzione di "picchi anomali" nell?acquisizione di backlink da parte di un documento rispetto a modelli ?standard? che identificano le varie tipologie di documenti (il tuo caso 4).

Cito Beke in relazione a questo, e ti consiglio di dare un'occhiata al suo articolo sui link del brevetto dei dati storici

"In questo caso il motore può supporre di trovarsi di fronte ad un sito che tratta un argomento ?caldo?, e quindi premiarlo, ma può anche ipotizzare di avere rilevato un tentativo di spam, eseguito attraverso l?acquisizione di backlink scambiati, comprati, oppure ottenuti attraverso guestbook, forum o altre pagine dove sia possibile inserire un link senza richiederlo al webmaster."

@"nbriani" said:

Che ne pensate ? Potremmo tentare qualche test?
Eh si qualche test bisognerebbe organizzarlo per benino, ma, così su due piedi, mi sembra abbastanza difficile: magari ne discutiamo anche in laboratorio e

obeah.man

Le tue considerazioni offrono spunti interessanti **nbriani.
**

**Ragionando in questi termini ( o meglio se ragionare in questi termini è corretto ? ) allora non è impensabile immaginare di poter memorizzare il numero di BL relativi ad uno specifico documento e memorizzare il dato periodicamente ( ogni settimana, ogni x giorni, ogni mese?non so) e estrapolare in tale occasione la funzione matematica piu? vicina alla distribuzione ottenuta dallo storico dei dati (potrebbero bastare pochi punti memorizzati) **

Questa mi sembra la parte più "semplice" della faccenda. Voglio dire che far gestire all'algo i dati relativi a BL/tempo non è certo impossibile.

ed assegnare in base a quella un determinato valore al ?fattore BL nel tempo? che vada a concorrere con il proprio peso prestabilito ed insieme a tutti gli altri n valori all?algoritmo di Ranking al posizionamento di un sito in Serp...

Questo mi sembra già piuttosto difficile.

Io francamente non sono così **sicuro **di saper trovare una **relazione **davvero **efficace **tra BL, **tempo **e autorevolezza.

Provo a prendere le diverse situazioni che hai proposto e specularci un po' sopra:

Sia nel Caso 1 che nel **Caso 2 **parli di un incremento dei BLs nel tempo ed in particolare nella prima situazione esprimi il concetto che un documento che aumenta di popolarità sia destinato ad acquisirne ancora.

Ed io inizio a fare il bastian contrario.
Ammettiamo che io, singolo individuo, verginella del fantastico mondo di internet, decido di aprire un blog. Insomma và di moda e la mia vicina (ultra settantenne) mi ha detto che posso aprilo aggratis se vado su bla bla bla.
Pensavo di avere un sacco di cose da dire, ma poi quando sono lì per postare (eh?!) non mi viene di meglio che scrivere di "quei ladroni della politica che anche oggi ho sentito al tiggi che ci rubano sempre i soldi e sono tutti drogati". Figurati se penso di cercarmi qualche link (cooosa?!) e non voglio nemmeno dirlo alla mia veneranda vicina del mio blog (che il suo è venuto più bello del mio). Veramente non volevo dirlo a nessuno ma poi ho conosciuto questa bella ragazzotta che sò che è una tipa impegnata, che se ne intende di internet e per fare un po' il figo le dico: "oh! ma sai che io c'ho un blog!" e su un tovagliolino al pub le scrivo l'indirizzo. (Immagine prosaica a confronto dei poeti che scrivono sempre sui tovagliolini, ma nei cafè, e vengono celebrati da qualche grande maestro della bossanova). Lei và davvero a leggere il blog e rimane talmente impressionata dal mio stile (potrò scrivere come c*zz+ mi pare che poi la lingua è una cosa viva, o no?!) e dal fantastico assemblamento di questo testo composto da poliedrici cocci di banalità e luoghi comuni, che ha deciso di citarlo in uno commento , uno dei primi, ad una discussione sul blog di Beppe Grillo! Ecco che migliaia di internauti visitano il mio blog e, condividendo le sue impressioni, mi iniziano a linkare (coosa?!) come matti!

Ecco, per quanto questo scenario possa essere paradossale è pur sempre plausibile. Un incremento vertiginoso di BL, magari da risorse con un indice di qualità prossimo allo zero, in pochissimo tempo. La paginetta verrà poi dimenticata, il commento di quella sarcastica femmina verrà precipitato nell'oblio condiviso da altre migliaia di commenti, gran parte delle citazioni ricevute vengono da fonti che nessuno legge o leggerà. Non per questo però il link alla mia pagina verrà tolto, come ipotizzato nel caso 4.

Solo adesso mi rendo conto di quanto sto diventanto logorroico.
Mi affretto a chiudere lanciando qualche altro sassolino.

Determinare la qualità della risorsa linkante è difficile se prendiamo come assunto la mia precedente e delirante ipotesi e sarebbe comunque necessario contestualizzare la pagina all'interno del sito, relazionarla con gli altri contenuti presenti nel dominio o sottodominio per poterla sottoporre ad un equo giudizio.

E come giudicare il rapporto tra autorevolezza di una risorsa linkante, quindi maggior peso a fini del ranking, ed andamento nel tempo?

Voglio dire, che margine di tempo consentiremmo ad una pagina di ricevere un link pesante? ogni quanto ne deve ricevere uno per incrementare in maniera definitiva l'attinenza per una query?

Non credi che per diversi macro-argomenti, e quindi diverse queries che gli utenti proporranno al MdR, ci sia una diversa probabilità di essere citati-linkati? E' possibile ponderare questa probabilità in una formula che davvero aiuti gli utenti a ricevere risultati più rilevanti?

Basta la smetto! Il resto lo tengo per dopo!

Obeah Man

nbriani

@Obeah Man

trovo le tue valutazioni certamente codivisibili.

Ma, secondo me, se i fattori che concorrono al ranking di un sito sono n (10, 100... non so...) nessuno di loro preso singolarmente puo' definire un ranking privo di eccezioni e contraddizioni ...

Visto che nemmeno gli n tutti insieme creano ranking perfetti!

La mia analisi che certamente deve essere approfondita nella fase di interpretazione della possibile casistica della distribuzione (è certamente approssimativo dividere in 4 soli casi una faccenda cosi' comprlessa ...) deve pero' essere interpretata per quello che è :

uno studio su uno degli n fattori che si possono ipotizzare influenzino l'interpretazione algoritmica dell'autorevolezza di un documento

Credo che nessun MDR "sano di mente" potrebbe pensare di affidarsi SOLO a quello per sviluppare un algoritmo...

E non si è accennato ancora al "peso" che tale fattore potrebbe avere all'interno di un algoritmo "ottimale"...

E' proprio la combinazione di n elementi che diminuisce la possibile % statistica di "errore" di un ranking ...

Non dimentichiamoci che benchè utilizzi uno dei migliori algoritmi al mondo, Google ha dovuto introdurre una variabile "umana" nella propria formula di pesi e misure del ranking con l'introduzione dei quality Rater... ma questo non vuol dire che il concetto alla base, ad esempio, del Page rank sia "sbagliato" o difficile da applicare... ma vuol dire semplicemente che il Page Rank "da solo non puo' bastare...

Quindi riportriamo la questione su un livello meno puntuale e cerchiamo di capire insieme come il dato "numero di back Link" in funzione della misura dell'autorevolezza di un documento possa invece essere ampliato anche a sottofattori che tutti insieme (e solo tutti insieme) concorreranno a milgiorare il peso di questo elemento (i BL appunto) nell'algo: come la qualità (provenienza: propagazione PR e provenienza semantica, vedi ExpertRank ) degli stessi e perchè no, la distribuzione del numero nel tempo....

desertstorm

un analisi dei backlink cosi come tu proponi secondo me è assolutamente impossibile.

motivo?

dovresti analizzare i backlink dei backlink stessi (scusate la ridondanza)
dovresti conoscere vita, morte e miracoli dei siti dai quali provngono i backlink (per evidenziare anomalie dovute magari a penalizzazioni ecc)
anche ammesso che sia possibile avere i punti 1 e 2, dovresti formulare una scala di punteggio in base ai vari subfattori da considerare ai punti precedenti
qualsiasi punteggio ottenuto a seguito di tutti gli studi vale al massimo per un settore...
dovresti monitorare attentamente tutti i siti che ti danno i link e a loro volta quelli che li linkano...

desertstorm

dimenticavo..

non si puà fare un'analisi basata sul tradizionale metodo scientifico quando si trattano valore ignoti....

desertstorm

dimenticavo..

non si puà fare un'analisi basata sul tradizionale metodo scientifico quando si trattano valore ignoti....

nbriani

@Desertstorm said:

un analisi dei backlink cosi come tu proponi secondo me è assolutamente impossibile.

motivo?

dovresti analizzare i backlink dei backlink stessi (scusate la ridondanza)
dovresti conoscere vita, morte e miracoli dei siti dai quali provngono i backlink (per evidenziare anomalie dovute magari a penalizzazioni ecc)
anche ammesso che sia possibile avere i punti 1 e 2, dovresti formulare una scala di punteggio in base ai vari subfattori da considerare ai punti precedenti
qualsiasi punteggio ottenuto a seguito di tutti gli studi vale al massimo per un settore...
dovresti monitorare attentamente tutti i siti che ti danno i link e a loro volta quelli che li linkano

...dimenticavo..

non si puà fare un'analisi basata sul tradizionale metodo scientifico quando si trattano valore ignoti....

Ciao Desertstorm, cercavo proprio un contraddittorio ma ho come l'impressione che tu abbia capito poco di cio' che volevo dire...
(evidentemente non mi sono spiegato bene)

La mia analisi voleva cercare di approfondire un argomento di cui probabilmente i MDR (parlo dei "big 4" G-Y-M + ask) già tengono conto...

Un algoritmo ampiamente piu' semplice per esempio del calcolo del PR...

Infatti si tratta in ultima analisi di tenere traccia (cioè di storicizzare) un dato che gli spider di tutti i motori considerano: il numero di BL...

La mia analisi ipotizza e descrive il modo in cui un MDR potrebbe tenere conto di una soricizzazione del dato... cioè di memorizzare il numero di Bl nel tempo e estrapolarne poi attraverso un opportuno algoritmo un valore di influenza positiva o negativa sul ranking.

Dopo che è stata organizzata una indicizzazione infatti è possibile applicarci sopra qualunque calcolo o algoritmo ti venga in mente! (si fa per dire) al fine di creare nuovi valori o migliorarne altri fra gli n fattori di cui poi terranno conto gli algoritmi di ranking (soppesandoli e miscelandoli a dovere) che si attivano in base e al momento dell'inserimento della query da parte di un utente del MDR...

Ti è piu' chiaro, ora, il ragionamento che ho fatto?

Non capisco infatti il senso delle tue affermazioni di cui sopra... nello specifico:

dalla 1) alla 4) non capisco cosa c'entrano nel discorso...

mentre per la 5) la mia risposta è : "ma come pensi che allora venga calcolato il Page rank?

e infine sulla "...non si puà fare un'analisi basata sul tradizionale metodo scientifico quando si trattano valore ignoti..."

ti direi che apparte il fatto che quella è una semplice analisi matematica (non assolutamente un metodo scientifico) e non capisco quali siano i fattori ignoti che nomini...

Grazie, ciao,
Nicola

paocavo

Ottima analisi nbriani, ritengo però che data la mole di pagine/siti che un MDR deve analizzare un discorso di questo tipo si può fare solo per alcune tipologie (cluster) di siti e siccome qualcuno (Low ) mi disse che ai MDR piacciono le cose semplici non andrei oltre le retta come funzione interpolatrice.
Y =ax+b
Un ipotesi potrebbe essere:
a) Rilevo il num di BL ogni tre mesi e calcolo il coefficente angolare rispetto alle ultime 2 rilevazioni precedenti [BLa1] e [BLa2] in modo tale che nel DB mi servono solo 2 campi per conoscere la "storia" del num. di BL.
b) Definisco il "trend" dei BL come:

BLTr = (BLa1 + BLa2)

In questo modo posso mitigare eventuali picchi temporanei intervenuti negli ultimi 6 mesi dovuti a diversi motivi: news, BL spamming, ecc...

PS: Aggiungo che siccome i BL: nascono, vivono e muoino si possono applicare gli studi (e le simulazioni) relativi al "gioco della vita"

desertstorm

@nbriani said:

La mia analisi voleva cercare di approfondire un argomento di cui probabilmente i MDR (parlo dei "big 4" G-Y-M + ask) già tengono conto...
Un algoritmo ampiamente piu' semplice per esempio del calcolo del PR...
Infatti si tratta in ultima analisi di tenere traccia (cioè di storicizzare) un dato che gli spider di tutti i motori considerano: il numero di BL...

e con google come fai visto che non ne tiene traccia di tutti ma ne visualizza solo una minima parte?
sei davvero certo che Yahoo e Google li tengono tutti in considerazione mentre magari nel loro algoritmo anche loro non applichino filtri?

e poi non esiste nessun algoritmo di Google a noi noto.
Quello che viene spacciato per algoritmo di pagerank è semplicemente una formula matematica che nessuno al mondo, ad eccezione di google, è in grado di calcolare e quindi verificare l'attendibilità.

quando sommi e moltiplichi variabili a cui nessuno è in grado di determinarne il valore, qualsiasi formula può essere vera.

posso dirti che la formula per trasformare il piombo in oro è radice quadrata di infinito.
fino a prova contraria, la mia formula è corretta visto che nessuno potrebbe calcolarne l'effettivo valore e quindi capire se è reale o meno.

poi senza contare il fatto che nel ranking intervengono cosi tanti fattori che di fatto i soli BL di per sè non valgono niente.

dovresti avere 10 siti uguali, con 10 domini molto simili e anche cosi il margine di errore di paragone sarebbe eccessivo.

io posso calcolare il consumo di benzina di 10 auto, ma se ho 10 auto di diversa marca, cilindrata, ecc ecc avrò 10 valori diversi.

sicuramente posso avere una media come riferimento, ma è un risultato che rapportato a milioni di casi possibili non mi serve a niente.

Dopo che è stata organizzata una indicizzazione infatti è possibile applicarci sopra qualunque calcolo o algoritmo ti venga in mente! (si fa per dire) al fine di creare nuovi valori o migliorarne altri fra gli n fattori di cui poi terranno conto gli algoritmi di ranking (soppesandoli e miscelandoli a dovere) che si attivano in base e al momento dell'inserimento della query da parte di un utente del MDR...

Puoi farlo in un sistema noto, non certo in un sistema completamente ignoto di cui si conoscono i risultati e le origini ma si ignora completamente tutto quello che ci sta in mezzo.

nessuno sa come effettivamente un risultato X sia posizionato in posizione Y per una determinata keyword.

possiamo ipotizzare motivi di carattere generale e con un'analisi più attenta arrivare anche a motivi di carattere specifico e localizzato ma non sapremo mai come questi valori vengono poi elaborati insieme.

mentre per la 5) la mia risposta è : "ma come pensi che allora venga calcolato il Page rank?

Nessuno lo sa perchè se qualcuno lo sapesse avrebbe tutti sit ia Pr 10 con il minimo sforzo.
il fatto che si lavora per principio generale è il motivo per cui avere anche un pr 6 è per molti ai limiti dell'impossibile.

ti direi che apparte il fatto che quella è una semplice analisi matematica (non assolutamente un metodo scientifico) e non capisco quali siano i fattori ignoti che nomini...

analisi matematica o metodo scientifico il problema è lo stesso.

tu conosci una parte degli ingredienti ma non potrai mai sapere in quale dosi e con quali procedimenti questi saranno mischiati per ottenere un risultato finale.

contrariamente a questo, sapresti perfettamente posizionare un sito X alla posizione Y che meglio preferisci.

saresti in grado di dire ad un cliente, ti posiziono questo sito in settima posizione per la keyword X.

questo non puoi farlo perchè ignori tutto quello che sta in mezzo tra la domanda e la risposta di google...

nbriani