• Super User

    Congetture sull?importanza della distribuzione nel tempo del numero di BL

    Ragionando per “il nostro” Teecno, ma anche per cercare di capire qualcosa in piu’ del funzionamento dei MDR, ho scritto un articolo , ma in realtà sono alcune riflessioni-studio personali che mi piacerebbe condividere con il Forum, per cercare di avere un confronto e un contraddittorio… magari proprio in vista di un possibile utilizzo di certi concetti proprio per lo sviluppo del motore di ricerca targato GT.

    .. al raduno Giorgio ha accennato a qualcosa sull’argomento, e in piu’ ho avuto modo di avere un veloce scambio di battute sulla cosa sia con Paocavo che con keroak e cosi’ mi sono convinto a postarlo qui… si tratta appunto di:

    Congetture (personali 🙂 ) sull’importanza della distribuzione nel tempo dell’ottenimento di BL

    - Premessa :

    Sull’importanza del numero e della qualità dei BL ottenuti da un ipertesto in rete ai fini della misura della sua “rilevanza”e quindi del posizionamento sui motori di ricerca, si è ampiamente scritto e detto molto.

    I BL sono senza dubbio, oggi, uno dei fattori determinanti per definire l’autorevolezza di un documento in rete.

    E’ ben noto infatti che ai fini del posizionamento sui motori di ricerca due sono i gruppi di fattori decisivi:
    **

    • I primi sono “fattori contestuali al testo” del documento:in generale riguardano la corrispondenza del testo presente nel documento (e negli anchor dei link che riceve) con la query cercata

    • I secondi sono “fattori propri del documento”:**appunto l’”autorevolezza” , la rilevanza, l’importanza del documento nella rete in senso “assoluto”

    I due capitoli racchiudono in se un enorme mole di argomenti ciascuno, ma è interessante notare come il primo abbia una valenza specifica relativamente a cio’ che l’utente sta cercando (la query) mentre il secondo sia appunto un criterio trasversale legato al documento in se e quindi molto importante per tutte le possibili query collegate e collegabili al documento stesso.

    Da un punto di vista operativo di un MDR in genere,se approssimiamo quindi l’indicizzazione come una lista di “parole” (o “concetti” in una struttura semantica) alle quali vengono associati tutti i documenti che le contengono a cui a loro volta vengono asociati appunto:

    • una prima serie di valori relativi alla posizione (negli elementi del documento ma anche negli anchor) e alla frequenza delle parole stesse (fattori interni ed esterni ma contestuali al testo)
    • una seconda serie di valori (i “fattori propri del documento”) che ne danno invece proprio la misura dell’”autorevolezza” e che sono sostanzialmente legati ai BL che riceve.
      (in un insieme di ipertesti come è internet la misura dell’importanza di ogni singolo documento puo’ essere misurata dal numero e dalla tipologia di Link che riceve)Vi sono anche ulteriori fattori (che magari possiamo provare a trattare un altra volta.. 🙂 ) che potrebbero stare in questa seconda tipologia e che si possono ipotizzare influenzino la rilevanza di un documento, quali il traffico e le visite che riceve, il coefficiente di click/trought sulle serp, i voti e le navigazioni delle toolbar, ecc elementi che potremmo definire “Fattori Social” nel senso che strettamente correlati con il comportamento e la navigazione degli utenti in rete.

    Relativamente ai BL, quindi, gli elementi che vengono presi in considerazione possiamo ipotizzare essere:

    • il numero di BL
    • la qualità dei BL (PR, TrustRank, ExpertRank)
    • gli anchor (che comunque vanno a far parte dei fattori contestuali al testo della query)
    • **la distribuzione dell’ottenimento dei BL nel tempo (?)**Il numero è un fattore che generalmente ha perso l’importanza che aveva un tempo (a causa dell’uso e abuso che i webmaster ne hanno fatto… )

    La qualità è invece ancora un fattore determinante ( Google vi ha fondato il suo algoritmo, prima con il Page Rank ora anche con il “Trust Rank” e chissà, ancor piu’con il cosiddetto “expertRank” cioè la misura della qualità del Link in base al “gruppo semantico” di appartenenza del documento linkante… ma anche di questo approfondiremo un'altra volta…)

    Gli “anchor” pur se fondamentali fanno parte dei fattori contestuali al testo e non partecipano a formare l’autorevolezza e la rilevanza assoluta di un documento

    Poco o nulla si sa invece sull’eventuale utilizzo da parte dei MDR della :

    - “Distribuzione nel tempo dell’ottenimento di BL” da parte di un documento ai fini appunto dell’analisi e della stima della sua rilevanza .

    Partiamo da un assunto generale: un algoritmo di un MDR deve fare di tutto per offrire i risultati migliori e piu’ rilevanti in risposta alle query dei suoi utenti. Uno dei problemi principali che hanno è quello di evitare che i propri risultati possano essere “manipolati” da webmaster interessati a far “uscire” risultati che non corrispondono al miglior risultato possibile.

    Per far questo un MDR ha la necessità di capire, nel caso specifico, come avviene “naturalmente” il processo di acquisizione di autorevolezza di un ipertesto in rete in modo da poter rilevare eventuali anomalie “artificiali”.

    Vediamo di fare alcune ipotesi.

    Immaginiamo di monitorare nel tempo il numero di BL ottenuti da un documento in rete dal giorno della pubblicazione fino ad oggi.

    Ecco alcune possibili situazioni:

    image
    Caso 1. E’ la situazione ottimale, i punti di rilevazione del numero di BL, formano curve di incremento lineare e/o esponenziale. Le funzioni rappresentatici potrebbero avvicinarsi molto a rette (del tipo Y=n*X con n positivo) per documenti che acquistano una media/bassa ma “sana” rilevanza nel tempo o curve esponenziali (Y=X^n) per documenti che acquistano una forte autorevolezza: l’assunto è che l’aumento di BL sia incrementale nel tempo.. piu’ si diffondono, maggiori sono le possibilità che aumentino ancora, (diffondendosi maggiormente la conoscenza del documento in rete)

    image
    **Caso 2. **Distribuzioni anomale dell’ottenimento di BL danno adito invece a curve di distribuzione “non lineari” o a una mancata variazione del “coefficiente angolare” della linea di distribuzione di documenti con ottimi BL iniziali. Tali distribuzioni possono essere indicatori, segnali di anomali ottenimenti o perdite di BL a seguito di scambi diffusi, inserimenti su directory al solo scopo di aumentare artificialmente la popolarità, acquisto di link.
    Tali distribuzioni possono dare adito a forti penalizzazioni sui coefficienti relativi alla quantità e alla qualità di un documento… che significa che nei casi peggiori si possa immaginare azzerato un boost relativo al numero di Bl o al PR di un documento all’interno dell’algoritmo di ranking.

    image

    Caso 3. In questa categoria rientrano quei documenti che perdono”naturalmente” di rilevanza nel tempo… immaginiamo uno spazio temporale ampio (7/10 anni) è possibile presumere che un certo tipo di documento “invecchi” no ottenga nuovi BL e che anzi ne perda nel tempo… si puo’ ipotizzare che una distribuzione siffatta porti a perdite di rilevanza leggere ma costanti da parte di un MDR “ideale”…

    image

    Caso 4. C’è un caso abbastanza particolare che apre pero’ una porta a possibili fattori di influenza esterna a questo tipo di algoritmo…. L’immagine potrebbe rappresentare l’andamento di un documento legato a fattori esterni limitati nel tempo .. tipo News, eventi particolari, ecc che ottengono velocemente un gran numero di link, ma tendono anche a perderli velocemente… una distribuzione “gaussiana” del genere potrebbe far corrispondere parallelamente anche una distribuzione gaussiana della rilevanza del documento.

    Un altro limite di un algoritmo del genere è la differenza di diffusione di “cluster di concetti” in rete … nel senso che vi sono argomenti potenzialmente trattati da un gran numero di documenti o da costantemente nuovi documenti, ma anche , viceversa, argomenti che hanno una limitata diffusione e che quindi potrebbero (a titolo teorico) “esaurire” ogni possibile BL e non ottenerne di nuovi, nonostante l’autorevolezza massima che potrebbe avere il documento.

    Questi due ultimi casi, ci impongono quindi di immaginare, che se esiste un “valore” , un “boost” legato alla diffusione nel tempo del numero di BL , questo venga mediato da considerazioni sulla “grandezza” del cluster (o piu’ semplicemente dell’”argomento”) in termini di numero di documenti che gli appartengono.

    Ma è tecnicamente possibile tenere conto di fattori del genere?
    (..sarebbe proprio inimmaginabile riuscire a farlo per Teecno??)

    **Bè, io personalmente credo che sia possibile… faccio ancora delle ipotesi…se strutturiamo il MDR in modo da poter gestire tre diversi momenti di intervento di algoritmi, ad esempio cosi’:

    • Primo fase (Ricerca di informazione e indicizzazione😞 la ricerca dell’informazione (spider) e l’organizzazione della indicizzazione (creazione e organizzazione degli indici)
    • Seconda fase (“creazione del valore”) : algoritmi che operano sull’indice. Responsabili della creazione di specifici valori per tutti quei fattori di cui si terrà poi conto in fase di ranking . Sono quegli algoritmi che “lavorano” in back-end e non necessariamente “live” ( a questo livello potrebbe operare ad esempio il calcolo di fattori come il PR, del Trust Rank, l’expertRank, ecc ecc )
    • Terza fase (Ranking😞 l’algoritmo di ranking vero e proprio che soppesa e miscela tutti i dati disponibili archiviati dall’indicizzazione e creati in fase 2**
      …allora è facile immaginare che gli algoritmi che operano al secondo livello possono essere anche i piu’ svariati (a condizione che gli spider abbiano archiviato i dati necessari e sufficienti) e che questi operino non necessariamente in maniera continua ma magari intervengano ad aggiornare i magari numerosi valori legati ai documenti (di cui poi si terrà conto nel ranking)anche in momenti alterni e discontinui.

    Ragionando in questi termini ( o meglio se ragionare in questi termini è corretto ? 🙂 ) allora non è impensabile immaginare di poter memorizzare il numero di BL relativi ad uno specifico documento e memorizzare il dato periodicamente ( ogni settimana, ogni x giorni, ogni mese…non so) e estrapolare in tale occasione la funzione matematica piu’ vicina alla distribuzione ottenuta dallo storico dei dati (potrebbero bastare pochi punti memorizzati) ed assegnare in base a quella un determinato valore al “fattore BL nel tempo” che vada a concorrere con il proprio peso prestabilito ed insieme a tutti gli altri n valori all’algoritmo di Ranking al posizionamento di un sito in Serp...

    Che ne pensate ? Potremmo tentare qualche test?

    **:ciauz: **
    Nicola


  • User Attivo

    Molto interessanti le tue proposte.
    Forse sbaglio ma qualche tempo fa ricordo di aver letto che Google capisce quando vi è un eccesso di back link in poco tempo e di conseguenza penalizza la risorsa destinataria dei link.
    Se questa mia info è corretta probabilmente Mr. G. tiene già in considerazione sia il fattore back link (e già lo sapevamo) sia il fattore tempo legato alla creazione di nuovi e, forse, alla scomparsa di back link.
    Bella l'idea di Teecno.
    Se c'è bisogno di volontari per fare test io ci sono 🙂

    Ciaooo:D


  • User Attivo

    Gran bella analisi Nicola 🙂

    quando uscirono i dati storici di Google, si parlò molto dell'importanza della distribuzione nel tempo dei BL e dell'aumento "naturale" dei link che puntano ad un documento.

    In particolare nella sezione link di quel brevetto, che non sappiamo ancora se sia in funzione o no, si parlava esplicitamente della distribuzione dei link nel tempo, e di come Google cercasse di tener conto dell'aumento dei link in relazione ad una certa data iniziale di acquisizione del documento o della scoperta di un nuovo link che puntava ad esso.

    Si parlava di concetti di "ritmi di crescita" per analizzare la variazione nel tempo dei link che puntano a un documento e in questo rilevare quale sia la tendenza del documento: con che frequenza un documento acquista backlink. Un ritmo crescente nel numero e nella velocità di apparizione di nuovi link in un periodo di tempo, può segnalare al motore di ricerca che il documento sia nuovo, fresco, o comunque mantenuto aggiornato, ed essere meritevole, quindi, di maggior valorizzazione.

    Così come si parlava dell'individuzione di "picchi anomali" nell?acquisizione di backlink da parte di un documento rispetto a modelli ?standard? che identificano le varie tipologie di documenti (il tuo caso 4).

    Cito Beke in relazione a questo, e ti consiglio di dare un'occhiata al suo articolo sui link del brevetto dei dati storici

    "In questo caso il motore può supporre di trovarsi di fronte ad un sito che tratta un argomento ?caldo?, e quindi premiarlo, ma può anche ipotizzare di avere rilevato un tentativo di spam, eseguito attraverso l?acquisizione di backlink scambiati, comprati, oppure ottenuti attraverso guestbook, forum o altre pagine dove sia possibile inserire un link senza richiederlo al webmaster."

    @"nbriani" said:

    Che ne pensate ? Potremmo tentare qualche test?
    Eh si qualche test bisognerebbe organizzarlo per benino, ma, così su due piedi, mi sembra abbastanza difficile: magari ne discutiamo anche in laboratorio e 🙂

    :ciauz:


  • User

    Le tue considerazioni offrono spunti interessanti **nbriani.
    **

    **Ragionando in questi termini ( o meglio se ragionare in questi termini è corretto ? 🙂 ) allora non è impensabile immaginare di poter memorizzare il numero di BL relativi ad uno specifico documento e memorizzare il dato periodicamente ( ogni settimana, ogni x giorni, ogni mese?non so) e estrapolare in tale occasione la funzione matematica piu? vicina alla distribuzione ottenuta dallo storico dei dati (potrebbero bastare pochi punti memorizzati) **

    Questa mi sembra la parte più "semplice" della faccenda. Voglio dire che far gestire all'algo i dati relativi a BL/tempo non è certo impossibile.

    ed assegnare in base a quella un determinato valore al ?fattore BL nel tempo? che vada a concorrere con il proprio peso prestabilito ed insieme a tutti gli altri n valori all?algoritmo di Ranking al posizionamento di un sito in Serp...

    Questo mi sembra già piuttosto difficile.

    Io francamente non sono così **sicuro **di saper trovare una **relazione **davvero **efficace **tra BL, **tempo **e autorevolezza.

    Provo a prendere le diverse situazioni che hai proposto e specularci un po' sopra:

    Sia nel Caso 1 che nel **Caso 2 **parli di un incremento dei BLs nel tempo ed in particolare nella prima situazione esprimi il concetto che un documento che aumenta di popolarità sia destinato ad acquisirne ancora.

    Ed io inizio a fare il bastian contrario.
    Ammettiamo che io, singolo individuo, verginella del fantastico mondo di internet, decido di aprire un blog. Insomma và di moda e la mia vicina (ultra settantenne) mi ha detto che posso aprilo aggratis se vado su bla bla bla.
    Pensavo di avere un sacco di cose da dire, ma poi quando sono lì per postare (eh?!) non mi viene di meglio che scrivere di "quei ladroni della politica che anche oggi ho sentito al tiggi che ci rubano sempre i soldi e sono tutti drogati". Figurati se penso di cercarmi qualche link (cooosa?!) e non voglio nemmeno dirlo alla mia veneranda vicina del mio blog (che il suo è venuto più bello del mio). Veramente non volevo dirlo a nessuno ma poi ho conosciuto questa bella ragazzotta che sò che è una tipa impegnata, che se ne intende di internet e per fare un po' il figo le dico: "oh! ma sai che io c'ho un blog!" e su un tovagliolino al pub le scrivo l'indirizzo. (Immagine prosaica a confronto dei poeti che scrivono sempre sui tovagliolini, ma nei cafè, e vengono celebrati da qualche grande maestro della bossanova). Lei và davvero a leggere il blog e rimane talmente impressionata dal mio stile (potrò scrivere come c*zz+ mi pare che poi la lingua è una cosa viva, o no?!) e dal fantastico assemblamento di questo testo composto da poliedrici cocci di banalità e luoghi comuni, che ha deciso di citarlo in uno commento , uno dei primi, ad una discussione sul blog di Beppe Grillo! Ecco che migliaia di internauti visitano il mio blog e, condividendo le sue impressioni, mi iniziano a linkare (coosa?!) come matti!

    Ecco, per quanto questo scenario possa essere paradossale è pur sempre plausibile. Un incremento vertiginoso di BL, magari da risorse con un indice di qualità prossimo allo zero, in pochissimo tempo. La paginetta verrà poi dimenticata, il commento di quella sarcastica femmina verrà precipitato nell'oblio condiviso da altre migliaia di commenti, gran parte delle citazioni ricevute vengono da fonti che nessuno legge o leggerà. Non per questo però il link alla mia pagina verrà tolto, come ipotizzato nel caso 4.

    Solo adesso mi rendo conto di quanto sto diventanto logorroico.
    Mi affretto a chiudere lanciando qualche altro sassolino.

    Determinare la qualità della risorsa linkante è difficile se prendiamo come assunto la mia precedente e delirante ipotesi e sarebbe comunque necessario contestualizzare la pagina all'interno del sito, relazionarla con gli altri contenuti presenti nel dominio o sottodominio per poterla sottoporre ad un equo giudizio.

    E come giudicare il rapporto tra autorevolezza di una risorsa linkante, quindi maggior peso a fini del ranking, ed andamento nel tempo?

    Voglio dire, che margine di tempo consentiremmo ad una pagina di ricevere un link pesante? ogni quanto ne deve ricevere uno per incrementare in maniera definitiva l'attinenza per una query?

    Non credi che per diversi macro-argomenti, e quindi diverse queries che gli utenti proporranno al MdR, ci sia una diversa probabilità di essere citati-linkati? E' possibile ponderare questa probabilità in una formula che davvero aiuti gli utenti a ricevere risultati più rilevanti?

    Basta la smetto! Il resto lo tengo per dopo!

    Obeah Man


  • Super User

    @Obeah Man

    trovo le tue valutazioni certamente codivisibili.

    Ma, secondo me, se i fattori che concorrono al ranking di un sito sono n (10, 100... non so...) nessuno di loro preso singolarmente puo' definire un ranking privo di eccezioni e contraddizioni ...

    Visto che nemmeno gli n tutti insieme creano ranking perfetti!

    La mia analisi che certamente deve essere approfondita nella fase di interpretazione della possibile casistica della distribuzione (è certamente approssimativo dividere in 4 soli casi una faccenda cosi' comprlessa 🙂 ...) deve pero' essere interpretata per quello che è :

    uno studio su uno degli n fattori che si possono ipotizzare influenzino l'interpretazione algoritmica dell'autorevolezza di un documento

    Credo che nessun MDR "sano di mente" potrebbe pensare di affidarsi SOLO a quello per sviluppare un algoritmo... 🙂

    E non si è accennato ancora al "peso" che tale fattore potrebbe avere all'interno di un algoritmo "ottimale"...

    E' proprio la combinazione di n elementi che diminuisce la possibile % statistica di "errore" di un ranking ...

    Non dimentichiamoci che benchè utilizzi uno dei migliori algoritmi al mondo, Google ha dovuto introdurre una variabile "umana" nella propria formula di pesi e misure del ranking con l'introduzione dei quality Rater... ma questo non vuol dire che il concetto alla base, ad esempio, del Page rank sia "sbagliato" o difficile da applicare... ma vuol dire semplicemente che il Page Rank "da solo non puo' bastare... 🙂

    Quindi riportriamo la questione su un livello meno puntuale e cerchiamo di capire insieme come il dato "numero di back Link" in funzione della misura dell'autorevolezza di un documento possa invece essere ampliato anche a sottofattori che tutti insieme (e solo tutti insieme) concorreranno a milgiorare il peso di questo elemento (i BL appunto) nell'algo: come la qualità (provenienza: propagazione PR e provenienza semantica, vedi ExpertRank ) degli stessi e perchè no, la distribuzione del numero nel tempo....


  • Bannato User Attivo

    un analisi dei backlink cosi come tu proponi secondo me è assolutamente impossibile.

    motivo?

    1. dovresti analizzare i backlink dei backlink stessi (scusate la ridondanza)
    2. dovresti conoscere vita, morte e miracoli dei siti dai quali provngono i backlink (per evidenziare anomalie dovute magari a penalizzazioni ecc)
    3. anche ammesso che sia possibile avere i punti 1 e 2, dovresti formulare una scala di punteggio in base ai vari subfattori da considerare ai punti precedenti
    4. qualsiasi punteggio ottenuto a seguito di tutti gli studi vale al massimo per un settore...
    5. dovresti monitorare attentamente tutti i siti che ti danno i link e a loro volta quelli che li linkano...

  • Bannato User Attivo

    dimenticavo..

    non si puà fare un'analisi basata sul tradizionale metodo scientifico quando si trattano valore ignoti.... 😄


  • Bannato User Attivo

    dimenticavo..

    non si puà fare un'analisi basata sul tradizionale metodo scientifico quando si trattano valore ignoti.... 😄


  • Super User

    @Desertstorm said:

    un analisi dei backlink cosi come tu proponi secondo me è assolutamente impossibile.

    motivo?

    1. dovresti analizzare i backlink dei backlink stessi (scusate la ridondanza)
    2. dovresti conoscere vita, morte e miracoli dei siti dai quali provngono i backlink (per evidenziare anomalie dovute magari a penalizzazioni ecc)
    3. anche ammesso che sia possibile avere i punti 1 e 2, dovresti formulare una scala di punteggio in base ai vari subfattori da considerare ai punti precedenti
    4. qualsiasi punteggio ottenuto a seguito di tutti gli studi vale al massimo per un settore...
    5. dovresti monitorare attentamente tutti i siti che ti danno i link e a loro volta quelli che li linkano

    ...dimenticavo..

    non si puà fare un'analisi basata sul tradizionale metodo scientifico quando si trattano valore ignoti.... 😄

    Ciao Desertstorm, cercavo proprio un contraddittorio ma ho come l'impressione che tu abbia capito poco di cio' che volevo dire...
    (evidentemente non mi sono spiegato bene)

    La mia analisi voleva cercare di approfondire un argomento di cui probabilmente i MDR (parlo dei "big 4" G-Y-M + ask) già tengono conto...

    Un algoritmo ampiamente piu' semplice per esempio del calcolo del PR...

    Infatti si tratta in ultima analisi di tenere traccia (cioè di storicizzare) un dato che gli spider di tutti i motori considerano: il numero di BL...

    La mia analisi ipotizza e descrive il modo in cui un MDR potrebbe tenere conto di una soricizzazione del dato... cioè di memorizzare il numero di Bl nel tempo e estrapolarne poi attraverso un opportuno algoritmo un valore di influenza positiva o negativa sul ranking.

    Dopo che è stata organizzata una indicizzazione infatti è possibile applicarci sopra qualunque calcolo o algoritmo ti venga in mente! (si fa per dire) al fine di creare nuovi valori o migliorarne altri fra gli n fattori di cui poi terranno conto gli algoritmi di ranking (soppesandoli e miscelandoli a dovere) che si attivano in base e al momento dell'inserimento della query da parte di un utente del MDR...

    Ti è piu' chiaro, ora, il ragionamento che ho fatto?

    Non capisco infatti il senso delle tue affermazioni di cui sopra... nello specifico:

    dalla 1) alla 4) non capisco cosa c'entrano nel discorso...

    mentre per la 5) la mia risposta è : "ma come pensi che allora venga calcolato il Page rank? 🙂

    e infine sulla "...non si puà fare un'analisi basata sul tradizionale metodo scientifico quando si trattano valore ignoti..."

    ti direi che apparte il fatto che quella è una semplice analisi matematica (non assolutamente un metodo scientifico) e non capisco quali siano i fattori ignoti che nomini...

    Grazie, ciao,
    Nicola


  • Moderatore

    Ottima analisi nbriani, ritengo però che data la mole di pagine/siti che un MDR deve analizzare un discorso di questo tipo si può fare solo per alcune tipologie (cluster) di siti e siccome qualcuno (Low 😉 ) mi disse che ai MDR piacciono le cose semplici non andrei oltre le retta come funzione interpolatrice.
    Y =ax+b
    Un ipotesi potrebbe essere:
    a) Rilevo il num di BL ogni tre mesi e calcolo il coefficente angolare rispetto alle ultime 2 rilevazioni precedenti [BLa1] e [BLa2] in modo tale che nel DB mi servono solo 2 campi per conoscere la "storia" del num. di BL.
    b) Definisco il "trend" dei BL come:

    BLTr = (BLa1 + BLa2)

    In questo modo posso mitigare eventuali picchi temporanei intervenuti negli ultimi 6 mesi dovuti a diversi motivi: news, BL spamming, ecc...

    PS: Aggiungo che siccome i BL: nascono, vivono e muoino si possono applicare gli studi (e le simulazioni) relativi al "gioco della vita"


  • Bannato User Attivo

    @nbriani said:

    La mia analisi voleva cercare di approfondire un argomento di cui probabilmente i MDR (parlo dei "big 4" G-Y-M + ask) già tengono conto...
    Un algoritmo ampiamente piu' semplice per esempio del calcolo del PR...
    Infatti si tratta in ultima analisi di tenere traccia (cioè di storicizzare) un dato che gli spider di tutti i motori considerano: il numero di BL...

    e con google come fai visto che non ne tiene traccia di tutti ma ne visualizza solo una minima parte?
    sei davvero certo che Yahoo e Google li tengono tutti in considerazione mentre magari nel loro algoritmo anche loro non applichino filtri?

    e poi non esiste nessun algoritmo di Google a noi noto.
    Quello che viene spacciato per algoritmo di pagerank è semplicemente una formula matematica che nessuno al mondo, ad eccezione di google, è in grado di calcolare e quindi verificare l'attendibilità.

    quando sommi e moltiplichi variabili a cui nessuno è in grado di determinarne il valore, qualsiasi formula può essere vera.

    posso dirti che la formula per trasformare il piombo in oro è radice quadrata di infinito.
    fino a prova contraria, la mia formula è corretta visto che nessuno potrebbe calcolarne l'effettivo valore e quindi capire se è reale o meno.

    poi senza contare il fatto che nel ranking intervengono cosi tanti fattori che di fatto i soli BL di per sè non valgono niente.

    dovresti avere 10 siti uguali, con 10 domini molto simili e anche cosi il margine di errore di paragone sarebbe eccessivo.

    io posso calcolare il consumo di benzina di 10 auto, ma se ho 10 auto di diversa marca, cilindrata, ecc ecc avrò 10 valori diversi.

    sicuramente posso avere una media come riferimento, ma è un risultato che rapportato a milioni di casi possibili non mi serve a niente.

    Dopo che è stata organizzata una indicizzazione infatti è possibile applicarci sopra qualunque calcolo o algoritmo ti venga in mente! (si fa per dire) al fine di creare nuovi valori o migliorarne altri fra gli n fattori di cui poi terranno conto gli algoritmi di ranking (soppesandoli e miscelandoli a dovere) che si attivano in base e al momento dell'inserimento della query da parte di un utente del MDR...

    Puoi farlo in un sistema noto, non certo in un sistema completamente ignoto di cui si conoscono i risultati e le origini ma si ignora completamente tutto quello che ci sta in mezzo.

    nessuno sa come effettivamente un risultato X sia posizionato in posizione Y per una determinata keyword.

    possiamo ipotizzare motivi di carattere generale e con un'analisi più attenta arrivare anche a motivi di carattere specifico e localizzato ma non sapremo mai come questi valori vengono poi elaborati insieme.

    mentre per la 5) la mia risposta è : "ma come pensi che allora venga calcolato il Page rank? 🙂

    Nessuno lo sa perchè se qualcuno lo sapesse avrebbe tutti sit ia Pr 10 con il minimo sforzo.
    il fatto che si lavora per principio generale è il motivo per cui avere anche un pr 6 è per molti ai limiti dell'impossibile.

    ti direi che apparte il fatto che quella è una semplice analisi matematica (non assolutamente un metodo scientifico) e non capisco quali siano i fattori ignoti che nomini...

    analisi matematica o metodo scientifico il problema è lo stesso.

    tu conosci una parte degli ingredienti ma non potrai mai sapere in quale dosi e con quali procedimenti questi saranno mischiati per ottenere un risultato finale.

    contrariamente a questo, sapresti perfettamente posizionare un sito X alla posizione Y che meglio preferisci.

    saresti in grado di dire ad un cliente, ti posiziono questo sito in settima posizione per la keyword X.

    questo non puoi farlo perchè ignori tutto quello che sta in mezzo tra la domanda e la risposta di google...


  • Super User

    @Desertstorm said:

    e con google come fai visto che non ne tiene traccia di tutti ma ne visualizza solo una minima parte?
    sei davvero certo che Yahoo e Google li tengono tutti in considerazione mentre magari nel loro algoritmo anche loro non applichino filtri?

    e poi non esiste nessun algoritmo di Google a noi noto.
    Quello che viene spacciato per algoritmo di pagerank è semplicemente una formula matematica che nessuno al mondo, ad eccezione di google, è in grado di calcolare e quindi verificare l'attendibilità.

    quando sommi e moltiplichi variabili a cui nessuno è in grado di determinarne il valore, qualsiasi formula può essere vera.

    posso dirti che la formula per trasformare il piombo in oro è radice quadrata di infinito.
    fino a prova contraria, la mia formula è corretta visto che nessuno potrebbe calcolarne l'effettivo valore e quindi capire se è reale o meno.

    poi senza contare il fatto che nel ranking intervengono cosi tanti fattori che di fatto i soli BL di per sè non valgono niente.

    dovresti avere 10 siti uguali, con 10 domini molto simili e anche cosi il margine di errore di paragone sarebbe eccessivo.

    io posso calcolare il consumo di benzina di 10 auto, ma se ho 10 auto di diversa marca, cilindrata, ecc ecc avrò 10 valori diversi.

    sicuramente posso avere una media come riferimento, ma è un risultato che rapportato a milioni di casi possibili non mi serve a niente.

    Puoi farlo in un sistema noto, non certo in un sistema completamente ignoto di cui si conoscono i risultati e le origini ma si ignora completamente tutto quello che ci sta in mezzo.

    nessuno sa come effettivamente un risultato X sia posizionato in posizione Y per una determinata keyword.

    possiamo ipotizzare motivi di carattere generale e con un'analisi più attenta arrivare anche a motivi di carattere specifico e localizzato ma non sapremo mai come questi valori vengono poi elaborati insieme.

    Nessuno lo sa perchè se qualcuno lo sapesse avrebbe tutti sit ia Pr 10 con il minimo sforzo.
    il fatto che si lavora per principio generale è il motivo per cui avere anche un pr 6 è per molti ai limiti dell'impossibile.

    analisi matematica o metodo scientifico il problema è lo stesso.

    tu conosci una parte degli ingredienti ma non potrai mai sapere in quale dosi e con quali procedimenti questi saranno mischiati per ottenere un risultato finale.

    contrariamente a questo, sapresti perfettamente posizionare un sito X alla posizione Y che meglio preferisci.

    saresti in grado di dire ad un cliente, ti posiziono questo sito in settima posizione per la keyword X.

    questo non puoi farlo perchè ignori tutto quello che sta in mezzo tra la domanda e la risposta di google...

    Desert, scusa se insisto ma non hai proprio capito il senso del mio post... 🙂

    qui si sta cercando di fare una analisi teorica sul funzionamento "ideale" di uno degli n fattori che possono influenzare un ranking.... lo facciamo col duplice scopo di capire meglio le caratteristiche dei MDR in genere e di come possono applicare o meno certi algoritmi, e lo facciamo, soprattutto (come sottolineato nelle prime righe del thred) per eventualmente applicare regole e algoritmi a teecno.

    Davvero in cio' che tu scrivi non saprei neanche da dove cominciare per rispondere alle varie cose che dici cosi' distanti da questo semplice pensiero... e alcune davvero incongruenti 🙂 in genere.. una su tutte la tua affermazione sul PR:

    "...Nessuno lo sa (l'algoritmo ndr) perchè se qualcuno lo sapesse avrebbe tutti sit ia Pr 10 con il minimo sforzo."

    ... bè il sistema di base con cui si forma il PR non è affatto misterioso... fondamentalmente ci vogliono semplicemente BL da siti ad alto PR 🙂 , è solo questo il difficile... non l'algo, ma trovare i BL!

    :ciauz:
    Nicola


  • Super User

    @paocavo said:

    Ottima analisi nbriani,

    grazie! 🙂

    @paocavo said:

    ritengo però che data la mole di pagine/siti che un MDR deve analizzare un discorso di questo tipo si può fare solo per alcune tipologie (cluster) di siti e siccome qualcuno (Low 😉 ) mi disse che ai MDR piacciono le cose semplici non andrei oltre le retta come funzione interpolatrice.
    Y =ax+b
    Un ipotesi potrebbe essere:
    a) Rilevo il num di BL ogni tre mesi e calcolo il coefficente angolare rispetto alle ultime 2 rilevazioni precedenti [BLa1] e [BLa2] in modo tale che nel DB mi servono solo 2 campi per conoscere la "storia" del num. di BL.
    b) Definisco il "trend" dei BL come:

    BLTr = (BLa1 + BLa2)

    In questo modo posso mitigare eventuali picchi temporanei intervenuti negli ultimi 6 mesi dovuti a diversi motivi: news, BL spamming, ecc...

    Mi sembra un ottima semplificazione della questione... anche se effettivamente da un punto di vista puramente teorico concentrarsi sul coefficente angolare dato dalle ultime due rilevazioni restringe il significato che potremmo attribuire all'algoritmo ad una sorta di "coefficente di crescita di BL" (molto simile a quello descritto negli utlimi brevetti di google, in fondo..no?) di un documento in un dato momento.

    Ma va ad escludere possibili e piu' variegate interpretazioni che deriverebbero dall'avere magari interpretato la distribuzione dei Bl nel tempo attaverso funzioni piu' complesse. Funzioni che permetterebbero quindi in generale di avere una maggiore precisione nell'assegnazione di un eventuale fattore premiante o penalizzante al documento.

    Resta il fatto che concordo con una richiesta tecnica (la tua) di semplificazione che certamente facilita l'introduzione di questo eventuale algoritmo...

    Magari quando il db di indicizzazione di Teecno sarà stabile (e accessibile!)potremmo, con il permesso di Giorgio, Tonix e gli altri.. farci sopra qualche sperimentazione... che dici?

    @paocavo said:

    PS: Aggiungo che siccome i BL: nascono, vivono e muoino si possono applicare gli studi (e le simulazioni) relativi al "gioco della vita"

    Questo è interessante... ma nella rete come riporteremmo le regole della vita relative a popolazione/sopravvivenza ? 🙂


  • Bannato User Attivo

    @nbriani said:

    "...Nessuno lo sa (l'algoritmo ndr) perchè se qualcuno lo sapesse avrebbe tutti sit ia Pr 10 con il minimo sforzo."

    ... bè il sistema di base con cui si forma il PR non è affatto misterioso... fondamentalmente ci vogliono semplicemente BL da siti ad alto PR 🙂 , è solo questo il difficile... non l'algo, ma trovare i BL!

    Vedi, qui sbagli.
    Noi conosciamo solo il principio generale, per semplice causa effetto.

    sappiamo che avendo x link da pr y, il ns pr potrebbe arrivare per esempio a 6.
    non vuol dire conoscere l'algoritmo del pagerank.

    sarebbe come per dire che mettendo la benzina nella macchina posso fare x km. lo so per principio generale, ma come funzioni effettivamente il motore non lo so.

    cmq lavora sulla tua analisi, quando avrai i risultati potremmo capirci meglio sulle ns relative posizioni 😉


  • Moderatore

    @nbriani said:

    grazie! 🙂
    Resta il fatto che concordo con una richiesta tecnica (la tua) di semplificazione che certamente facilita l'introduzione di questo eventuale algoritmo...

    L'importante è iniziare con cose semplici, poi si vedrà ... Il fatto di considerare di tenere traccia proprio della funzione interpolatrice (lineare o polinomiale, spline) potrebbe essere più utile per cercare di "prevedere" il valore futuro di BL.

    Se il valore previsto coincide quasi con quello rilevato allora...

    Se invece intendevi utilizzare la funzione per confrontarla con N possibili funzioni o "comportamenti" pre-confezionati allora la vedo un pò dura perchè i motivi che inducono i comportamenti sono numerosi....

    @nbriani said:

    Magari quando il db di indicizzazione di Teecno sarà stabile (e accessibile!)potremmo, con il permesso di Giorgio, Tonix e gli altri.. farci sopra qualche sperimentazione... che dici?

    😉

    @nbriani said:

    Questo è interessante... ma nella rete come riporteremmo le regole della vita relative a popolazione/sopravvivenza ? 🙂
    Ci sto pensando :mmm: 😄


  • Super User

    @Desertstorm: la formula ed il principio su cui si basa il calcolo del pagerank sono noti. Non è necessario sapere quanti link servano per raggiungere un determinato PR, per utilizzare fruttuosamente questa nozione basta capire che è preferibile concentrarsi sulla ricerca di bl da documenti ad alto PR, piuttosto che trovarne tantissimi a basso PR.

    @Nicola: non so con certezza (ma credo non lo sappia nessuno) se le variazione di certi parametri nel tempo siano davvero considerate negli algoritmi di ranking, la mia impressione è che lo siano.

    Nel documento sui dati storici viene detto che alcuni modelli di incremento e decremento possano essere "congelati" in curve o modelli con i quali confrontare gli andamenti dei documenti da esaminare.

    Il dubbio che viene subito è che esistono settori diversi in cui i comportamenti degli stessi utenti sono profondamente differenti, però potrebbe essere ipotizzabile la costruzione di una serie di curve che non abbiano precisi riferimenti temporali nè in valore assoluto.
    Quello che conta è la fonta la forma della curva insomma.

    Non credo che da sola una analisi di questo genere possa definire l'autorevolezza di un sito, però potrebbe dare alcune indicazioni, una curva di accumulo dei backlink decrescente fino adu un valore molto basso potrebbe aiutare il motore di ricerca a capire che a quel documento vada preferito uno che ha in quel momento lo stesso numero di backlink ma che invece li sta guadagnando.


  • Super User

    @paocavo said:

    Il fatto di considerare di tenere traccia proprio della funzione interpolatrice (lineare o polinomiale, spline) potrebbe essere più utile per cercare di "prevedere" il valore futuro di BL.
    Se il valore previsto coincide quasi con quello rilevato allora...

    Se invece intendevi utilizzare la funzione per confrontarla con N possibili funzioni o "comportamenti" pre-confezionati allora la vedo un pò dura perchè i motivi che inducono i comportamenti sono numerosi....

    @beke said:

    Nel documento sui dati storici viene detto che alcuni modelli di incremento e decremento possano essere "congelati" in curve o modelli con i quali confrontare gli andamenti dei documenti da esaminare.

    Nella mia idea (ma si puo' cambiare!) intendevo esattamente cio' che Beke riporta ... realizzare un algoritmo che possa confrontare la distribuzione con alcune funzioni "predefinite" e ben individuate (che non devono per forza essere tutte le funzioni possibili) che corrispondano a spinte o a penalizzazioni da applicare al documento :

    Se riconosco una funzione di distribuzione "buona" allora premio, se riconosco una funzione di distribuzione "cattiva" allora penalizzo... viceversa lascio nullo il parametro...

    Certo che cio che propone paocavo che piu' di me riesce a riportare idee e analisi nella realtà della "programmazione alla ns portata" è certamente un operazione piu' concretamente e facilmente applicabile.. e che mi sembra possa portare comunque a risultati interessanti...

    Non vedo l'ora di poter tentare un approccio "reale" di queste idee a teecno...

    Magari!

    @beke said:

    Non credo che da sola una analisi di questo genere possa definire l'autorevolezza di un sito..

    Come detto piu' su...non lo credo nemmeno io.. è un valore che preso da solo ed isolato non ha un grandissimo significato o comunque lo ha ma passibile di numerose situazioni particolare..

    Io lo immagino "**come uno dei" **parametri legati ai BL che insieme ad altri quali il numero, il Pr di provenienza, il cluster di provenienza (?) , e altri (?) possano approfondire o indicare meglio il concetto di autorevolezza di un documento, un tempo legato al solo PR.

    :ciauz:
    Nicola


  • Moderatore

    @nbriani said:

    Certo che cio che propone paocavo che piu' di me riesce a riportare idee e analisi nella realtà della "programmazione alla ns portata" è certamente un operazione piu' concretamente e facilmente applicabile..

    Ciao Nicola!
    non è una questione di "programmazione alla ns portata" ma, ingegneristicamente parlando, di costo/benefici:

    Per costo intendo:

    • Occupazione di memoria nel DB

    • Complessità computazionalePer confrontare l'andamento reale con uno dei possibili andamenti prestabiliti comporta:

    • Tenere traccia di tutti i "campioni" per ogni pagina (e/o sito) nell'indice del MDR o in alternativa tenere traccia della sola funzione funzione interpolatrice (come memorizzo una funzione nel DB? Memorizzo il solo codominio? Fino a quale range di valori del dominio? Memorizzo l'espressione algebrica della funzione intepolatrice?).

    • Gestire un campionario di possibili andamenti (funzioni) da tenere come riferimento per i confronti e quindi per il ranking. (Chi lo dice che questo set racchiude la totalità dei casi?)

    • Trovare un algoritmo che misura la somiglianza degli andamenti dei grafici di due funzioni: se operiamo nel continuo (funzioni interpolatrici) dopo una operazone di scaling bisognerebbe calcolare l'integrale della differenza delle due funzioni e prendere il valore che tende a zero (fra tutte le funzioni di riferimento). Se operiamo nel discreto si va sulle differenze finite, ecc eccc...un casino!:?image

    1. Modello di crescita "A"
    2. Andamento reale
    3. Modello di crescita "B"

    :ciauz:


  • Super User

    Mi fido ciecamente, anche perchè ho già il mal di testa 🙂


  • Super User

    @paocavo said:

    Ciao Nicola!
    non è una questione di "programmazione alla ns portata" ma, ingegneristicamente parlando, di costo/benefici:

    sorry, non ho trovato l'espressione giusta... 🙂 intendevo semplicemente la starda piu' semplice...

    @paocavo said:

    Per costo intendo:

    • Occupazione di memoria nel DB

    Questo non ho le conoscenze per poterla stimare correttamente , ma se la struttura regge la fase di calcolo dopo si tratta solo di memorizzare un valore (o sbaglio?)

    @paocavo said:

    • Complessità computazionale:Per confrontare l'andamento reale con uno dei possibili andamenti prestabiliti comporta:

    • Tenere traccia di tutti i "campioni" per ogni pagina (e/o sito) nell'indice del MDR o in alternativa tenere traccia della sola funzione funzione interpolatrice (come memorizzo una funzione nel DB? Memorizzo il solo codominio? Fino a quale range di valori del dominio? Memorizzo l'espressione algebrica della funzione intepolatrice?).
      Le mie reminescenze di analisi matematica mi suggerivano l'ipotesi di memorizzare semplicemente gli utlimi n punti (rilevamenti) in quantità tale da essere necessaria e sufficente al calcolo (da parte dell'algoritmo) di una possibile funzione generatrice . Ma potrei sbagliare sulla valutazione...

    @paocavo said:

    Gestire un campionario di possibili andamenti (funzioni) da tenere come riferimento per i confronti e quindi per il ranking. (Chi lo dice che questo set racchiude la totalità dei casi?)

    Nessuno ci obbliga aln fatto che il ns eventuale campionario comprenda ogni possibile funzione di andamento.. potremmo impostare il ns algorimo per 4/5 possibili "classi" di funzioni (tipo lineari, esponenziali, ecc)

    Trovare un algoritmo che misura la somiglianza degli andamenti dei grafici di due funzioni: se operiamo nel continuo (funzioni interpolatrici) dopo una operazone di scaling bisognerebbe calcolare l'integrale della differenza delle due funzioni e prendere il valore che tende a zero (fra tutte le funzioni di riferimento). Se operiamo nel discreto si va sulle differenze finite, ecc eccc...un casino!:?

    1) Modello di crescita "A"
    2) Andamento reale
    3) Modello di crescita "B"

    Ecco questo mi sembra il punto cruciale della cosa ... una soluzione potrebbe essere quella di simulare l'applicazione da parte dell'algoritmo di quelle 4/5 funzioni che abbiamo "decodificato" sui valori che abbiamo per ogni documento e verificare quale da il miglior risultato in termini di distanza dei punti ai dati intervalli...? (è una domanda ! 🙂 )
    Sulla difficoltà della cosa nn mi preoccuperei piu' di tanto .. applicherei un algoritmo del genere solo a determinati intervalli sul datacenter... anche se ci mette "tempo e risorse" potremmo lasciarlo lavorare in back ground.. no?