+ Rispondi alla Discussione
Risultati da 1 a 48 di 48

TrustRank: il gioco di prestigio

Ultimo Messaggio di andrew_fisher il:
  1. #1
    Moderatore L'avatar di paolino
    Data Registrazione
    Apr 2005
    Località
    San Cipriano Beach
    Messaggi
    5,058

    TrustRank: il gioco di prestigio

    Cari amici forumisti Google l'ha fatto di nuovo.....forse non capisce che il Web è una cosa seria e non un'arena in cui fare giochini matematici....

    Da quello che ho letto e capito TrustRank fa le seguenti cose:

    1) seleziona un numero N di siti web tra quelli etichettati come Hub site (cioè siti con un grandissimo numero di outbound links);

    2) assegna a tali siti un Rank = 1;

    3) partendo da questi siti segue i link e assegna tramite una funzione "oracolo" un valore di TrustRank;

    4) ovviamente il TrustRank di P viene diviso per il numero di outbound links prima di essere "passato" alle pagine linkate;

    5) inoltre calcola la distanza della generica pagina Q da P (più Q è distante più il TrustRank sarà basso).

    Sinceramente questo algoritmo mi sembra peggiore di PR.....infatti così facendo si creeranno sul Web "amici, compari e comparielli" nel senso che se io sono linkato da Pinco Pallino allora sono suo amico e quindi mi si aprono le porte del Web altrimenti mi attacco al tram.......

    Il carattere democratico del Web è andato a farsi friggere......inoltre col TrustRank si può lo stesso fregare il motore......basta solo avere dei link da siti con un buon TrustRank (meglio se dai Big Boys).....

    Beh per ora le cose stanno così, spero che Google abbia corretto il tiro nell'implementazione, perchè così fatto TrustRank è un algoritmo fascista....

  2. #2
    User Attivo L'avatar di kerouac3001
    Data Registrazione
    Apr 2005
    Località
    Roma (ma Palermitano sugnu)
    Messaggi
    1,532
    non è detto..probabilmente uno di questi HuB potrebbe essere dmoz..secondo me sta facendo un buon lavoro..nonostante io sia il peggior nemico di google (la maggior parte dei miei siti è in cloaking e pure molto spammoso ahahahah )..secondo me noi webmaster ne trarremo vantaggi, perchè sarà sempre + difficile per un utente non esperto arrivare in vetta alle serp certo dovremo romperci il culo pure noi, ma diciamo che diventeremo sempre + essenziali per chi vuole una certa visibilità nel web

  3. #3
    User
    Data Registrazione
    Apr 2005
    Località
    Turin
    Messaggi
    123
    Quindi chi aveva un PR 2 o 3 si ritroverà un ipotetico TR 0 o sbaglio?
    Tutti sanno che una cosa è impossibile da realizzare...

  4. #4
    Moderatore L'avatar di paolino
    Data Registrazione
    Apr 2005
    Località
    San Cipriano Beach
    Messaggi
    5,058
    no Google ricalcolerà il TrustRank per tutte le pagine nel suo DB (o i siti non ho capito bene)......

  5. #5
    User Attivo L'avatar di kerouac3001
    Data Registrazione
    Apr 2005
    Località
    Roma (ma Palermitano sugnu)
    Messaggi
    1,532
    vi spiego come l'ho capita io: google partirà nel suo calcolo del pr da 200 hub seri..è ovvio che gli hub che ha scelto non contengono pagine spam ok? dunque lui ha deciso di calcolare il pr dei siti non solo in base ai BLs ma anche in base alla distanza del sito dagli hub seri..se per arrivare al sito ci vogliono 5 passaggi allora è probabile che quel sito non sia affidabile.

    Facciamo un esempio..google usa dmoz come punto di partenza..legge i siti presenti ed è sicuro che sia affidabili..però i siti che sono presenti in dmoz potrebbero avere una piccola percentuale di link a siti spam (ma molto bassa, altrimenti dmoz nnon li avrebbe nemmeno presi in considerazione)..diciamo che google ha capito che più si allontana dal HUB serio più aumenta la percentuale di siti spam. quindi con questa mossa google attribuendo un TR diverso in funzione della distanza tra il sito e l'hub serio più vicino, evita che i siti spam possano raggiungere le vette delle serp..questo che significa per noi comuni mortali? che le nuove tecniche di posizionamento non prevederanno uso di cloaking (dmoz accetterebbe siti in cloaking?..dubito)..non prevedono un uso spammoso di keyword per posizionarsi in alto..devi sempre avere molti BLs..eccetera

    in sostanza basta fare un buon sito, con contenuti validi, ottimizzazione di keyword e struttura (ma mantenendo coerenza..senza diventare un sito spam), aumentare i BLs e come per magia salirai le serp. Se il tuo sito è valido stai sicuro che non hai nulla da temere. Sono i maniaci del cloaking come me che devono temere e parecchio

  6. #6
    Moderatore L'avatar di paolino
    Data Registrazione
    Apr 2005
    Località
    San Cipriano Beach
    Messaggi
    5,058
    Bene bene kerouac ha centrato il problema.....il punto è che per entrare in DMOZ bisogna farsi prima crocifiggere e la cosa grave è che Google selezionerà i "200 hub seri" in modo manuale.....

    Però però però.....se mi faccio linkare da 300 siti con TrustRank basso (e quindi intendo proprio dire basso, nel senso che alcuni siti potrebbero avere un fattore di discriminazione D negativo e quindi se mi facessi linkare da loro perderei TrustRank), l'algoritmo di propagazione mi assegnerà comunque un TrustRank abbastanza elevato e in questo è simile al PR, l'unica vera differenza è la selezione manuale dei vertici da cui partire per creare il grafo che rappresenta il Web.....

    Dulcis in fundo, TrustRank non è altro che l'ultima appendice (finalmente messa in azione) dell'algoritmo HillTop che prevedeva la divisione del Web in Authority sites, Hub sites e tutti gli altri siti.....Chi veniva linkato dagli Hub e/o dagli Authority era importante......

    Questo è il concetto di fondo e credo che sarà più facile per noi implementare siti web, in quanto non dovremo tener conto di cavolate tipo la keyword density che, diciamoci la verità, è una pagliacciata

  7. #7
    User Attivo L'avatar di must
    Data Registrazione
    Mar 2005
    Località
    Gozo, Malta
    Messaggi
    4,347
    Segui must su Twitter Aggiungi must su Google+ Aggiungi must su Facebook Aggiungi must su Linkedin
    mi date riferimenti a questi 200 hub seri e altri fatti che date per scontato e di cui non sono ancora a conoscenza?

    grazie

  8. #8
    User
    Data Registrazione
    Feb 2005
    Località
    Firenze
    Messaggi
    444
    Citazione Originariamente Scritto da must
    mi date riferimenti a questi 200 hub seri e altri fatti che date per scontato e di cui non sono ancora a conoscenza?

    grazie
    TrustRank

    http://dbpubs.stanford.edu:8090/pub/...me=2004-52.pdf
    verifica regolamento firme

  9. #9
    User Attivo L'avatar di must
    Data Registrazione
    Mar 2005
    Località
    Gozo, Malta
    Messaggi
    4,347
    Segui must su Twitter Aggiungi must su Google+ Aggiungi must su Facebook Aggiungi must su Linkedin
    grazie

  10. #10
    User Attivo L'avatar di kerouac3001
    Data Registrazione
    Apr 2005
    Località
    Roma (ma Palermitano sugnu)
    Messaggi
    1,532
    intuitivamente ho capito abbastanza, ma sarebbe bello avere la traduzione..suvvia ki traduce?

  11. #11
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    42,980
    Visita il canale Youtube di Giorgiotave
    Citazione Originariamente Scritto da kerouac3001
    intuitivamente ho capito abbastanza, ma sarebbe bello avere la traduzione..suvvia ki traduce?
    servirebbe
    Cosa bisognerà fare nel 2020? Stiamo affrontanto i vari temi
    Google 2020 | SEO 2020 | E-commerce 2020 | Social 2020 | YouTube 2020

  12. #12
    Banned
    Data Registrazione
    Apr 2005
    Messaggi
    2,096
    Comincio io con la traduzione,

    è abbastanza accurata, ma i puristi non me ne vogliano, per me sono i concetti la cosa importante:

    Abstract

    le pagine web spam usano varie tecniche per raggiungere posizioni elevate nei motori di ricerca. Un esperto "umano" può identificare lo spam ma è molto dispendioso valutare manualmente un così vasto numero di pagine.

    Al posto di ciò (NDT - della valutazione manuale) proponiamo una tecnica che semi automaticamente possa separare le pagine buone da quelle di spam.

    Prima selezioniamo una serie di seed-page (letteralmente pagine seme io direi pagine campione) e le faremo valutare a degli esperti.

    Una volta individuate manualmente le pagine campione (seed pages) di buona reputazione usiamo la struttura dei web link per scoprire altre pagine buone.

    In questa relazione discuteremo le possibili strade per implementare la selezione delle seed pages(quelle campione) e come scoprire quelle buone.

    presentiamo i risultati di un esperimento effettuato sul WWW indicizzato da Altavista e valuteremo le prestazioni (e i risultati) della nostra tecnica.

    I nostri risultati mostrano come sia possibile effettivamente filtrare (lett. Filtrare fuori) lo spam per una parte significativa del web basandosi su un numero di 200 Siti Buoni(good seed).


    Adesso inizio a tradurre l'introduzione, se qualcuno ha voglia di tradurre questo documento per favore si prenda la seconda pagina così non facciamo doppio lavoro

  13. #13
    User Attivo L'avatar di kerouac3001
    Data Registrazione
    Apr 2005
    Località
    Roma (ma Palermitano sugnu)
    Messaggi
    1,532
    grande emme direi che poi giorgio dovrebbe inserire la traduzione da qualche parte

  14. #14
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    42,980
    Visita il canale Youtube di Giorgiotave
    Citazione Originariamente Scritto da kerouac3001
    grande emme direi che poi giorgio dovrebbe inserire la traduzione da qualche parte
    E' certo, come minimo
    Cosa bisognerà fare nel 2020? Stiamo affrontanto i vari temi
    Google 2020 | SEO 2020 | E-commerce 2020 | Social 2020 | YouTube 2020

  15. #15
    User L'avatar di shade
    Data Registrazione
    May 2005
    Località
    Rimini
    Messaggi
    412
    Cercando di capire qualcosa,
    Per essere valutati positivamente occorre avere più link in uscita che in entrata?
    SUN GARDEN INFO - Il portale che ti mette in ombra

  16. #16
    Banned
    Data Registrazione
    Apr 2005
    Messaggi
    2,096

    Questa è l'introduzione

    introduzione

    Il termine web spam si riferisce a pagine Super linkate (hyperlinked) nel www che sono state create con l'intenzione di traviare (io direi fregare ) i motori di ricerca.

    Per esempio un sito pornografico potrebbe fare spam nel web aggiungendo migliaia di keywords nella sua home page, spesso mettendo testo invisibile agli umani (leggi navigatori) utilizzando ingegnosi schemi di colori. Un motore di ricerca indicizzerà le extra keywords e restituirà la pagina pornografica come risposta a queries che contengono alcune delle keyword (quelle nascoste).

    Le key aggiunte non sono tipicamente di natura adult (pornografiche), i navigatori che cercano per altri argomenti possono arrivare alla pagina (quella porno). Un'altra tecnica di spamming è la creazione di un numero elevato di Bogus pages (lett. Pagine finte) tutte che puntano ad una singola pagina obbiettivo. Siccome molti motori di ricerca tengono in conto il numero di link in ingresso per dare un valore alle pagine, il rank della pagina obbiettivo aumenterà ed apparirà nelle parti alte nei risultati della query.

    Esattamente come per l'e-mail spamming, determinare se una pagina, o un gruppo di pagine sia spam è soggettivo.

    Per esempio consideriamo un gruppo di siti web che si linkano tra di loro in maniera ripetitiva. Questi links possono rappresentare una buona relazione tra i siti, oppure possono avere creato ciò con la precisa intenzione di aumentare il rank di tutte le altre pagine.

    In generale è difficile distinguere tra questi due scenari.

    Per quanto, esattamente come con l'e-mail spam, molte persone possono facilmente identificare le assordanti e sfacciate sollecitazioni del web spam.

    Per esempio molti saranno d'accordo che se molto testo della pagina è invisibile agli "umani" (come fatto notare sopra) e quest'ultimo è irrilevante per l'argomento della pagina, allora è stato aggiunto con l'intenzione di imbrogliare.

    Similmente se si trova una pagina con molti URL che si riferiscono ad host tipo:


    buy-canon-rebel-300d-lens-case.camerasx.com,
    buy-nikon-d100-d70-lens-case.camerasx.com,
    ...,

    e si scopre che tutti questi host name fanno capo allo stesso IP si può concludere che le pagine sono state create per imbrogliare i motori di ricerca.

    (la motivazione che sta dietro all'URL spamming è che molti motori di ricerca prestano molta attenzione ai vocaboli che si trovano nell'host name e danno a questi vocaboli un peso maggiore che se si trovassero all'interno del testo.)

    Mentre molti "umani" possono riconoscere lo spam questo non vuol dire che sia facile per i computer scoprirlo.

    Le company dei motori di ricerca di solito impiegano personale specializzato nella scoperta del web spam e sono continuamente a scandagliare il web per trovare i colpevoli(cioè i siti spam) Quando una pagina spam viene identificata il search engine smette di fare il crawling, ed il suo contenuto non viene più indicizzato.

    Questo modo di trovare lo spam è un processo molto lento e dispendioso ma è una fase critica per il successo di un motore di ricerca: senza la rimozione degli sfacciati colpevoli (dice proprio così ) la qualità dei risultati subisce un degrado significativo.

    L'obbiettivo della nostra ricerca è quello di aiutare gli esperti "umani" che scoprono lo spam.

    In particolar modo vogliamo identificare le pagine ed i siti che fanno spam e le pagine ed i siti che sono "buoni".

    I metodi che presentiamo in questa relazione possono essere usati in due modi:

    1) ambedue come aiuto in uno screening iniziale, suggerendo le pagine che devono essere analizzate più approfonditamente da un esperto,

    o

    2) COME UN counter-bias (contatore di predisposizione ?) da applicare quando i risultati sono stabiliti in modo di ridurre il possibile boost realizzato dallo spam.

    Siccome la identificazione dello spam tramite algoritmi è molto difficile. il nostro schema non opera interamente senza il supporto umano.
    Così vedremo l'algoritmo principale ricevere in seguito l'assistenza umana.
    L'algoritmo seleziona inizialmente un piccolo Campione di pagine che hanno uno "spam status" che deve essere stabilito. Un esperto poi esamina queste pagine campione e dice all'algoritmo se sono spam (pagine cattive) oppure no (pagine buone). Infine l'algoritmo identifica altre pagine che sembrano buone basandosi sulla connettività con le buone pagine campione.

    Riassumendo i contributi di questo studio sono:

    1. formalizziamo il problema del web spam e dell'algoritmo scova-webspam
    2. definiamo una metrica per stimare l'efficacia dell'algoritmo scova-spam
    3. presenteremo (?) lo schema per selezionare le pagine campione che dovranno essere valutate manualmente.
    4. Introduciamo l'algoritmo TRUST RANK per determinare la probabilità che le pagine abbiano una buona reputazione.
    5. discuteremo i risultati e li valuteremo a fondo basandoci sui 31 milioni di siti spiderizzati da Alta Vista, e l'analisi manuale di oltre 2000 siti. Forniremo alcune interessanti statistiche sul tipo e la frequenza del contenuto web incontrato, e useremo i nostri dati per valutare l'algoritmo proposto.




    Ci sono già un bel po' di spunti di discussione in questa parte.

    Per il prossimo pezzo da tradurre è un po' più complicato perchè ci sono un po' di termini matematici, vado a cena e provo a fare anche quello.

    Buon appetito a voi

  17. #17
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    42,980
    Visita il canale Youtube di Giorgiotave
    Se tu non hai salvato le traduzione oggi o domani dovrei avere qualcosa in mano
    Cosa bisognerà fare nel 2020? Stiamo affrontanto i vari temi
    Google 2020 | SEO 2020 | E-commerce 2020 | Social 2020 | YouTube 2020

  18. #18
    Banned
    Data Registrazione
    Apr 2005
    Messaggi
    2,096
    posto anche quì.

    La traduzione è salvata solo che sta nel PC a casa ed io sono al mare sino al 12 giugno, male che vada la rimetto al suo posto appena rientro.

  19. #19
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    42,980
    Visita il canale Youtube di Giorgiotave
    Citazione Originariamente Scritto da emmebar
    posto anche quì.

    La traduzione è salvata solo che sta nel PC a casa ed io sono al mare sino al 12 giugno, male che vada la rimetto al suo posto appena rientro.
    Ok
    Cosa bisognerà fare nel 2020? Stiamo affrontanto i vari temi
    Google 2020 | SEO 2020 | E-commerce 2020 | Social 2020 | YouTube 2020

  20. #20
    Esperto L'avatar di nbriani
    Data Registrazione
    May 2005
    Località
    Guadalajara, Mexico
    Messaggi
    1,951
    Segui nbriani su Twitter Aggiungi nbriani su Google+ Aggiungi nbriani su Facebook Aggiungi nbriani su Linkedin Visita il canale Youtube di nbriani
    Ragazzi ma sbaglio o praticamente il documento tradotto è questo:

    http://www.officialsm.net/articoli/t...or_dummies.pdf


    (Fonte: l'altro Forum !)


  21. #21
    User Attivo
    Data Registrazione
    Dec 2004
    Località
    abito sulla luna e ogni volta che mi telefono è un'interrurbana
    Messaggi
    2,414
    Citazione Originariamente Scritto da emmebar
    io sono al mare sino al 12 giugno.
    io proporrei di bannarlo a vita dal forum solo perchè noi siamo in ufficio (va beh non a quest'ora) mentre lui è al mare!!!


    INVIDIAAAAAAA

  22. #22
    Banned L'avatar di positano
    Data Registrazione
    Jan 2005
    Messaggi
    345
    Citazione Originariamente Scritto da nbriani
    Ragazzi ma sbaglio o praticamente il documento tradotto è questo:

    http://www.officialsm.net/articoli/t...or_dummies.pdf


    (Fonte: l'altro Forum !)

    Mi sa di si leggo e poi faccio sapere.

  23. #23
    User
    Data Registrazione
    Mar 2005
    Località
    Rimini
    Messaggi
    230
    Scusate, c'è in progetto un tool che calcoli il TrustRank?

  24. #24
    User Attivo L'avatar di must
    Data Registrazione
    Mar 2005
    Località
    Gozo, Malta
    Messaggi
    4,347
    Segui must su Twitter Aggiungi must su Google+ Aggiungi must su Facebook Aggiungi must su Linkedin
    mando un'email ad un ingegnere di google e ti faccio sapere.




  25. #25
    Banned
    Data Registrazione
    Apr 2005
    Messaggi
    2,096

    Ecco quello che era andato perso

    2 preliminare

    2.1 web model

    (quà ci sono un po' di cose matematiche, quindi provo a sintetizzare quello che ho capito io, Non necessariamente sarà corretto quello che dico)

    Noi modelleremo il web come un grafo G=(V, E) che consiste in un set V di N pagine (vertici) ed un set E di link diretti (edges) che connettono le pagine. Praticamente una pagina web p può avere multipli hyperlink HTML ad un'altra pagina q. in questo caso noi compattiamo questi hyperlink multipli in un singolo link (formula matematica vedi documento originale). Rimuoveremo inoltre i link verso il sito stesso(self hyperlinks). La figura 1 rappresenta un grafo web molto semplice di quattro pagine e quattro links. (per il nostro esperimento nella sezione 6, distribuiremo i siti web come contrapposizione alle pagine web individuali. Comunque il nostro algoritmo puòessere trasferito anche al caso in cui i vertici del grafo siano interi siti.

    Ogni pagina ha alcuni links in ingresso o inlinks, ed alcuni link in uscita o outlinks.

    (adesso spiega la lunga formula matematica che segue nel documento originale, lascio agli esperti la spiegazione di queste formule io mi limito a tradurre il testo dove si parla in "Chiaro" ).

    ----snip--------
    Le pagine che non hanno inlinks sono chiamate unreferenced pages. Le pagine senza outlinks sono chiamate non-referencing pages. Le pagine che allo stesso tempo sono ureferenced e non-referencing sono chiamate isolated (isolate).

    La pagina 1 nella figura 1 è una unreferencing mentre la 4 è non-referencing.

    (NDT: Adesso ci sono frmule matematiche e taglio)

    -------snip--------

    2.2 Page Rank

    il page rank è il noto algoritmo che usa le informazioni dei link per assegnare un punteggio globale di importanza a tutte le pagine del web.
    siccome il nostro algoritmo ha una relazione con il page rank questa sezione offre una breve descrizione di esso.

    L'intuizione alla base del Page Rank è che una pagina è importante se altre diverse pagine importanti puntano verso di essa.
    Corrispondentemente, il Page Rank è basato su un mutuo rafforzamento tra le pagine: l'importanza di certe pagine influenza ed è influenzata dall'importanza di altre pagine.

    (NDT: Adesso c'e la formula del page rank e la sua spiegazione matematica)

    ----snip-----

    Da questo momento il punteggio di alcune pagine p è la somma di due componenti, una parte del punteggioo viene dalle pagine che puntano verso p, ed un'altra parte (statica) del punteggio è uguale per tutte le pagine web.

    Il punteggio di page rank può essere stimato iterativamente, per esempio con il metodo jacobi. Allo stesso tempo, in senso strettamente matematico,
    l'iterazione può andare verso la convergenza, ma in pratica è molto comunemente usato un numero fisso di M iterazioni.

    E' importante notare che mentre il normale algoritmo di Page Rank assegna lo stesso valore statico ad ogni pagina, la versione Bisead (non so come tradurlo suppongo una cosa del tipo "a due valori") del page Rank può sottrarsi a questa regola.

    (NDT: adesso c'una equazione e la spiega così)

    Il vettore d è un vettore di distribuzione statica arbitrario, non negativo che si somma ad uno. il vettore d può essere usato per assegnare un valore statico Non-zero solamente ad un set di pagine "speciali".
    Il punteggio di tali pagine speciali viene esteso durante l'iterazione con le pagine alle quali puntano.

    ---------------------------------------------------------------------------------

    3 assegnazione del TRUST (fiducia, credito)

    3.1 Oracle (oracolo,previsione) e funzioni di Trust

    Come detto nella sezione 1 stabilire se una pagina è spam è una cosa soggettiva e richiede la valutazione umana. Noi formalizziamo la nozione di controllo umano con una oracle function O sopra tutte le pagine (formula matematica)

    ---snip-----

    La figura 2 rappresenta un piccolo web di sette pagine dove le pagine buone sono rappresentate in bianco e le pagine cattive sono nere. Per questo esempio chiamando l'oracle nella pagina 1 alla 4 produrrà un valore di 1.

    La chiamata all'oracle è dispendiosa e impiega tempo, così noi ovviamente non vogliamo usare l'oracle function in tutte le pagine allora il nostro obbiettivo è di selezionare, ad esempio, chiedendo l'intervento umano di un esperto che valute solo alcune delle pagine web.

    Per scoprire le pagine buone senza invocare l'oracle function, ci dovremo fidare di una importante osservazione empirica che chiamiamo "approximate isolation" di un buon set: Le pagine buone raramente puntano a pagine cattive, questa nozione è onestamente intuitiva -le pagine cattive sono costruite per imbrogliare i motori di ricerca non per fornire informazioni utili. D'altro canto le persone che creano pagine buone hanno poche ragioni per puntare alle pagine cattive.

    Per quanto i creatori di buone pagine web possono a volte essere ingannati, così noi potremo trovare alcune pagine buone che puntano a pagine cattive nel web. (nella figura 2 mostriamo uno di questi link dalla pagina 4 alla pagina 5 segnato con un asterisco).

    Consideriamo il seguente esempio:

    Prendiamo un buon, ma non moderato, message board, lo spammer può includere il l'URL dellla sua pagina spam come parte di un messaggio che sembra innocente.
    Di conseguenza la pagina buona della message board avrà un link ad una pagina cattiva.

    A volte anche alcuni siti di spam offrono cò che viene chiamato vaso di miele, cioè un insieme di pagine che forniscono utili informazioni ma che hanno anche dei link verso le loro pagine di spam, il vaso di miele attrae le persone a puntare verso di esso aumentando il rank della pagina spam.

    Da notare che la relazione inversa (NDT:non sono sicuro di avere tradotto bene)all'isolamento approssimato no è necessariamente influente: le pagine spam possono infatti fare spesso un link alle pagine buone. Per esempio i creatori di pagine spam puntano ad importanti pagine buone al fine di creare un "vaso di miele" oppure sperando che molti outlinks potranno aumentare lo score della loro pagina.

    Per valutare le pagine senza fare assegnamento su O, noi stimeremo che con tutta probabilità quello che dà la pagina p sia buono.

    Più formalmente definiremo la Trust function T che produrrà un range di valori compreso tra 0 (cattivo) e 100 (buono). Idealmente , per ogni pagina p, T(p) ci darà la probabilità che p sia buona

    Ideal Trust Property

    (c'è una formula e poi la spiega)

    Per illustrare ciò, consideriamo di avere un set di 100 pagine e diciamo che il trust score di ognuna di queste pagine possa essere 0.7.
    Adesso supponiamo di valutare tutte le 100 pagine con la oracle function.
    Allora se T lavora correttamente, per 70 delle pagine in esame l'oracle score potrà essere 1 e per le rimanenti 30 sarà 0.

    In pratica è molto difficile arrivare ad una funzione T con le proprietà dette prima.
    Per quanto, anche se T non misura accuratamente la probabilità che una pagina sia buona ci può essere utile in una funzione che possa ordinare le pagine secondo la loro probabilità di essere buone.

    Questo è, se noi diamo una coppia di pagine p e q, e p ha un trust score basso quanto q , questo indicherà che p è probabilmente meno buona di q.
    Similmente una funzione sarà utile per l'ordinamento dei risultati di una ricerca dando la preferenza alle pagine che sono più probabilmente buone.

    (adesso definiscono la Trust Function e mettono un po' di formule)
    ------snip------

  26. #26
    Banned
    Data Registrazione
    Apr 2005
    Messaggi
    2,096

    Poi avevo fatto un riassunto della parte che macava.

    -----------------------------Sunto parte non tradotta----------------------------



    L'idea di base è quella di riuscire ad identificare i siti buoni e separarli da quelli cattivi, nella parte che ho già tradotto è spiegato abbastanza bene quali sono le definizioni di buoni e cattivi.

    Ora vediamo come "LORO" intendono fare.

    Come prima cosa selezionano tramite un algoritmo i siti che sono sicuramente cattivi da quelli che sono forse buoni.

    L'intervento di un esperto indica all'algoritmo quali sono tra questi ultimi quelli certamente buoni e quelli che sono certamente cattivi.

    Con questo criterio vengono scelti un numero di siti campione dai quali si definirà il valore di trust rank di tutti gli altri siti.

    Il documento parla di 200 siti ma questo numero è solo ipotetico, loro vogliono dimostrare che con 200 siti si può filtrare buona parte del web, ma cio non credo significhi che ne useranno esattamente 200.

    Ora, dopo il pezzo che ho tradotto, vengono introdotti dei parametri che aggiustano la precisione dell'algoritmo.

    Poi iniziano a spiegare l'algoritmo di Trust Rank con un pacco di formule matematiche. Tutto quanto detto sopra serve a scegliere il set di siti campione.

    La cosa interessante per noi sta nella figura 4 che indica come viene passato il trust rank ai siti linkati dai siti campione ponendo 1 il valore di TR di un sito campione e ponendo che questo linki tre siti passerà ad ognuno 1/3 di TR se ne avesse linkati 2 avrebbe passato 1/2 di TR.

    A questo problema del criterio con il quale sceglierli, fanno due ipotesi, la prima basata sul page rank inverso che in breve è questo:

    Un approccio potrebbe essere quello di scegliere come pagine campione quelle (ovviamente tra le buone) basandosi sul numero di link in uscita seguendo cioè più link ci sono in uscita più una pagina è importante (sempre nella determinazione delle pagine campione), però si sono accorti che questo metodo comporterebbe dei problemi, in quanto (dopo una serie di dimostrazioni matematiche) non riuscirebbe a coprire correttamente tutte le pagine.

    L'altro approccio è l'High Page Rank:

    Assumendo che il valore che identifica una pagina come buona o cattiva sia lo stesso per tutte le pagine allora (dicono) è più importante analizzare le pagine che compaiono più in alto nei risultati delle ricerche (cioè quelle con il Page Rank più elevato), non solo questo ma attribuire un valore maggiore a quelle pagine che puntano ad altre con elevato PR.

    ------------------------------------------------------------------------

    Sino a quì la spiegazione della teoria, ora spegano l'esperimento che hanno fatto:


    L'esperimento è stato fatto nell'agosto del 2003, per ridurre la sua complessità non lo hanno fatto a livello di pagine web ma a livello di siti web (comunque dicono che il funzionamento è lo stesso sia per pagine che per siti).

    Hanno fatto una valutazione manuale di un tot di siti per vedere se le loro terie funzionano.

    Per prima cosa hanno paragonato il page rank inverso e l'high page rank, accorgendosi che il sistema migliore per scegliere i siti campione era quello di usare il PR inverso.

    Hanno ordinato i siti per valore di PR inverso poi si sono concentrati sui primi 25.000 controllandoli con l'oracle, la prima cosa che hanno fatto è stata quella di correggere alcuni errori, (gli venivano dati come buoni gli spam engine e loro li hanno rimossi dall'elenco) poi hanno rimosso tutti quei siti che non erano indicizzati nelle maggiori directory (yahoo, DMOZ ecc...) riducendo gli iniziali 25.000 a 7.900 di questi hanno valutato manualmente i primi 1.250 e ne hanno tra questi selezionati 178 da usare come siti campione riuscendo in questo modo ad ottenere il loro obbiettivo di lavorare con un ridotto numero di siti campione.

    Ora spiegano come sono arrivati a questi 178 alla valutazione su una base di 1000 siti scelti secondo questo metodo:

    Hanno preso i siti e li hanno messi in ordine di page rank li hanno divisi in 20 segmenti ognuno con il 5% del totale page rank.
    cioè il primo segmento contenente 86 siti con alto PR, il secondo con i seguenti 665 (che valevano tutti assieme quanto i primi 86) e così via sino al 20° segmento contenente 5 milioni di siti con basso PR.

    Hanno poi selezionato 50 siti random da ogni segmento poi hanno fatto una valutazione manuale per determinare se erano o meno spam. da tutto questo lavoro esce fuori un grafico da dove risulta che su 1000 siti ce ne erano 563 di buona reputazione, 37 di grandi organizzazioni (governativi etc..) 13 di pura pubblicità 135 con varie forme di spam, questi ultimi sono stati considerati i primi cattivi.

    Questi 748 siti sono stati considerati il set di esempio i rimanenti 252 non erano utilizzabili per la valutazione per varie problematiche tipo:

    -Pagine web personali 22
    -Alias 35
    -inesistenti 96
    -Codifica orientale dei caratteri e altro 43.

    Ecco i risultati ottenuti sulla base dei 178 siti campione selezionati.

    Per prima cosa fanno un confronto tra Page Rank e Trust Rank:

    Il risultato è presentato in due grafici che dimostrano come il trust rank riduca enormemente la presenza di spam nei segmenti più importanti, concentrandolo nei segmenti meno importanti ed aumenti la presenza di siti buoni nei segmenti più importanti.

    In parole povere secondo loro la cosa funziona,

    ---------------------------------commento personale---------------

    Credo di avere riassunto abbastanza bene quello che ho capito io, il fatto che ho riassunto non vuol dire che non intendo più tradurre questo documento, ho deciso di farlo con più calma e precisione, inserendo anche i grafici e le formule e poi lo renderò disponibile a tutti (La mia idea è di passarlo a Giorgio in pdf e Lui lo pubblicherà sul sito).

    Io ritengo questo studio molto importante, sia che venga poi effettivamente applicato (per ovvie ragioni) ma anche se non dovesse mai essere usato avrebbe comunque il merito di farci capire quanto siano complicati i meccanismi che vengono usati dai moderni motori di ricerca e di insegnarci a valutare tutto ma proprio tutto quello che può influenzare il posizionamento dei nostri siti.


    Buono studio a tutti !

  27. #27
    User
    Data Registrazione
    Apr 2005
    Località
    Verona
    Messaggi
    712
    Citazione Originariamente Scritto da kerouac3001
    non è detto..probabilmente uno di questi HuB potrebbe essere dmoz..



    siamo a posto, soprattutto con la velocità con cui funziona in Italia, faremo tempo a diventare vecchi prima che google si accorga di noi

    senza pensare che chi ha un posto in dmoz si farà pagare salatissimo un OL 8)

  28. #28
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    42,980
    Visita il canale Youtube di Giorgiotave
    Grazie per le traduzioni
    Cosa bisognerà fare nel 2020? Stiamo affrontanto i vari temi
    Google 2020 | SEO 2020 | E-commerce 2020 | Social 2020 | YouTube 2020

  29. #29
    Banned
    Data Registrazione
    Apr 2005
    Messaggi
    2,096
    Citazione Originariamente Scritto da giorgiotave
    Grazie per le traduzioni
    Prego, è stato un piacere

  30. #30
    mr yak
    Non iscritto

    Parliamone!

    ci sono sviluppi?
    si sa se e quando e come Google ha intenzione di iniziare ad usare la formula?
    poi, dal documento non ho capito bene una cosa:
    il trustrank soppianterà o andrà parallelo al pr?
    e poi:
    così praticamente si creerà un paradiso-dmoz in cui chi è dentro (quindi un solo passaggio tra l'Hub e il sito) sarà anni luce avanti a chi non è dentro?
    (magari... ...io sono già dentro!)
    ancora:
    chi sarà presente sia in dmoz che in yahoo sarà avvantaggiato rispetto a chi è solo in dmoz? a rigor di logica no, perchè comunque rimane che c'è un solo passaggio tra hub e sito, anche se ora il passaggio proviene da 2 hub---o no?
    qualcuno ha qualche altra info please?
    Mr Yak

  31. #31
    Banned
    Data Registrazione
    Apr 2005
    Messaggi
    2,096
    Sviluppi?

    Non lo so, può essere tutto ed il contrario di tutto, magari lo usano già in qualche maniera per vedere la qualità dei links che puntano ad un sito.

    Per quello che ho capito io la questione dei siti "seed" va vista in maniera più ampia, lo studio si basa su 200, ma nulla vieta che Google ne impieghi molti di più o molti di meno, probabilmente ne troveranno per nazione, per lingua ecc.., quindi niente paradiso, solo una serie di siti giudicati autorevoli che porteranno beneficio ad altri siti a loro collegati.

    Secondo me non soppianterà il PR (quello vero) ma sarà, o forse è già, un'altro delle centinaia di fattori che compongono l'algoritmo di Google.

    Ovviamente questa è solo la mia opinione.

  32. #32
    User Attivo L'avatar di must
    Data Registrazione
    Mar 2005
    Località
    Gozo, Malta
    Messaggi
    4,347
    Segui must su Twitter Aggiungi must su Google+ Aggiungi must su Facebook Aggiungi must su Linkedin
    gia'.
    non possiamo sapere cosa fanno di preciso al googleplesk.

    pero' io posso ipotizzare che il trustrank (o qualcosa di molto simile) sia gia' in funzione. e dmoz ha un peso notevole.

    perche' lo ipotizzo?

    perche' per la mia key piu' competitiva i risultati dicono:

    allinanchor:key competitiva: prima pagina
    allintitle:key competitiva: prima pagina
    key competitiva: non esisto
    ()

  33. #33
    Moderatore L'avatar di paolino
    Data Registrazione
    Apr 2005
    Località
    San Cipriano Beach
    Messaggi
    5,058
    l'unica cosa sicura è che di sicuro non si sa niente e per quanto ne sappiamo google potrebbe già usare il Trustrank da un bel pò....

    da un bel pò di tempo molti hanno notato che il PR ormai non influisce più come una volta sul ranking

    il punto è che il PR è la misura della qualità dei link entranti e quindi dal valore del sito....in pratica google aveva visto giusto quando creò il PR dicendo che i fattori on-page non erano molto validi per il ranking e che bisognava guardare a quello "che gli altri siti pensano di te"....

    alcuni dicono che nella formula di ranking si sia abbassato il peso dato al PR questo però vorrebbe dire tornare indietro e non credo google l'abbia fatto....

    credo piuttosto che due sono le possibilità: o google usa un altro indice (oltre o al posto del PR) o il PR della barra è assolutamente fuorviante e fasullo....

  34. #34
    User Attivo L'avatar di must
    Data Registrazione
    Mar 2005
    Località
    Gozo, Malta
    Messaggi
    4,347
    Segui must su Twitter Aggiungi must su Google+ Aggiungi must su Facebook Aggiungi must su Linkedin
    come hai detto tu, google ci vide giusto con il PR, perche' i fattori on-site erano troppo manipolabili.
    ma poi lo sono diventati anche i fattori off-line (leggi network di siti, scambi link), e quindi ha messo un freno con il localrank.
    aggiunge il trustrank perche' sa quanto che in directory come dmoz (ma poi? quale altre?
    ) non entra qualsiasi sito.

    e a questi fattori aggiungine pure un altro migliaio

  35. #35
    User L'avatar di ZioJo
    Data Registrazione
    Jun 2005
    Messaggi
    308

    Sconvolgimento delle serp e trustrank

    Pensate che lo sconvolgimento delle serp dei mesi scorsi (meta' maggio e meta' giugno) puo' essere dovuto dall'entrata in vigore del nuovo brevetto trustrank che ha rivoluzionato tutto?

  36. #36
    User Attivo L'avatar di must
    Data Registrazione
    Mar 2005
    Località
    Gozo, Malta
    Messaggi
    4,347
    Segui must su Twitter Aggiungi must su Google+ Aggiungi must su Facebook Aggiungi must su Linkedin
    no, secondo me quello e' stato solo l'effetto di nuovi filtri antispam.

  37. #37
    Moderatore L'avatar di paolino
    Data Registrazione
    Apr 2005
    Località
    San Cipriano Beach
    Messaggi
    5,058
    comunque in tutto il marasma che s'è creato c'è una sola cosa esatta: il PR della barra è una presa per i fondelli.....un modo per far chiacchierare la gente e purtroppo ancora oggi vedo post su altri forum dove si chiede link da PR 5 o PR 6 e cose del genere....

    per esempio la freshness è più importante del PR (non è un caso che molti domini di 3° livello in testa nelle SERP si fanno linkare da blog PR 2-3)

    altri siti invece con PR alti e/o linkati da PR alti stanno in basso nelle serp

  38. #38
    User L'avatar di ZioJo
    Data Registrazione
    Jun 2005
    Messaggi
    308

    Link a rischio di penalizzazione?

    L'ultima parte della traduzione del testo sul trustrank parla che i link devono essere spontanei e quelli tutti dello stesso tipo sono a rischio di penalizzazione; allora i link del tipo "inserisci la tua struttura" ecc. che rilascia un codice da inserire ( del tipo www.bed-and-breakfast.it ) e che tali portali ricevono in serie a bizzeffe sono a rischio?
    Rischiano anche i siti che linkano?

  39. #39
    Moderatore L'avatar di paolino
    Data Registrazione
    Apr 2005
    Località
    San Cipriano Beach
    Messaggi
    5,058
    personalmente la vedo come una cretinata....se fai una ricerca nel settore adult in inglese vedrai che tutti i siti in testa alle serp sono delle linklist che si fanno linkare proprio tramite quei link "prefabbricati" del tipo copia e incolla

  40. #40
    User L'avatar di ZioJo
    Data Registrazione
    Jun 2005
    Messaggi
    308

    Burla o prossimo cataclisma?

    Citazione Originariamente Scritto da paolino
    personalmente la vedo come una cretinata....se fai una ricerca nel settore adult in inglese vedrai che tutti i siti in testa alle serp sono delle linklist che si fanno linkare proprio tramite quei link "prefabbricati" del tipo copia e incolla
    Evidentemente o la pagina sul trustrank non e' veritiera ed affidabile, o ci sara' un vero e proprio...prossimo cataclisma nelle serp

  41. #41
    Moderatore L'avatar di paolino
    Data Registrazione
    Apr 2005
    Località
    San Cipriano Beach
    Messaggi
    5,058
    no la questione è diversa....i link tutti uguali saranno meno importanti di quelli organici ma questo non significa che i link tutti uguali penalizzeranno un sito, altrimenti certi settori come quello dell'hard subiranno un collasso....

    è un pò come il fatto che i link reciproci valgono meno dei link unidirezionali

  42. #42
    Banned
    Data Registrazione
    Apr 2005
    Messaggi
    2,096

    Re: Burla o prossimo cataclisma?

    Citazione Originariamente Scritto da ZioJo
    Evidentemente o la pagina sul trustrank non e' veritiera ed affidabile, o ci sara' un vero e proprio...prossimo cataclisma nelle serp
    Non è questione se sia veritiera o meno, bisogna ricordarsi che lo studio di cui stiamo parlando è uno studio universitario, che poi Google ha in qualche modo inserito nei suoi brevetti.

    Nessuno di noi poveri mortali sa se, quando, e quanta parte di quello studio venga o sia già stata utilizzata dal MDR.

    L'unica cosa certa è che Google dichiara (almeno a parole) di voler spazzare lo spam dalle sue SERP, per ora c'è riuscito solo in parte.

    Il problema credo sia proprio quello di riuscire con un algoritmo a separare i siti "buoni" da quelli "cattivi" senza penalizzare quelli che hanno una struttura da cattivi ma in realtà sono buoni.

  43. #43
    Moderatore L'avatar di paolino
    Data Registrazione
    Apr 2005
    Località
    San Cipriano Beach
    Messaggi
    5,058
    infatti ha ragione emmebar....

    eliminare tutti i siti che hanno dei bl stereotipati oppure tutti i siti che vengono linkati da blog sarebbe assurdo in quanto chiunque potrebbe linkare un sito in quel modo e così distruggere la concorrenza.....

    il brevetto sul trustrank illustra un algoritmo teorico che per essere applicato nel mondo reale necessità di alcune modifiche non da poco....

    al punto in cui siamo arrivati per quanto riguarda l'attività dei SEO restano solo poche semplici regole: aumento dei contenuti, dei BL, aggiungere dei link in uscita a qualche sito importante a tema, ottimizzare i fattori onpage di rilievo(title, h1, h2, alt tag, title nelle ancore, testo delle ancore, ecc...)

  44. #44
    Utente Premium
    Data Registrazione
    May 2005
    Messaggi
    257
    allinanchor:key competitiva: prima pagina
    allintitle:key competitiva: prima pagina
    key competitiva: non esisto

    Non sò se è il posto giusto visto che la discussione è un altra, comunque vorrei sapere a cosa si riferiscono sono quelle 3 righe in calce postate da must.

    Se non è corretto il mio modo di chiedere spiegazioni per una frase letta ma non attinente al discorso gradirei delucidazioni su come fare

  45. #45
    User Attivo L'avatar di must
    Data Registrazione
    Mar 2005
    Località
    Gozo, Malta
    Messaggi
    4,347
    Segui must su Twitter Aggiungi must su Google+ Aggiungi must su Facebook Aggiungi must su Linkedin
    l'unica cosa che dovresti correggere e' il quote. cosi' si capisce subito che citi qualcosa detto da qualcun'altro.

    ad ogni modo, guarda che bel post ha fatto kerouac3001






    e io rosico.

  46. #46
    User
    Data Registrazione
    Sep 2007
    Messaggi
    19

    trust rank

    Le intenzioni sembrano buone ma credo che la pratica sia ben differente e di difficilissimo utilizzo.
    1- in realtà ancora non sappiamo gli effetti di questo algoritmo; che cambiamenti avverranno e quanto saranno importanti ai fini di un posizionamneto.
    2- il fattore umano da non trascurare. mettere in campo un numero notevole di persone atte a controllare i siti spam rilevati dall'algoritmo sarà un'impresa non da poco e non so quanto commercialmente conveniente visto che google al momento rimane il leader indiscusso.

    A mio giudizio si sta dando troppa importanza a questo "nuovo" algoritmo

    Ciao Alex

  47. #47
    Utente Premium L'avatar di bmastro
    Data Registrazione
    Nov 2007
    Messaggi
    1,940
    Citazione Originariamente Scritto da alex685 Visualizza Messaggio
    Le intenzioni sembrano buone ma credo che la pratica sia ben differente e di difficilissimo utilizzo.
    1- in realtà ancora non sappiamo gli effetti di questo algoritmo; che cambiamenti avverranno e quanto saranno importanti ai fini di un posizionamneto.
    2- il fattore umano da non trascurare. mettere in campo un numero notevole di persone atte a controllare i siti spam rilevati dall'algoritmo sarà un'impresa non da poco e non so quanto commercialmente conveniente visto che google al momento rimane il leader indiscusso.

    A mio giudizio si sta dando troppa importanza a questo "nuovo" algoritmo

    Ciao Alex
    ma hai risposto ad un post vecchio di 3 anni?
    Top Web Hosting - Il Web Hosting ideale per chi ha più siti internet

  48. #48
    User
    Data Registrazione
    Jul 2008
    Località
    Liguria
    Messaggi
    41
    vero, vecchio ma che sappiamo di nuovo?...
    è una considerazione che da tempo ho in mente, visto che di questo si è parlato molto inizialmente ma ad oggi mi pare che neppure tra gli esperti siano venuti a conoscenza di novità sostanziali ...

+ Rispondi alla Discussione

Tag per Questa Discussione

^ Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •  
  • Il codice BB è Attivato
  • Le faccine sono Attivato
  • Il codice [IMG] è Attivato
  • Il codice [VIDEO] è Attivato
  • Il codice HTML è Disattivato
  • Trackbacks Attivato
  • Pingback Attivato
  • Refback Attivato

SEO by vBSEO 3.6.0 PL2 ©2011, Crawlability, Inc.