+ Rispondi alla Discussione
Pagina 2 di 2 PrimaPrima 12
Risultati da 51 a 56 di 56

"Gli è tutto sbagliato, tutto da rifare..." (Bartali)

Ultimo Messaggio di paocavo il:
  1. #51
    User Attivo L'avatar di ArkaneFactors
    Data Registrazione
    Feb 2006
    Località
    Antipodi
    Messaggi
    1,483
    Citazione Originariamente Scritto da LowLevel
    Ovviamente a tutte le considerazioni scritte si aggiunge il fatto che il motore poi tiene conto di mille altri parametri.
    Già. Ma è proprio questo che rende il "mestiere dei motori" così avvincente, non è vero?

    Complimenti per il post, è scritto con una chiarezza invidiabile. E' un peccato che tu non faccia l'insegnante.

  2. #52
    User Attivo L'avatar di kerouac3001
    Data Registrazione
    Apr 2005
    Località
    Roma (ma Palermitano sugnu)
    Messaggi
    1,532
    Stamattina ho fatto questo: I.R. Tool..ho seguito alla lettera i consigli di Low, ma aspetto che sia lui a dire se ho sbagliato qualcosa o no. A me sembra che funzioni.

    Direi che creando lo script le idee mi si sono chiarite abbastanza. Ho una sola questione per Low: questo sistema si basa solo sulla frequenza delle parole in un documento e non sulla loro posizione: per esempio se la query è gatto nero in genere il motore di ricerca preferirà i testi in cui le parole gatto e nero sono consecutive e disposte nell'ordine della query ("...gatto nero..." è meglio di "...nero gatto..." e sicuramente è meglio di "gatto ... nero"). La posizione delle parole è un fattore di grande importanza e immagino che google non possa non tenerne conto al momento del calcolo dell'angolo. Infatti non si tratta di una funzione di perfezionamento dei risultati (come può essere la popolarità), ma più che altro deve fare parte del sistema che stabilisce qual'è il grado di pertinenza tra un documento e una query..quindi, detto ciò: come gestisce google questo aspetto e come lo implemento nello script in modo da stabilire quale documento testuale sia più adeguato alla query?

    Un ultima questione: come hai detto tu ho calcolato l'angolo tramite la formula => prodotto scalare diviso il prodotto delle lunghezze

    Dato che la query è necessariamente un sotto insieme del documento sono arrivato alla banale conclusione che il prodotto scalare possa ridursi al prodotto tra i pesi delle varie parole che compongono la query e i corrispettivi pesi nel documento.

    Esempio:

    => query:

    ====> gatto [peso: 0,01]
    ====> nero [peso: 0,05]

    => documento:

    ====> io [peso: 0,03]
    ====> non [peso: 0,05]
    ====> sono [peso: 0,02]
    ====> un [peso: 0,09]
    ====> gatto [peso: 0,002]
    ====> nero [peso: 0,01]

    Da 2 array composti dalle parole che ho elencato e con i pesi che ho elencato, un rapporto scalare tra i due array sarebbe riducibile a:

    query_peso_gatto * documento_peso_gatto + query_peso_nero * documento_peso_nero

    ?

    E' corretto o ho sbagliato a fare il prodotto scalare?

    P.S. allo script ho aggiunto un database in cui memorizzo le frequenze su yahoo per ogni parola chiave..in modo da disturbare yahoo il meno possibile ed accelerare i tempi di esecuzione. Ovviamente ad ogni parola presente nel database ho associato anche la data in cui è stata recuperata, in modo tale da recuperarla nuovamente una volta ogni mese (nell'ipotesi che la frequenza nel web non cambi di molto in un mese).

    P.P.S. per chi volesse usare lo script: non inserite testi lunghi per ora, perchè ancora il database delle frequenze è molto piccolo e quindi con tutta probabilità un documento lungo non permetterà allo script di terminare tutto il lavoro (perchè dovrà fare molte richieste a yahoo). Ho settato il time limit a 240 secondi, ma potrebbe anche fermarsi molto prima.

  3. #53
    Esperto L'avatar di beke
    Data Registrazione
    Mar 2005
    Località
    Firenze
    Messaggi
    1,317
    Citazione Originariamente Scritto da kerouac3001
    ...questo sistema si basa solo sulla frequenza delle parole in un documento e non sulla loro posizione: per esempio se la query è gatto nero in genere il motore di ricerca preferirà i testi in cui le parole gatto e nero sono consecutive e disposte nell'ordine della query ("...gatto nero..." è meglio di "...nero gatto..." e sicuramente è meglio di "gatto ... nero"). La posizione delle parole è un fattore di grande importanza e immagino che google non possa non tenerne conto al momento del calcolo dell'angolo. Infatti non si tratta di una funzione di perfezionamento dei risultati (come può essere la popolarità), ma più che altro deve fare parte del sistema che stabilisce qual'è il grado di pertinenza tra un documento e una query..quindi, detto ciò: come gestisce google questo aspetto e come lo implemento nello script in modo da stabilire quale documento testuale sia più adeguato alla query?
    Forse questo può chiarire un pò idee, occhio che risale al 1998

    http://www.public.asu.edu/~ychen127/...05/anatomy.pdf

    The Anatomy of a Large-Scale Hypertextual Web Search Engine

    4.5.1 The Ranking System


    For a multi-word search, the situation is more complicated. Now multiple hit lists must be scanned through at once so that hits occurring close together in a document are weighted higher than hits occurring far apart. The hits from the multiple hit lists are matched up so that nearby hits are matched together. For every matched set of hits, a proximity is computed. The proximity is based on how far apart the hits are in the document (or anchor) but is classified into 10 different value "bins" ranging from a phrase match to "not even close". Counts are computed not only for every type of hit but for every type and proximity. Every
    type and proximity pair has a type-prox-weight. The counts are converted into count-weights and we take the dot product of the count-weights and the typeprox- weights to compute an IR score. All of these numbers and matrices can all be displayed with the search results using a special debug mode. These displays have been very helpful in developing the ranking system.

  4. #54
    User Attivo L'avatar di ArkaneFactors
    Data Registrazione
    Feb 2006
    Località
    Antipodi
    Messaggi
    1,483
    All of these numbers and matrices can all be displayed with the search results using a special debug mode.
    Beke, tu lo sai, vero, come si fa ad attivare il debug mode di Google?

  5. #55
    Esperto L'avatar di beke
    Data Registrazione
    Mar 2005
    Località
    Firenze
    Messaggi
    1,317
    E come no
    Basta fare la ricerca digitando ~LowLevel dopo la query

    A parte gli scherzi, non è detto che nel 2006 Google utilizzi ancora gli stessi approcci al problema del ranking, tuttavia quello, secondo me, è un documento da leggere, almeno una volta.

  6. #56
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da Schiappa
    Scusate l'ignoranza ma mi sta scoppiando il cervello... sto ancora studiando l'IR ma non riesco a figurarmi la situazione...
    Per me è stato illuminante il libro:

    Intelligenza Artificiale, Autori: S. Russel & P. Norvig. Volume 2 - pgg.555-565 (ISBN 88-7192-229-8 ), Ed. Pearson

    ps: P. Norvig è direttore di "Search Quality" della Google Inc.

    Certo ...bisogna rispolverare qualche formuletta di teoria della probabilità...
    alla fine della fiera si scopre che per avere un buon posizionamento bisogna massimizzare la quantità: A*B dove

    A= probabilità di una query per un dato documento "rilevante"
    B= Indice della "qualità" del documento (dipendente dai famosi fattori arcani: citazioni accademiche, backlink, PR(? ndr), age,...

    la cosa "buffa" è che nella formula è scontato che un documento sia "rilevante"...ergo OTTIMI contenuti!

+ Rispondi alla Discussione
Pagina 2 di 2 PrimaPrima 12

LinkBacks (?)

  1. 17-02-07, 23:04
  2. 15-02-07, 21:45
  3. 16-11-06, 16:35
  4. 09-09-06, 12:53

Tag per Questa Discussione

^ Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •  
  • Il codice BB è Attivato
  • Le faccine sono Attivato
  • Il codice [IMG] è Attivato
  • Il codice [VIDEO] è Attivato
  • Il codice HTML è Disattivato
  • Trackbacks Attivato
  • Pingback Attivato
  • Refback Attivato

SEO by vBSEO 3.6.0 PL2 ©2011, Crawlability, Inc.