+ Rispondi alla Discussione
Pagina 2 di 2 PrimaPrima 12
Risultati da 51 a 55 di 55

L'intelligenza Artificiale come potrebbe migliorare i motori di ricerca?

Ultimo Messaggio di paocavo il:
  1. #51
    Esperto L'avatar di agoago
    Data Registrazione
    Apr 2005
    Messaggi
    481
    Grazie Nbriani per i complimenti, oltre a fare sempre piacere, aiutano.

    Due considerazioni.

    Tutto si evolve, gli algoritmi dei motori e le tecniche dei seo.
    Se fino ad oggi l'attenzione si focalizzava sulle key ora man mano si sta spostando sulle keyphrase.

    Capire la differenza tra le due e' fondamentale.

    La seconda considerazione e' che una o piu' keyphrase sono facilmente identificabili all'interno di un testo da chi e' del mestiere, una keyphrase puo' corrispondere ad una key di forte rilevanza ma anche ad alcuni termini che per posizione nel testo, frequenza, prossimita' ad altre parole "forti" finiscono con l'assumere veramente un micro riassunto del testo del quale fanno parte.

    Siccome i seo sono persone estremamente pratiche, e' di facile previsione prevedere che i piu' preferiranno fare uso di tools ad hoc piuttosto che testare le pagine manualmente.

    Fin qui tutto semplice, il vero problema nasce dopo, quando si deve-dovra' scegliere la "filosofia" del tool da adottare-sposare.

    In teoria ci potremmo trovare a dover scegliere tra tre diverse "filosofie", tre linee di pensiero, anche se poi in pratica sono solo due.

    ---

    Avremo chi ci propone l'estrapolazione delle keyphrase in base a precise formule matematiche statistiche. In questo caso il wm A ed il wm B usando questa categoria di tool avranno sullo stesso testo Z sempre lo stesso identico risultato. Perche' e' un risultato oggettivo.

    Alcuni tool invece ci proporranno di creare un nostro modello.
    Dovremo scegliere qualche centinaio di documenti, analizzarli manualmente, definire per ogni documento quali sono per noi le migliori keyphrase di ogni documento, e poi dare in pasto il tutto al tool.
    Il tool, in base alle nostre scelte imparera' cosa intendiamo noi per keyphrase e da ora in avanti cerchera' di riprodurre (sui nuovi documenti) le nostre scelte umane in modo automatico. Lo fara' basandosi anche lui su delle basi statistiche matematiche di massima, ma formule che si tarano-adatteranno alle nostre scelte.
    Il risultato sara' pertanto soggettivo e se il modello del wm A differisce da quello del wm B ecco che i 2 wm, per il documento Z, potrebbero ottenere 2 risultati parzialmente o addirittura totalmente diversi.

    ------

    Purtroppo per noi seo, non e' questa la questione difficile, diremo ancora allora che fin qui... tutto facile.

    Il vero problema sara' capire quale strada sceglieranno i motori.
    Non e' una finezza, come a prima vista potrebbe sembrare, ma l'aspetto piu' importante.

    Se i motori useranno un loro modello, modello basato su loro personalissime analisi e scelte, sara' piu' difficile per il mondo seo identificare la metodologia di scelta delle keyphrase di ogni motore.

    I motori allora saranno il wm A e noi il wm B.

  2. #52
    Esperto L'avatar di nbriani
    Data Registrazione
    May 2005
    LocalitÓ
    Guadalajara, Mexico
    Messaggi
    1,944
    Segui nbriani su Twitter Aggiungi nbriani su Google+ Aggiungi nbriani su Facebook Aggiungi nbriani su Linkedin Visita il canale Youtube di nbriani
    Citazione Originariamente Scritto da agoago Visualizza Messaggio
    Il vero problema sara' capire quale strada sceglieranno i motori.
    Non e' una finezza, come a prima vista potrebbe sembrare, ma l'aspetto piu' importante.

    Se i motori useranno un loro modello, modello basato su loro personalissime analisi e scelte, sara' piu' difficile per il mondo seo identificare la metodologia di scelta delle keyphrase di ogni motore.
    Sono d'accordo con te.

    Ma credo che per Google si dovrebbe dire "capire quale strada hanno scelto i motori" !!!

    Sono convinto fermamente infatti che il cammino sia giÓ stato intrapreso..

    E anche sul tipo di cammino, io una idea me la sono fatta e ci credo abbastanza per piu' ragioni fondamentali:

    1) Nell'affrontare questo tipo di problematiche nella sua seppur breve storia passata ha sempre seguito un "criterio", un "metodo" di base: utilizzare l'enorme DB di contenuti che ha per creare, testare e "normalizzare" i propri algoritmi

    2) C'Ŕ un brevetto che descrive esattamente un possibile metodo di estrapolazione e indicizzazione delle "keyphrases"


    Sostanzialmente i punti fermi che emergono dal brevetto sono infatti:

    --> Le frasi si estrapolano dai documenti archiviati (non, come si poteva anche immaginare, dalle query di ricerca)

    --> Le frasi si distinguono in "buone" e "cattive" (forse meglio "valide" e "inutili") - Le "buone" sono quelle da indicizzare - le cattive si "scartano" (?)

    In funzione di :

    Citazione Originariamente Scritto da nbriani
    - numero di occorrenze sul totale
    - alta frequenza di co-occorrenze di ulteriori frasi "valide" correlate
    - "tipo di occorrenza" ... parlo di virgolette, grassetti, punteggiatura delimitante, sottolineatura, colore, evidenziato, ecc ecc


    - Ma come procede all'estrapolazione? Nell'analisi di un nuovo documento il testo viene scomposto (con criteri che tu conosci sicuramente meglio di me ) in una sorta di lettura "virtuale" in singole frasi da 3,4,5 keyword , che diventano "potenziali candidati" a "Frase valida" fino al confronto (immediato) con gli archivi di indicizzazione ... trovata la frase, si continua la "lettura del testo" da quel punto ricorsivamente fino alla fine del documento.


    Niente analisi logica? Niente considerazioni particolari? ..parrebbe di no, o almeno in misura minore... solo un mero lavoro statistico, favorito dai grandi numeri e dalle grandi risorse disponibili.. Puro "rinforzo reciproco" x frasi ... io ci credo. Tu?

    Anche i cluster piu' che semantici parrebbero "statistici" , definiti cioŔ dalle occorrenze e dalle co-occorrenze incontrate nell' "universo" ...



    Quindi il tool di cui parli , in definitiva, dovrebbe avere il compito di "simulare" l'enorme archivio di Google, e quindi sarebbe tanto migliore quanto potesse espandere il proprio raggio di intervento su un numero sempre piu' grande di documenti appartenenti al cluster di interesse del SEO di turno
    Mi pare che ne avevamo giÓ parlato in un altro thred... ma cosa di meglio che analizzare i primi n risultati di una query o di un gruppo di query?? Quello si che sarebbe un tool eccezionale..

    Se non lo fate voi due, chi lo deve fare??


    Nicola



    Citazioni utilizzate:

    [0041] 1. Phrase Identification

    [0042] The phrase identification operation of the indexing system 110 identifies "good" and "bad" phrases in the document collection that are useful to indexing and searching documents. In one aspect, good phrases are phrases that tend to occur in more than certain percentage of documents in the document collection, and/or are indicated as having a distinguished appearance in such documents, such as delimited by markup tags or other morphological, format, or grammatical markers. Another aspect of good phrases is that they are predictive of other good phrases, and are not merely sequences of words that appear in the lexicon


    [0049] Traverse the words of the document with a phrase window length of n, where n is a desired maximum phrase length. The length of the window will typically be at least 2, and preferably 4 or 5 terms (words). Preferably phrases include all words in the phrase window, including what would otherwise be characterized as stop words, such as "a", "the," and so forth. A phrase window may be terminated by an end of line, a paragraph return, a markup tag, or other indicia of a change in content or format.

    [0050] FIG. 3 illustrates a portion of a document 300 during a traversal, showing the phrase window 302 starting at the word "stock" and extending 5 words to the right. The first word in the window 302 is candidate phrase i, and the each of the sequences i+1, i+2, i+3, i+4, and i+5 is likewise a candidate phrase. Thus, in this example, the candidate phrases are: "stock", "stock dogs", "stock dogs for", "stock dogs for the", "stock dogs for the Basque", and "stock dogs for the Basque shepherds".


    [0051] In each phrase window 302, each candidate phrase is checked in turn to determine if it is already present in the good phrase list 208 or the possible phrase list 206. If the candidate phrase is not present in either the good phrase list 208 or the possible phrase list 206, then the candidate has already been determined to be "bad" and is skipped.

    c'Ŕ pure un "Angelo" che aveva tradotto il brevetto...

  3. #53
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    LocalitÓ
    Lecce, Italy
    Messaggi
    1,012
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da nbriani Visualizza Messaggio
    Niente analisi logica? Niente considerazioni particolari? ..parrebbe di no, o almeno in misura minore... solo un mero lavoro statistico, favorito dai grandi numeri e dalle grandi risorse disponibili.. Puro "rinforzo reciproco" x frasi ... io ci credo. Tu?
    Analisi logica? non credo sia una strada possibile sopratutto tenendo conto che lo dovrebbe fare per la maggior parte delle lingue del Pianeta! (e solo per una Ŕ un casino...).
    Quello che serve in prima battuta Ŕ determinare i Nouns (Soggetto e i complementi oggetto).
    Spontaneamente il "rinforzo reciproco" (metodo statistico) aiuta non poco a determinare queste informazioni sui concetti presenti nel testo. Se poi si aggiungono metodi probabilistici (basati sul teorema di Bayes) ed ontologie pre-costituite (WordNet, OpenCyc, ecc...) allora la determinazione di reti semantiche Ŕ un gioco ...(si fa per dire...)


    ...
    Mi pare che ne avevamo giÓ parlato in un altro thred... ma cosa di meglio che analizzare i primi n risultati di una query o di un gruppo di query?? Quello si che sarebbe un tool eccezionale..
    Se non lo fate voi due, chi lo deve fare??

    Nicola
    mmmhh...con tutto lo spam presente i giro... la vedo dura...

    Ad ogni modo leggete cosa ha detto P. Norving (Direttore della "Search Quality" di Google) due settimane fa ad un seminario intitolato "Il futuro del Search"

    PS: Grazie per la fiducia


  4. #54
    User
    Data Registrazione
    May 2005
    Messaggi
    440
    Un ragionamento corretto non sempre corrisponde alla realtÓ. Il fatto che un metodo di misura sia pi¨ semplice non significa che gli altri siano inutili.

    Se devi misurare la velocitÓ di un corridore, utilizzi due fotocellule a 1 metro di distanza. O comunque misuri lo spazio percorso nell'unitÓ di tempo.

    Se devi calcolare la velocitÓ di una stella (ovvero qualcosa di cosý lontano che non sai nemmeno calcolarne la distanza), misuri lo spostamento verso il rosso nello spettro elettromagnetico della radiazione (il red-shift).

    Se devi mettere in moto un oggetto, non ti baserai su nessuno dei due principi fisici bensý su altri ancora.

    Misurare la velocitÓ di un oggetto, e far si che un oggetto raggiunga una tale velocitÓ sono due cose completamente diverse.

    Se si deve creare un mdr, allora, forse, l'analisi logica Ŕ il metodo pi¨ complesso.

    Le markov chains, ad esempio, creano frasi partendo da una grammatica "statistica" che non tiene conto di alcuni particolari. Ad esempio il punto pu˛ seguire (quasi) qualsiasi cosa. L'insieme delle frasi corrette Ŕ un sottinsieme di quelle possibili, e un sovrainsieme di quelle esistenti. Inoltre presto si inizierÓ a creare spam per confondere i motori di ricerca. Infine bisogna tener conto della confusione che nasce dall'html non w3c <span position "absolute" top: 5px>prova</span>to. Che voleva dire l'utente? Provato o prova sopra e to sotto.

  5. #55
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    LocalitÓ
    Lecce, Italy
    Messaggi
    1,012
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Salve ragazzi,
    dalla discussione ne Ŕ stata estratta una nuova, ecco il link del 3D:

    >> Ontologie, Phraserank e Tool Semantici

+ Rispondi alla Discussione
Pagina 2 di 2 PrimaPrima 12

^ Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •  
  • Il codice BB Ŕ Attivato
  • Le faccine sono Attivato
  • Il codice [IMG] Ŕ Attivato
  • Il codice [VIDEO] Ŕ Attivato
  • Il codice HTML Ŕ Disattivato
  • Trackbacks Attivato
  • Pingback Attivato
  • Refback Attivato

SEO by vBSEO 3.6.0 PL2 ©2011, Crawlability, Inc.