[Brevetti Google] Google PhraseRank

rinzi

[Brevetti Google] Google PhraseRank

Da poco è disponibile un nuovo brevetto di Google che in Italia sembra esser passato inosservato, Google "PhraseRank".

An information retrieval system uses phrases to index, retrieve, organize and describe documents. Phrases are identified that predict the presence of other phrases in documents. Documents are the indexed according to their included phrases. A spam document is identified based on the number of related phrases included in a document.

Sostanzialmente Google sembra puntare sull'analisi di intere frasi e sul confronto con il contesto del documento per valutare la bontà della pagina.

qui se ne parla brevemente

http://www.seoraffaello.com/blog/promozionesito/2007/01/google-phraserank.html
http://blog.achille.name/2007/01/08/i-nuovi-brevetti-google-il-phraserank/

jardem

@Rinzi said:

Sostanzialmente Google sembra puntare sull'analisi di intere frasi e sul confronto con il contesto del documento per valutare la bontà della pagina.

Grazie Rinzi per la segnalazione...
Il brevetto sembra essere complesso, bisognerà valutere il funzionamento... (se qualcuno, poi... lo traduce)

Da ciò però possiamo dedurre (su questo forum spesso se ne parla) che oramai strade diverse portano allo stessa piazza.

Sarà sempre più importante che le FIGURA PROFESSIONALI CHE SI OCCUPANO DEL WEB COLLABORANO AI PROGETTI DI SVILUPPO:

uso di codice pulito (accessibilità <-> indicizzazione <-> motori ricerca <-> utenti)
design semplice ma gradevole (web design <-> web marketing <-> utenti)
contenuti validi (copywriter <-> motori ricerca <-> utenti )
comunicazione (link <-> motori ricerca <-> utenti )

pastikka

Interessante!!!!

Il problema che, almeno per me, la lettura dell'intero documento risulta un pò complicata :?.

In ogni modo una buona notizia, non trovate???

beke

[LEFT]Qui c'è un buon articolo riassuntivo di William Slawsky che dà qualche informazione in più sul brevetto.
http://www.seobythesea.com/?p=413

Non ho letto il brevetto, ma l'articolo dà modo di capire abbastanza bene l'argomento.

[/LEFT]

maxmin

@beke said:

[LEFT]Qui c'è un buon articolo riassuntivo di William Slawsky che dà qualche informazione in più sul brevetto.

http://www.seobythesea.com/?p=413[/LEFT]

[LEFT]Non ho letto il brevetto, ma l'articolo dà modo di capire abbastanza bene l'argomento.[/LEFT]

Un po complicatuccio.:bho:

phpone

studiate l'inglese e sara' tutto piu' chiaro

maxmin

@phpone said:

studiate l'inglese e sara' tutto piu' chiaro
Colpito e affondato.

beke

[LEFT]Per essere molto semplici e molto sintetici (la seconda purtroppo per necessità), diciamo che se scrivi testi naturali, senza "scrapparli" da altri documenti per riassemblarli in pagine spam, costruite, per esempio, per infilarci delle affiliazioni, non devi preoccuparti.

Se invece lo fai ti conviene armarti di pazienza ed affrontare la lettura del documento, perchè ti riguarda molto da vicino.

[AGGIUNTO] e purtroppo phphone ha ragione, se non conosci l'inglese non hai accesso ad un sacco di informazioni importantissime e ti tocca ad affidarti a traduzioni e riassunti che possono essere incompleti, superficiali e talvolta anche errati.[/AGGIUNTO] [/LEFT]

maxmin

@beke said:

[LEFT]Per essere molto semplici e molto sintetici (la seconda purtroppo per necessità), diciamo che se scrivi testi naturali, senza "scrapparli" da altri documenti per riassemblarli in pagine spam, costruite, per esempio, per infilarci delle affiliazioni, non devi preoccuparti.[/LEFT]

[LEFT]Se invece lo fai ti conviene armarti di pazienza ed affrontare la lettura del documento, perchè ti riguarda molto da vicino.[/LEFT]

Sintetico ma chiarissimo, grazie mille.:)

nbriani

Rinzi, .... grazie! ( anche a te, Beke, quel doc è davvero chiaro e ben fatto!)

Mi era sfuggita questa notizia che trovo davvero molto, molto interessante e determinante nella comprensione di alcuni meccanismi di indexing e ranking che mi "tormentavano" da tempo...

Trovo che l'idea alla base del brevetto è da un punto di vista del "meccanismo tecnico classico" di funzionamento di un mdr una mezza rivoluzione...

Ora è chiaro ed esplicito l'indicizzazione (parlo di quella che costruiscono "fisicamente" i mdr! ) NON avviene piu' a livello di singole "keywords" ma (o anche?) a livello di "Frasi" ...

Ecco spiegato forse il perchè di quelle benedette "stopwords" che da tempo mi tormentavano ... ma quale meccanismo tecnico creava serp cosi' diverse fra "Hotel in Roma", "Hotel Roma", "Hotel a Roma", ecc ecc se gli algoritmi di indicizazione ignorano e non indicizzano le stopwords? In quale "momento" avveniva il legame alle "stopworld", venivano indicizzate? o considerate in fase di generazione degli snippet?

Stavo quasi per testare documenti ottimizzati per le keyword "a" (o "in", o "e"...)

...forse la risposta era ovvia... "L' indicizzazione per frasi" ! Bisognava accorgersene che qualcosa di profondo era cambiato.... (parlo a livello tecnico di funzionamento non tanto in termini di serp)

Una query di ricerca non viene quindi necessariamente scomposta nelle singole keyword che la compongono ne la ricerca dei documenti indicizzati avviene attraverso l'algoritmico confronto dei documenti relativi a ciscuna keyword componente, ma la query viene lavorata e scomposta in "Frasi"... e sono le stesse frasi indicizzate che creano il legame ai documenti che le contengono.

Il ranking poi, non è dato, quindi, da considerazioni a livello di keyword (sia in termini di posizione e forza della singola keyword che in termini di presenza di "Related word" cosi' tanto importanti un tempo) ma a livello di "Frasi" e quindi in merito al numero, al posizionamento, agli anchor, ecc ecc della frase stessa ma anche e soprattutto, par di capire, dalle "Frasi correlate".

Il buon vecchio suggeritore di keywords sembra perdere di importanza nella scelta delle keywords da espandere e su cui puntare ... ora il sistema "vettoriale semantico" che determina l'importanza e la vicinanza (e quindi il ranking) di un documento rispetto alla query lavora per "Frasi" !

C'è da riscrivere la storia.. mi pare!

Si ottengono ottimi risultati anche nei confronti dello SPAM... mi pare semplice come scenario... il keyword stuffing è decisamente morto.. ottime keyword tutte in fila, o sparse in un documento in sequenze non collegabili a "frasi valide" prederminate dal mdr non hanno alcun valore...

E , lo dice il brevetto, non è la ripetizione di keyword a determinare cio' che è spam o meno (quei doc semplicemente non emergono) ma il "Phrase stuffing" (:D ) concetto con cui credo dovremmo confrontarci alla svelta... cioè documenti che contengono un immensità di frasi comuni correlate ad un argomento a rischiare il flag per Spam! ... espandere si ma con giudizio... ma soprattutto: NON COPIARE!!

Infatti una parte derminante del brevetto (e che dovremmo studiare bene) affronta il sistema di generazione delle "FRASI" da indicizzare e delle "Frasi correlate"... il brevetto infatti ci dice derivare da un altro (questo) **"**Phrase identification in an information retrieval system " che descrive le tecniche di analisi e generazione delle "frasi valide" e delle "frasi correlate" all'interno dei documenti ... perchè quelle saranno (analogamente a quanto avveniva a livello di singole keywords) ad dover essere indicizzate.... a questo punto sono studi come quelli di PAOCAVO che dovrebbero cominciare ad illuminarci... Cavone ci sei?

Nicola

beke

[LEFT]Rallenta Nicola

Intanto perchè i due brevetti a cui ti riferisci mi sembra siano entrambi del 2006, quindi relativamente nuovi.
La differenza di risultati fra le serp a due termini e quelle a tre (anche quando uno dei termini è una stop word) è un comportamento osservato da molto più tempo.

Non che il brevetto non sembri interessante, ma penso che la sua applicazione negli algoritmi di ordinamento porterebbe uno di quei terremoti tipo "Florida", che ultimamente non mi pare di avere notato.

[/LEFT]

rinzi

@beke said:

[LEFT]**Rallenta **Nicola

Intanto perchè i due brevetti a cui ti riferisci mi sembra siano entrambi del 2006, quindi relativamente nuovi.
La differenza di risultati fra le serp a due termini e quelle a tre (anche quando uno dei termini è una stop word) è un comportamento osservato da molto più tempo.

Non che il brevetto non sembri interessante, ma penso che la sua applicazione negli algoritmi di ordinamento porterebbe uno di quei terremoti tipo "Florida", che ultimamente non mi pare di avere notato.

[/LEFT]

quoto

albertoseo

Non è che la tecnologia sia già implementata nel mdr?

nbriani

Premesso che qualunque cosa dica o abbia detto il condizionale è d'obbligo ... non sono affatto convinto ( ma non sono certo un esperto nel campo ) che la data del brevetto ci dica nulla sulla data effettiva della sua attuazione che per quanto mi riguarda potrebbe essere avvenuta anche mesi fa oppure mai attuata..

Ribadisco invece come sia stata una specie di personale "folgorazione" poter immaginare una indicizzazione che avviene per frasi e non per keywords singole...

Ogni volta che ho studiato documenti, ho cercato testi e ho scritto relativamente al funzionamento di un MDR e quindi di Google ho sempre letto di come l'attività di crawling generi un archivio di indicizzazione fatto da un elenco alfabetico di ogni singola parola trovata con associati i riferimenti a tutti i documenti che la contengono unitamente a specifici parametri (legati quindi alla posizone o al peso di quella parola nel documento) (piu' qualche altro centinaio di cose che rendano sicuramente piu' complessa la realtà... ma ora non interessa ). Quindi:

Query di singole keyword scatenano semplicemente la ricerca nell'archivio di indicizzazione dei documenti collegati (e presenti fisicamente in server separati) , il loro ordinamento e la presentazione degli snippet.

Query "multikeyword" invece generano tutta una **TIPOLOGIA precisa DI ALGORITMI che ha (oppure ha avuto?) il compito di comparare i documenti trovati in base ai pesi ed ai parametri trovati per ciascuna singola keyword... **dal mio punto di vista, questo è un paletto tecnologico che ha formato un intera generazione di SEO.... **da questo meccanismo derivano infatti molte indicazioni "tipiche" legate alla vicinanza fra le keywords, alla loro posizione in termini di prominenza, al loro numero , alle parole correlate... ecc ecc **

Cosi' funziona ad esempio il ns Teecno (che in tal caso fa una somma algebrica dei punteggi ottenuti per ciscuna keyword che compone la query) ....

Attraverso un indicizzazione per frasi NON è piu' necessario scomporre la query di un utente ma "rapportarla" al proprio archivio di frasi e di frasi correlate... cio' presuppone un nuovo modo di pensare molti aspetti del SEO...

Ora immaginare che non si tratta di parole singole ma di intere frasi, che non si ragiona per "parole correlate" ma per "frasi correlate" , che troppe frasi correlate ( cioè che deviano da un valore standard precalcolato) diventano indicatori di Spam , che attraverso un analisi per frasi si possa determinare (ne parla esplicitamente) un contenuto duplicato, richiede secondo me un cambio di mentalità SEO !

Mi ha colpito molto per esempio leggere che l'estrapolazione delle frasi NON avviene tramite le query degli utenti, ma tramite l'analisi del testo dei documenti... quindi capire come vengano estrapolate le frasi in un testo da una macchina potrebbe dirci molte cose...

Riguardo le "stopword" se mi trovi una spiegazione altrettanto semplice come ci da questo brevetto, alle serp cosi' diverse relativamente a query che le contengono ...saro' felice di capirla... io sono abbastanza convinto che dipenda proprio da una indicizzazione di frasi : " Hotel a " è esattamente una frase che potrebbe essere indicizzata ...

Nicola

nbriani

C'è una possibile coincidenza-indizio... in questo post si parla di presentazione di Serp e di correzioni di errori...

Da un punto di vista del funzionamento di un MDR , quindi archivio di indicizzazione, ecc ecc ... perchè si arriva a queste due serp?

"Caglieri"

"Ferie a Caglieri"

Nel primo caso Google pur riconoscendo un possibile errore ci mostra i documenti trovati che contengono la parola "Caglieri" ( Caglieri è un cognome esistente)

Nel secondo caso invece Google ci mostra pagine relative solo a "Ferie a Cagliari" e la povera signora Caglieri sparisce...

Come mai? come è possibile se nella seconda query tutte e tre le keywords query sono tutte esistenti? doveva dare 0 risultati e proporre la frase corretta o no?... **sarà mica che la seconda è una frase (magari indicizzata) **....

albertoseo

Tutto ciò implica anche che sarebbe il caso di scrivere sempre frasi sensate. Insomma, tra le altre cose, dovrebbero precipitare nella lista dei risultati supplementari tutte quelle pagine che contengono frasi prive delle stop words. Esempio:

"Casa a Milano" : buono
"Casa Milano": cattivo

robyweb

@nbriani said:

C'è una possibile coincidenza-indizio... in questo post si parla di presentazione di Serp e di correzioni di errori...

Da un punto di vista del funzionamento di un MDR , quindi archivio di indicizzazione, ecc ecc ... perchè si arriva a queste due serp?

"Caglieri"

"Ferie a Caglieri"

Nel primo caso Google pur riconoscendo un possibile errore ci mostra i documenti trovati che contengono la parola "Caglieri" ( Caglieri è un cognome esistente)

Nel secondo caso invece Google ci mostra pagine relative solo a "Ferie a Cagliari" e la povera signora Caglieri sparisce...

Come mai? come è possibile se nella seconda query tutte e tre le keywords query sono tutte esistenti? doveva dare 0 risultati e proporre la frase corretta o no?... **sarà mica che la seconda è una frase (magari indicizzata) **....

interessante ...

è curioso però il fatto che se io cerco

-Caglieri
mi offre la soluzione alternativa e mi da i risultati relativi alla chiave cercata

-a Caglieri
mi offre la soluzione alternativa e i risultati riguardano proprio quella

-ferie Caglieri
addirittura non mi da neanche la soluzione alternativa e mi da direttamente i risultati come se avessi cercato ferie cagliari (ma i risultati di quest'ultima sono diversi in realtà)

paocavo

@nbriani said:

**"**Phrase identification in an information retrieval system " che descrive le tecniche di analisi e generazione delle "frasi valide" e delle "frasi correlate" all'interno dei documenti ... perchè quelle saranno (analogamente a quanto avveniva a livello di singole keywords) ad dover essere indicizzate.... a questo punto sono studi come quelli di PAOCAVO che dovrebbero cominciare ad illuminarci... Cavone ci sei?

Nicola

Ah! ...ecco perchè ieri ho ricevuto questa visita sul mio sito :

Browser Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; Google-TR-4-GT) - Page /Default.asp - mDate 15/01/2007 - mTime 13.37.35 - OS unknown - Referer http://www.google.it/search?sourceid=navclient&hl=it&ie=UTF-8&rls=GGIC,GGIC:2006-49,GGIC:it&q=paolo+cavone - UA Netscape - UAVersion 4.00 - UserIP 72.14.192.13 (United States - California - Mountain View - Google Inc)

E già... sembra proprio che dovremo fare i conti con l'analisi semantica delle frasi e saranno queste da dover posizionare . Grazie 1000 per i link appena posso mi studio tutto!!

nbriani

@paocavo said:

Ah! ...ecco perchè ieri ho ricevuto questa visita sul mio sito :

ok, aspettiamo anche le tue considerazioni quindi, ... ah! dimenticavo... se ti assumono non ti scordare degli amici!

Nicola

paocavo

@nbriani said:

ok, aspettiamo anche le tue considerazioni quindi, ...

Durante le feste natalizie io e (il grande) Agoago abbiamo discusso in pvt approfonditamente sull'argomento: "rilevazione delle frasi più semanticamente rilevanti di un documento nel dominio (i.e. in relazione al/del) documento stesso e nel (in relazione a) *dominio *di Internet". Abbiamo deciso di rendere pubblica questa discussione ed a breve la pubblicherò in un 3D a parte nella sezione Laboratorio SEO.

Stay tuned...

@nbriani said:

ah! dimenticavo... se ti assumono non ti scordare degli amici!
Nicola

seee...magari!!