Ti sei perso il VI Convegno gt? Forse puoi rimediare... www.convegnogt.it X Chiudi
 
Forum GT: Condividiamo idee e conoscenza Forum GT: Condividiamo idee e conoscenza


Condividi questo contenuto nei Social Network:
Ti stiamo aspettando: Registrati subito e gratis. Entra a far parte di una delle comunità più attive in Italia. Se hai dimenticato i tuoi dati li puoi recuperare subito.


Vai indietro   Forum per Webmaster: Condividiamo Idee e Conoscenza > Seo e Tecnologie > SEO Focus
Benvenuto! Forum Regole FAQ Lista utenti Calendario Segna come letti

SEO Focus Osservatorio Avanzato - [Sezione ad invito]

Hey Amico Visitatore,
Condividi con noi le tue idee e la tua conoscenza Aprendo una nuova discussione nella sezione SEO Focus


Rispondi
 
LinkBack (4) Strumenti di discussione
Vecchio 15-01-07, 19:03   #16 (permalink)
User
 
Data di registrazione: Oct 2006
Messaggi: 228
Invia un messaggio tramite Yahoo a AlbertoSeo
Tutto ciò implica anche che sarebbe il caso di scrivere sempre frasi sensate. Insomma, tra le altre cose, dovrebbero precipitare nella lista dei risultati supplementari tutte quelle pagine che contengono frasi prive delle stop words. Esempio:

1. "Casa a Milano" : buono
2. "Casa Milano": cattivo
AlbertoSeo non in linea  
Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Segnalo this Post!OKNO this Post!
Rispondi citando
Vecchio 15-01-07, 19:21   #17 (permalink)
User
 
Data di registrazione: Sep 2006
Messaggi: 160
Quote:
nbriani
C'è una possibile coincidenza-indizio... in questo post si parla di presentazione di Serp e di correzioni di errori...

Da un punto di vista del funzionamento di un MDR , quindi archivio di indicizzazione, ecc ecc ... perchè si arriva a queste due serp?


"Caglieri"

"Ferie a Caglieri"

Nel primo caso Google pur riconoscendo un possibile errore ci mostra i documenti trovati che contengono la parola "Caglieri" ( Caglieri è un cognome esistente)

Nel secondo caso invece Google ci mostra pagine relative solo a "Ferie a Cagliari" e la povera signora Caglieri sparisce...

Come mai? come è possibile se nella seconda query tutte e tre le keywords query sono tutte esistenti? doveva dare 0 risultati e proporre la frase corretta o no?... sarà mica che la seconda è una frase (magari indicizzata) ....
interessante ...

è curioso però il fatto che se io cerco

-Caglieri
mi offre la soluzione alternativa e mi da i risultati relativi alla chiave cercata

-a Caglieri
mi offre la soluzione alternativa e i risultati riguardano proprio quella

-ferie Caglieri
addirittura non mi da neanche la soluzione alternativa e mi da direttamente i risultati come se avessi cercato ferie cagliari (ma i risultati di quest'ultima sono diversi in realtà)
__________________
armadietti spogliatoio
robyweb non in linea  
Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Segnalo this Post!OKNO this Post!
Rispondi citando
Vecchio 16-01-07, 17:14   #18 (permalink)
Moderatore
 
L'avatar di paocavo
 
Data di registrazione: Mar 2006
Ubicazione: Lecce, Italy
Messaggi: 1,007
Quote:
nbriani
"Phrase identification in an information retrieval system " che descrive le tecniche di analisi e generazione delle "frasi valide" e delle "frasi correlate" all'interno dei documenti ... perchè quelle saranno (analogamente a quanto avveniva a livello di singole keywords) ad dover essere indicizzate.... a questo punto sono studi come quelli di PAOCAVO che dovrebbero cominciare ad illuminarci... Cavone ci sei?


Nicola
Ah! ...ecco perchè ieri ho ricevuto questa visita sul mio sito :

Browser Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; Google-TR-4-GT) - Page /Default.asp - mDate 15/01/2007 - mTime 13.37.35 - OS unknown - Referer http://www.google.it/search?sourceid=navclient&hl=it&ie=UTF-8&rls=GGIC,GGIC:2006-49,GGIC:it&q=paolo+cavone - UA Netscape - UAVersion 4.00 - UserIP 72.14.192.13 (United States - California - Mountain View - Google Inc)



E già... sembra proprio che dovremo fare i conti con l'analisi semantica delle frasi e saranno queste da dover posizionare . Grazie 1000 per i link appena posso mi studio tutto!!


Ultima modifica di paocavo : 16-01-07 17:16.
paocavo non in linea  
Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Segnalo this Post!OKNO this Post!
Rispondi citando
Vecchio 16-01-07, 17:17   #19 (permalink)
ModSenior
 
L'avatar di nbriani
 
Data di registrazione: May 2005
Ubicazione: Firenze
Messaggi: 1,938
Invia un messaggio tramite MSN a nbriani Invia un messaggio tramite Skype a nbriani
Quote:
paocavo
Ah! ...ecco perchè ieri ho ricevuto questa visita sul mio sito :
ok, aspettiamo anche le tue considerazioni quindi, ... ah! dimenticavo... se ti assumono non ti scordare degli amici!


Nicola
__________________
Web Marketing Consultant

Focus on:
IV Convegno GT !
nbriani non in linea  
Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Segnalo this Post!OKNO this Post!
Rispondi citando
Vecchio 17-01-07, 11:03   #20 (permalink)
Moderatore
 
L'avatar di paocavo
 
Data di registrazione: Mar 2006
Ubicazione: Lecce, Italy
Messaggi: 1,007
Quote:
nbriani
ok, aspettiamo anche le tue considerazioni quindi, ...
Durante le feste natalizie io e (il grande) Agoago abbiamo discusso in pvt approfonditamente sull'argomento: "rilevazione delle frasi più semanticamente rilevanti di un documento nel dominio (i.e. in relazione al/del) documento stesso e nel (in relazione a) dominio di Internet". Abbiamo deciso di rendere pubblica questa discussione ed a breve la pubblicherò in un 3D a parte nella sezione Laboratorio SEO.

Stay tuned...

Quote:
nbriani
ah! dimenticavo... se ti assumono non ti scordare degli amici!
Nicola
seee...magari!!
paocavo non in linea  
Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Segnalo this Post!OKNO this Post!
Rispondi citando
Vecchio 17-01-07, 11:06   #21 (permalink)
User
 
L'avatar di Rammo
 
Data di registrazione: May 2006
Messaggi: 418
Ragazzi questa discussione è davvero interessante..
..leggo leggo..
__________________
Hai sentito parlare delle Gt Stats?
Rammo non in linea  
Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Segnalo this Post!OKNO this Post!
Rispondi citando
Vecchio 17-01-07, 12:51   #22 (permalink)
Moderatore
 
L'avatar di paocavo
 
Data di registrazione: Mar 2006
Ubicazione: Lecce, Italy
Messaggi: 1,007
Quote:
paocavo
Abbiamo deciso di rendere pubblica questa discussione ed a breve la pubblicherò in un 3D a parte nella sezione Laboratorio SEO.

Stay tuned...

Ecco la discussione:
http://www.giorgiotave.it/forum/labo...eneration.html
paocavo non in linea  
Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Segnalo this Post!OKNO this Post!
Rispondi citando
Vecchio 18-01-07, 08:31   #23 (permalink)
ModSenior
 
L'avatar di nbriani
 
Data di registrazione: May 2005
Ubicazione: Firenze
Messaggi: 1,938
Invia un messaggio tramite MSN a nbriani Invia un messaggio tramite Skype a nbriani
Una notte insonne era cio' che ci voleva per poter affrontare con calma quella davvero interessante discussione che ti ringrazio di averci postato e pure gli altrettanto interessanti documenti e tools del tuo sito...

Pare proprio che i Vs studi siano davvero fortemente correlati ai brevetti legati all'indicizzazione per Frasi. Ottimo!

Non ho capito se anche Agoago lavora o ha Tool simili ai tuoi ma mi è parso nella discussione che il suo interesse va maggiormente verso la clusterizzazione e la rilevanza semantica di keywords e gruppi di keywords di un testo piuttosto che nella estrapolazioni di frasi predominanti si ma pure di senso compiuto e di rilevanza di contenuto, come mi pare siano piu' orientati i tuoi studi e il tuo interessantissimo tool Summarizer...

Magari se Agoago interverrà potrà farmi capire meglio le premesse di quella discussione e il tipo di lavoro e di strumenti che utilizza.

Visto il topic del thred mi concentrei infatti su alcuni spunti della Vs discussione piu' vicini al concetto e all'argomento "frasi":

Un motore basato sulla indicizzazione di frasi e non di keyword su cui si basano tutti i brevetti che stiamo analizzando è certamente un motore che ha "esigenze" diverse in fase di "spiderizzazione" e pure "vantaggi" e possibilità diverse in fase di ranking e di individuazione di risultati rilevanti (e dello spam!) .

Nella premessa del brevetto si legge:

I Mdr basati sul boolean-matching delle singole keywords di una query hanno limiti conosciuti: Una ricerca come "Pastore Tedesco" mostra documenti ad alto ranking per il termine "tedesco" ma che niente hanno a che fare con i cani che è l'evidente concetto richiesto dall'utente...

Al massimo, (si legge sempre nel brevetto) alcuni sistemi avanzati hanno utilizzato operatori umani per selezionare alcune "frasi" o concetti con cui sono stati indicizzati i documenti ( e questo già spiega molte cose, riguardo a ranking anomali per alcune keyphrases , no? ).

Inoltre tentare la strada del risconoscimento di ogni possibile frase porta a richieste in termini di risorse molto elevate: una lingua formata da 200.000 termini avrebbe 3,2 x10 alla 26 potenza di possibili frasi formate da 3,4,5 parole...

Altri sistemi si sono invece basati sulla co-occorenza analizzata di alcune singole parole detrminate : tipo "Presidente" con "casa" o "bianca" ma anche questo porta a serp che presentano si cluster di concetti ma sempre legati alle singole keyword componenti la query...

Ecco perchè un sistema in grado di rilevare automaticamente frasi su "larga scala" e di indizzare e ordinare i documenti in base alle frasi ai concetti indicizzati puo' essere determinante... da qui il brevetto...

(la prima domanda che ho è : ma quando parlano di mdr basati sull'indicizzazione per frasi, questa è intesa come indicizzazione che sostituisce quella per keyword singole o che la affianca... secondo voi? Certo che se uso una query singola il metodo di information retrieval dovrebbe essere quello classico, no? quindi io le vedrei affiancate... )


Se queste sono le basi , lasciando per un attimo da parte lo sforzo di capire come un mdr lavora per estrapolare, clusterizzare e indicizzare automaticamente frasi in qualunque lingua e di qualunque lunghezza (lasciamo il compito agli ingegneri) , sarebbe incvece interessante sviluppare insieme (agoago? Paocavo? ) alcuni concetti "pratici" e operativi SEO/SEM di base legati ad un simile sistema:

- il primo punto fondamentale: come si riconoscono le frasi di un testo di un documento ipertestuale ? .. quali sono i concetti base? l'uso della punteggiatura, l'utilizzo delle congiunzioni , delle stopwords, l'utilizzo dei tag h1, h2, h3 o altro, come cambia o come va reinterpretato?
e correlato, come si distinguono le frasi in una query?

- cosa possiamo dire e come possiamo ragionare , in relazione alla costruzione di un testo, pensando che il MDR esegue le sue analisi di rilevanza e di indicizzazione delle frasi a livello globale e non sul ns singolo testo .... domanda: cio' vuol dire che si devono utilizzare possibilmente frasi a) corrette b) diffuse c) tipicamente legate all'argomento ????

- Un altro punto cruciale è quindi il concetto legato alla individuazione di frasi "buone" (e frasi "Cattive ") ...cioè frasi con sufficente frequenza e simile tipologia di utilizzo. Vale quanto sopra?

- Poi dovremo parlare di criteri di rilevanza e classificazione di frasi : basterà utilizzare gli stessi criteri che utilizzavamo per le keywords? (prominenza, presenza in tag precisi, url, dominio.... ecc)

-Parlando poi di co-occorrenza di frasi il brevetto parla chiaramente di cluster di concetti e di ranking di documenti legati alla presenza di frasi correlate aspettate all'interno di un documento... come individuare le migliori frasi correlate?

Ho un suggerimento per Cavone: Un tool che analizza i testi dei primi cento documenti di una derminata serp e ne estrapoli le frasi rilevanti (su tutto il campione) magari creando anche dei cluster con frase padre e frasi correlate...

Potemmo cosi' simulare (in piccolo) il MDR nella ricerca delle frasi rilevanti e di quelle corrlate di maggior forza da utilizzare per i ns testi...

- Altro punto interessante e da capire del brevetto è il suo utilizzo nel determinare documenti duplicati (qui al punto 0023): mi pare di capire che ogni documento (di un dominio?) viene associato ad un numero limitato di "sentenze" (formate da frasi correlate intorno ad un concetto) e che indicizzazioni successive di documenti che matchano le stesse sentenze verranno considerate contenuto duplicato.... questo vuol dire cercare di caratterizzare le pagine di un sito per "sentenze" ?

- Infine lo spam: mi pare di capire che il metodo si riferisca allo spam da "long tail spam engine" ... si parla infatti di siti individuatri grazie all'elevato (fuori deviazione standard) numero di "Frasi buone" presenti... se la media è 30/40 per sito probailmente un sito che ha 1000/2000 cluster di frasi è probabile che sia un bello spam ... ( o una "povera" e semplice directory? )

Voi che dite?


Nicola
__________________
Web Marketing Consultant

Focus on:
IV Convegno GT !
nbriani non in linea  
Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Segnalo this Post!OKNO this Post!
Rispondi citando
Vecchio 18-01-07, 15:12   #24 (permalink)
Banned
 
L'avatar di cibino
 
Data di registrazione: Apr 2006
Ubicazione: treviso
Messaggi: 2,236
Invia un messaggio tramite MSN a cibino Invia un messaggio tramite Skype a cibino
dico che non mi è chiarissimo il penultimo punto circa il contenuto duplicato. sentenze? nicola, potresti chiarirmi il concetto, per favore.
cibino non in linea  
Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Segnalo this Post!OKNO this Post!
Rispondi citando
Vecchio 18-01-07, 15:24   #25 (permalink)
User
 
Data di registrazione: Dec 2006
Messaggi: 86
Quote:
nbriani
il keyword stuffing è decisamente morto
Io questo lo sento dire dallo scorso millennio
Atlapur11 non in linea  
Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Segnalo this Post!OKNO this Post!
Rispondi citando
Vecchio 18-01-07, 15:26   #26 (permalink)
Moderatore
 
L'avatar di paocavo
 
Data di registrazione: Mar 2006
Ubicazione: Lecce, Italy
Messaggi: 1,007
"sentenze" (in inglese "sentences") è sinonimo di "frasi"!

paocavo non in linea  
Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Segnalo this Post!OKNO this Post!
Rispondi citando
Vecchio 18-01-07, 15:56   #27 (permalink)
Moderatore
 
L'avatar di paocavo
 
Data di registrazione: Mar 2006
Ubicazione: Lecce, Italy
Messaggi: 1,007
Quote:
nbriani
Una notte insonne era cio' che ci voleva per poter affrontare con calma quella davvero interessante discussione che ti ringrazio di averci postato e pure gli altrettanto interessanti documenti e tools del tuo sito...
Grazie a te per avermi chiamato in causa e rendere possibile tutto ciò!

Quote:
Pare proprio che i Vs studi siano davvero fortemente correlati ai brevetti legati all'indicizzazione per Frasi. Ottimo!
Infatti, quando ho iniziato a leggere il documento sul nuovo brevetto, mi son detto: "wow!! finalmente stanno lavorando sulle frasi e sulla analisi semantica dei testi. Questo è il Web 2.0, altro che ..."

Quote:
Non ho capito se anche Agoago lavora o ha Tool simili ai tuoi ma mi è parso nella discussione che il suo interesse va maggiormente verso la clusterizzazione e la rilevanza semantica di keywords e gruppi di keywords di un testo piuttosto che nella estrapolazioni di frasi predominanti si ma pure di senso compiuto e di rilevanza di contenuto, come mi pare siano piu' orientati i tuoi studi e il tuo interessantissimo tool Summarizer...
eh si! Per il momento il mio obiettivo è analizzare la rilevanza semantica delle frasi di un documento avendo come input il documento stesso. Agoago, giustamente, estende il discorso dicendo che come input dell'analisi dovrebbe essere contemplato il documento stesso in relazione alla totalità dei documenti che costituiscono la "base di conoscenza".

Continua...
paocavo non in linea  
Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Segnalo this Post!OKNO this Post!
Rispondi citando
Vecchio 18-01-07, 16:19   #28 (permalink)
Moderatore
 
L'avatar di paocavo
 
Data di registrazione: Mar 2006
Ubicazione: Lecce, Italy
Messaggi: 1,007
Quote:
nbriani
Al massimo, (si legge sempre nel brevetto) alcuni sistemi avanzati hanno utilizzato operatori umani per selezionare alcune "frasi" o concetti con cui sono stati indicizzati i documenti ( e questo già spiega molte cose, riguardo a ranking anomali per alcune keyphrases , no? ).
in effetti...

Quote:
la prima domanda che ho è : ma quando parlano di mdr basati sull'indicizzazione per frasi, questa è intesa come indicizzazione che sostituisce quella per keyword singole o che la affianca... secondo voi? Certo che se uso una query singola il metodo di information retrieval dovrebbe essere quello classico, no? quindi io le vedrei affiancate...
mi sa di no in quanto, in pratica, si lavorerà sui concetti ed un concetto può essere espresso da una sola parola (nouns). Poi esistono concetti che non hanno ancora un nome...pensa tu!
Il nuovo algoritmo credo andrà a strvolgere e sostituire completamente il vecchio.

Quote:

- il primo punto fondamentale: come si riconoscono le frasi di un testo di un documento ipertestuale ?
Se esiste una "frase" (o un "concetto" relazionato conosciuto) allora si "riconosce"

Quote:
l'uso della punteggiatura, l'utilizzo delle congiunzioni , delle stopwords,
saranno tutte cose fondamentali e da non trascurare quindi cari laureati in Lettere e Filosofia fatevi avanti!

Quote:
l'utilizzo dei tag h1, h2, h3 o altro, come cambia o come va reinterpretato?
come sempre e come sono stati studiati originariamente da chi ha inventato L'HTML.

Quote:
e correlato, come si distinguono le frasi in una query?
al 99% una query è una frase!

Quote:
- cosa possiamo dire e come possiamo ragionare , in relazione alla costruzione di un testo, pensando che il MDR esegue le sue analisi di rilevanza e di indicizzazione delle frasi a livello globale e non sul ns singolo testo .... domanda: cio' vuol dire che si devono utilizzare possibilmente frasi a) corrette b) diffuse c) tipicamente legate all'argomento ????
E' tutto vivamente consigliato ma non dimentichiamo che apprezzano molto concetti nuovi per estendere le loro basi di conoscenza.

continua...
paocavo non in linea  
Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Segnalo this Post!OKNO this Post!
Rispondi citando
Vecchio 18-01-07, 16:25   #29 (permalink)
Moderatore
 
L'avatar di paocavo
 
Data di registrazione: Mar 2006
Ubicazione: Lecce, Italy
Messaggi: 1,007
Quote:
nbriani
Ho un suggerimento per Cavone: Un tool che analizza i testi dei primi cento documenti di una derminata serp e ne estrapoli le frasi rilevanti (su tutto il campione) magari creando anche dei cluster con frase padre e frasi correlate...

Potemmo cosi' simulare (in piccolo) il MDR nella ricerca delle frasi rilevanti e di quelle corrlate di maggior forza da utilizzare per i ns testi...
ci sto già lavorando nel (pochissimo) tempo libero...

paocavo non in linea  
Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Segnalo this Post!OKNO this Post!
Rispondi citando
Vecchio 18-01-07, 16:30   #30 (permalink)
Moderatore
 
L'avatar di paocavo
 
Data di registrazione: Mar 2006
Ubicazione: Lecce, Italy
Messaggi: 1,007
Quote:
nbriani
- Altro punto interessante e da capire del brevetto è il suo utilizzo nel determinare documenti duplicati (qui al punto 0023): mi pare di capire che ogni documento (di un dominio?) viene associato ad un numero limitato di "sentenze" (formate da frasi correlate intorno ad un concetto) e che indicizzazioni successive di documenti che matchano le stesse sentenze verranno considerate contenuto duplicato.... questo vuol dire cercare di caratterizzare le pagine di un sito per "sentenze" ?

- Infine lo spam: mi pare di capire che il metodo si riferisca allo spam da "long tail spam engine" ... si parla infatti di siti individuatri grazie all'elevato (fuori deviazione standard) numero di "Frasi buone" presenti... se la media è 30/40 per sito probailmente un sito che ha 1000/2000 cluster di frasi è probabile che sia un bello spam ... ( o una "povera" e semplice directory? )
Sarebbe interessante il parere di Low ...
paocavo non in linea  
Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Segnalo this Post!OKNO this Post!
Rispondi citando
Rispondi
Tags: ,



Strumenti di discussione

Regole di scrittura
Non puoi postare nuove discussioni
Non puoi rispondere alle discussioni
Non puoi allegare file
Non puoi editare i tuoi post

BB code is Attivo
smilies è Attivo
[IMG] il codice è Attivo
Il codice HTML è Disattivato
Trackbacks are Attivo
Pingbacks are Attivo
Refbacks are Disattivato
Vai al forum

LinkBacks (?)
LinkBack to this Thread: http://www.giorgiotave.it/forum/seo-focus/27025-brevetti-google-google-phraserank.html
Scritto da For Type Data
Brevetti Google: PhraseRank, information retrieval basato sulle frasi This thread Trackback 22-02-07 13:54
hit parade del webmarketing This thread Refback 19-02-07 20:32
» Google PhraseRank - nuovo brevetto - Web Marketing e Posizionamento This thread Pingback 15-01-07 22:26
[Brevetto Google] Google PhraseRank This thread Trackback 15-01-07 13:51



Tutti gli orari sono GMT +3. Attualmente sono le 02:05.




Forum GT - © 2004-2009 GT idea S.r.l P.iva 02418200800 - Privacy/Disclaimer

SEO by vBSEO 3.2.0 ©2008, Crawlability, Inc.