Nbriani scrive:
"- il primo punto fondamentale: come si riconoscono le frasi di un testo di un documento ipertestuale ? .. quali sono i concetti base? l'uso della punteggiatura, l'utilizzo delle congiunzioni , delle stopwords, l'utilizzo dei
tag h1, h2, h3 o altro, come cambia o come va reinterpretato?
e correlato, come si distinguono le frasi in una query?"
E' la domanda giusta, la prima domanda che ci si deve porre.
Ho conoscenza di alcune discussioni che ipotizzano-consigliano le stopkey e le congiunzioni (oltre alla classica punteggiatura) come parametro ulteriore per definire-limitare una frase (pezzi di frasi magari dentro un frase piu' lunga).
E' una scelta importante fatta a priori da chi opera in questo settore, ma non c'e' una regola comune.
Per certo questa scelta condizionera' ogni risultato finale.
Questo aspetto e' importante, perche' e' la classica variabile-scelta che, essendo personale, non permette a priori, a nessuno di noi, di esser certo di come si comportera' in merito un motore.
Credo sia la discussione piu' importante dell'intera faccenda, e per discuterne non bisogna essere degli esperti. Per questo motivo e' difficile trovare un accordo comunemente ritenuto valido.
"- cosa possiamo dire e come possiamo ragionare , in relazione alla costruzione di un testo, pensando che il
MDR esegue le sue analisi di rilevanza e di indicizzazione delle frasi a livello globale e non sul ns singolo testo .... domanda: cio' vuol dire che si devono utilizzare possibilmente frasi a) corrette b) diffuse c) tipicamente legate all'argomento ????"
Le frasi devono essere corrette, indubbiamente.
Per una verifica da poveri io uso word office, lavorando man mano sulle parole sottolineate di rosso.
Sul diffuso non mi esprimo, credo sia indifferente... diffuso vuol dire che e' corretto, ma basta che un originale sia corretto e varra' anche di piu'.
Legate all'argomento... e' il salto di qualita', la vera rivoluzione.
"- Un altro punto cruciale è quindi il concetto legato alla individuazione di frasi "buone" (e frasi "Cattive ") ...cioè frasi con sufficente frequenza e simile tipologia di utilizzo. Vale quanto sopra?"
Le frasi buone sono quelle frasi che contengono termini in tema con l'argomento trattato dal sito. Rinforzano le key a tema che le frasi contengono al loro interno.
"- Poi dovremo parlare di criteri di rilevanza e classificazione di frasi : basterà utilizzare gli stessi criteri che utilizzavamo per le
keywords? (prominenza, presenza in tag precisi,
url, dominio.... ecc)"
No, il discorso e' simile ma si complica. Se una frase tratta cani in un sito di cani vale 10, se tratta automobili in un sito di cani vale 1.
Diciamo che prima una key in una pagina prendeva valore dalla sua pagina di appartenenza cosi' come ora una frase in una pagina prende valore dalla corrispondenza tra il suo tema ed il tema del sito.
"-Parlando poi di co-occorrenza di frasi il brevetto parla chiaramente di cluster di concetti e di ranking di documenti legati alla presenza di frasi correlate aspettate all'interno di un documento... come individuare le migliori frasi correlate?"
Ad occhio e croce, stabilito il tema prevalente in un sito si valorizza ogni frase valutando se tratta o meno quel dato argomento.
"...mi pare di capire che ogni documento (di un dominio?) viene associato ad un numero limitato di "sentenze" (formate da frasi correlate intorno ad un concetto) e che indicizzazioni successive di documenti che matchano le stesse sentenze verranno considerate contenuto duplicato.... questo vuol dire cercare di caratterizzare le pagine di un sito per "sentenze" ?"
Un esempio, una domanda.
Io wm A scrivo una frase sui cani (per primo) e la pubblico sul mio sito. Sito di scarso valore che tratta di automobili.
Poi arriva il wm B con un sito di alto valore e la riporta identica sul suo sito.
Sito pero' che tratta di hotel.
Poi arriva il wm C e la copia sul suo sito di medio valore, sito pero' che tratta di cani.
Chi sara' in cima alle
serp per quella frase?
Il futuro e' C, prima era A o forse B.
"- Infine lo
spam: mi pare di capire che il metodo si riferisca allo spam da "long tail
spam engine" ... si parla infatti di siti individuatri grazie all'elevato (fuori deviazione standard) numero di "Frasi buone" presenti... se la media è 30/40 per sito probailmente un sito che ha 1000/2000 cluster di frasi è probabile che sia un bello spam ... ( o una "povera" e semplice directory?

)"
Directory,
blog e siti che ospitano spazi gratuiti non saranno penalizzati oltremodo, in quanto da anni sono valutati a parte.
Anche lo span non ne risentira', se sara' praticato dominio per dominio, ogni dominio con un suo tema molto specifico, con una o 2 keyword trattata al massimo.
"Voi che dite?"
E' una rivoluzione, e' il classico
algoritmo che ci si aspetta prima o poi da
Google.
Google ha un suo modo di intervenire-condizionare-interpretare il web un po' fascistoide, a volte quasi arrogante, a dir poco presutuoso... al limite dell'indisponente, molti diranno... tutta invidia! E forse e' cosi'.
Questo atteggiamento e' tipico delle vere stars, perche' sanno di essere tali.
Perche' anche questa ennesima volta Google ha pieno diritto di ritenersi star?
--
Il rinforzo reciproco ci spiega come una frase valga di piu' rispetto ad un'altra frase contenuta in uno stesso documento a seconda che contenga nel suo interno nessuna, poche o tante parole di valore.
Il rinforzo reciproco ci spiega come una parola valga di piu' rispetto ad un'altra parola a seconda che sia-appartenga-appaia in frasi di basso, medio, alto valore.
Rinforzo reciproco, appunto.
Per semplificare il concetto potremmo dire:
"Un termine è tanto più rilevante quanto più è elevato
il numero di frasi rilevanti a cui appartiene,
allo stesso tempo, una frase è tanto più rilevante
quanti più termini rilevanti essa contiene."
Questo assioma e' perfetto per dare l'idea di base di cosa stiamo parlando, ma in pratica:
"Un termine è tanto più rilevante quanto più è elevato,
il numero moltiplicato per il valore medio, delle frasi rilevanti a cui appartiene,
allo stesso tempo, una frase è tanto più rilevante quanto più è elevato
il numero moltiplicato per il valore medio, dei termini rilevanti che essa contiene."
Andando oltre si potrebbe ipotizzare:
"Un termine è tanto più rilevante quanto più è elevata la sua vicinanza ad un termine di valore superiore,
allo stesso tempo, una frase è tanto più rilevante quanto più è elevata la sua vicinanza ad una frase di valore superiore."
--------
Questi concetti, apparentemente logici e coerenti, in realta', nella realta', risentono di un limite-difetto che in pratica ne annulla i benfici.
Per supplire a questa mancanza-limite-difetto dovremmo introdurre un ulteriore concetto-assioma:
"Un termine o una frase è tanto più irrilevante quanto più si allontana dal valore del picco della gaussiana disegnata dai valori di tutti i termini e di tutte le frasi di un documento.
---------
Per capire questo concetto pensiamo ad un sito che tratti di cani, ed ad una sua pagina che contenga la seguente frase:
I cani spesso gironzolano con altri cani, cani che a volte mordono quei cani che si comportano veramente da cani!
Si capisce al volo come questo ultimo assioma serva a ridimensionare-escludere alcune frasi o termini in caso di spam-forzature (volute o meno).
-----
Tornando al discorso del perche' Google sia una star, possiamo tranquillamente dire che lo sia perche' Google applica alcune, tutte, moltre altre di queste "regole" partendo dal presupposto che un documento non sia solo una pagina, un solo sito, ma il web tutto.
Google e' in grado di pesare una nostra frase considerando come fosse un unico documento tutto il web.
Non la frase in una nostra pagina, non una frase in un nostro sito, ma una frase nel web.
---------
Veniamo ai soldoni, a quello che di fatto interessa ai
seo.
Non sappiamo cosa e come Google consideri una frase a se stante.
Non sappiamo quali regole precise Google applichi per calcolare il reciproco rinforzo, delle frasi e dei termini.
Non sappiamo quando un dato valore per Google diventi spam.
Sappiamo che per quanto noi potremmo analizzare-pesare le frasi di un nostro sito non avremo mai un'idea precisa del loro valore, noi lavoriamo per pagine-siti, Google per tutto il web.
Detta cosi' ci si scoraggia, non si sa nulla, se non poca teoria, e pertanto non si sa come raccappezzarsi.
----
Ora, dopo tutta questa filippica, i pochi irriducibili esausti che hanno letto tutta la pappardella si aspettano come minimo che un coniglio spunti dal cappello.
Il problema e' che non solo ci si aspetta il coniglio, ma giustamente, essendo dei professionisti seri, ci si aspetta anche di come e del perche' il coniglio spunti dal nulla.
Chiedo scusa, ma stanchissimo mostro il coniglio e scappo, nei prossimi
post, se interessati, discuteremo del come e del perche'.
---
Il coniglio in questione e' un sito monotematico formato da pochissime pagine di lunghezza medio lunga, 25-45k di testo, frasi originali.
Che fregatura... chi ha siti assolutamente monotematici, chi ha un sito di poche pagine, chi ha quelle poche pagine lunghe ed esaustive, chi ha scritto ogni suo testo di proprio pugno?
Eravamo abituati a conoscere un nuovo algoritmo per i titoli e cambiavamo i titoli... per la density e cambiavamo la density, un nuovo trucco per nascondere il testo e ci adeguavamo... ma era sempre scontato che si dovesse-potesse andare avanti e non che si dovesse ridimensionare tutto.
Sito con tante pagine significa sito con tante frasi.
Sito con tante frasi significa sito con tanti temi.
Sito con tanti temi significa sito con tante keyword diverse.
Sito con tante keyword diverse significa frasi con basso valore, frasi non significative.
Sito con frasi poco significative significa keyword non valorizzate nel loro interno.
Sito con tante frasi ma un unico tema significa stesse keyword ripetute ovunque.
Stesse keyword ripetute in tante frasi significa spam.
Il reciproco rinforzo per tantissimi wm diventera' man mano reciproca penalizzazione.
--------
Google, nel caso in discussione, non ha fatto che applicare la formula per bollire il riso in bianco. Formula che pero' terra' conto anche di dove e da chi ogni chicco di riso viene prodotto e cucinato sul web.
Da qui Google star!!
---------
Ultimissima considerazione.
Pensate alla moda.
Pensate al design.
Etc.
In molti settori si vive di
cicli e ricicli.
Ivan Graziani, avrebbe detto tricicli (ma avrebbe anche potuto aggiungere catarro che andava bene lo stesso, Galileo Galilei dei nostri tempi).
I
motori di ricerca non sono da meno.
Piu' sei grosso piu' vali, poi piu' sei originale piu' vali, poi piu' sei specifico piu' vali, piu' sei specifico e piccolo piu' vali, piu' sei specifico ed orginale piu' vali, piu' sei specifico originale grosso e lincato a tema e piu' vali, piu' sei specifico definito ma esauriente ed
hub e piu' vali... via discorrendo.
Ogni 6 mesi mediamentre spostano i soliti mobili annunciando un nuovo arredamento, ma a forza di spostarli prima o poi si ritroveranno con i mobili posizionati nella posizione di partenza. Buona cosa del resto.
----------
Chiudo il post ringraziando di cuore Paocavo ed uMoR, per validi motivi miei.
Due persone che stimo (e sia ben chiaro, mi piace la gnocca

).