Markov chain [lavoriamoci assieme]

kerouac3001

Markov chain [lavoriamoci assieme]

Low in un altro post ha citato un approfondimento che grazie all'aiuto di positano ho potuto studiare un pochino.

L'algoritmo è molto semplice (correggetemi se sbaglio):

prendiamo un testo abbastanza lungo
dividiamo questo testo in coppie di parole (o in triple o in quadruple, etc.. l'unico inconveniente è che più alziamo il numero più ci servirà un testo più grande..altrimenti rischieremo di non avere un output abbastanza ampio)
mettiamo le coppie di parole come indice di un database e abiniamo ad ogni coppia un vettore contenente l'elenco delle parole successive a tale coppia. Esempio:

Dario ha un cane bianco che tiene chiuso in un recinto. Il cane bianco di Dario non farebbe male ad una mosca. Anche io avevo un cane bianco che scodinzolava sempre.

Fingiamo di avere questo testo e di doverne fare un array (a 2 dimensioni)
Creiamo dunque un vettore (vettore1) che contenga tutte le coppie presenti nel testo (Dario ha | ha un | un cane | cane bianco | bianco che | ...). Dopo di che creiamo un nuovo array che abbia come indice le varie coppie del vettore1 e abiniamo ad ogni coppia un vettore contenente tutte le possibili parole successive a tale coppia. Es:

Array['cane bianco'] -> ('che', 'di', 'che')

Scegliamo una coppia di parole iniziale (tra quelle presenti nel testo) e facciamo la ricerca sull'array. Esempio:

Array['cane bianco'] -> ('che', 'di', 'che')

Nell'esempio abbiamo trovato che cane bianco può essere seguito dalle parole 'che', 'di', 'che'..scegliamo a caso una di esse e la scriviamo nel testo della doorway. Mettiamo che sia uscita la parola 'che' la nostra doorway conterrà il testo cane bianco che.

Prendiamo come nuova coppia la combinazione formata dalle ultime 2 parole del testo della doorway "bianco che" e cerchiamole nuovamente nell'array (4)..otterremo il seguente vettore:

Array['bianco che'] -> ('tiene', 'scodinzolava')

Scegliamo a caso una delle parole presenti nel vettore e l'aggiungiamo al testo della doorway e procediamo così finchè non otteniamo un vettore vuoto o non abbiamo raggiunto un limite massimo di parole preimpostato.

Io sono pronto a partire con lo script php, ma prima gradirei aggiunte e consigli.

Vi faccio notare che la coppia "cane bianco" e la coppia "cane bianco." sono diverse. Questo perchè se fosse considerate uguali la parola successiva a cane bianco. verrebbe considerata come possibile continuazione di cane bianco. Inoltre grazie a questa decisione avremo una punteggiatura pulita.

P.S. purtroppo io non capisco l'inglese benissimo (certamente non tnto da leggermi una spiegazione del funzionamento di uno script), positano mi ha tradotto l'articolo. Quindi al 50% è merito suo

P.P.S. Se mi confermate la validità dell'algoritmo e se mi fate altre aggiunte io vi posso già confermare che tale algoritmo è stupidissimo da fare tramite php.

P.P.P.S. Scusate ho postato nella sezione sbagliata. Meglio laboratotio Seo. Chi mi sposta?

lowlevel

@kerouac3001 said:

Io sono pronto a partire con lo script php, ma prima gradirei aggiunte e consigli.

Sull'algoritmo non c'è altro da dire, perché è quello.

Sulla parametrizzazione, consiglio di usare coppie, come nel tuo esempio, e non triple o serie più lunghe.

Ha senso nutrire l'algoritmo con un testo sconosciuto dai motori oppure con un mix di testi già conosciuti ma diversi tra loro.

Fare attenzione alle similitudini con i testi originari è molto importante. E' meglio evitare che il documento originario e quello prodotto usino esattamente gli stessi termini.

positano

Sulla parametrizzazione, consiglio di usare coppie, come nel tuo esempio, e non triple o serie più lunghe.
Nel tradurre l'approfondimento che tu postasti, mi sembra di aver capito (per quello che io riesca a capire nella mia maccheronica traduzione), che inserire triple forse era meglio, il testo assumeva più naturalezza, tue esperienze in merito? Ne racconti un esempio se ti è possibile?
Ha senso nutrire l'algoritmo con un testo sconosciuto dai motori oppure con un mix di testi già conosciuti ma diversi tra loro.
Magari prelevando dati (testo) da materiale cartaceo inerente all'argomento!?!
Fare attenzione alle similitudini con i testi originari è molto importante. E' meglio evitare che il documento originario e quello prodotto usino esattamente gli stessi termini.
Questo vale se il materiale è conosciuto ai mdr giusto?

kerouac3001

@positano said:

Sulla parametrizzazione, consiglio di usare coppie, come nel tuo esempio, e non triple o serie più lunghe.
Nel tradurre l'approfondimento che tu postasti, mi sembra di aver capito (per quello che io riesca a capire nella mia maccheronica traduzione), che inserire triple forse era meglio, il testo assumeva più naturalezza, tue esperienze in merito? Ne racconti un esempio se ti è possibile?
Ha senso nutrire l'algoritmo con un testo sconosciuto dai motori oppure con un mix di testi già conosciuti ma diversi tra loro.
Magari prelevando dati (testo) da materiale cartaceo inerente all'argomento!?!
Fare attenzione alle similitudini con i testi originari è molto importante. E' meglio evitare che il documento originario e quello prodotto usino esattamente gli stessi termini.
Questo vale se il materiale è conosciuto ai mdr giusto?

Le triple non sono tanto meglio da giustificarne l'utilizzo. Secondo me se le doppie producono un testo corretto al 50% le triple lo producono corretto al 75%..le quadruple all'85%..eccetera..ovvero si avicinano sempre più lentamente al 100%

Però direi che le doppie hanno il pregio di una maggiore velocità (dovuta al minor testo richiesto per produrre una doorway di pari lunghezza)..inoltre non verranno scoperte dal mdr in ogni caso (a meno che non le legga un essere umano)

La similitudine vale anche per materiale non presente nell'mdr se protetto da copyright.

In ogni caso l'algoritmo prevede la possibilità (remota) che la doorway sia identica al testo originale. ovviamente tale probabilità scende a zero quando ci sono molte coppie uguali in un testo.

P.S. Parto con lo script e appena lo finisco lo pubblico online e mi dite se secondo voi l'output è buono

lowlevel

@positano said:

Sulla parametrizzazione, consiglio di usare coppie, come nel tuo esempio, e non triple o serie più lunghe.
Nel tradurre l'approfondimento che tu postasti, mi sembra di aver capito (per quello che io riesca a capire nella mia maccheronica traduzione), che inserire triple forse era meglio, il testo assumeva più naturalezza, tue esperienze in merito? Ne racconti un esempio se ti è possibile?

Quando feci i test sulle Markov chain (anni fa) utilizzai diversi accorgimenti. A partire da quali documenti usare per nutrire l'algoritmo e da come usarli.

E' vero che aumentando la lunghezza della sequenza si ottengono testi più naturali, ma questa naturalezza maggiore deriva dal fatto che il testo prodotto estrapola sequenze più lunghe dai documenti di partenza.

In altre parole, quello che si guadagna in naturalezza si perde in unicità dei testi prodotti. Usando sequenze più lunghe non solo si ottiene un documento più simile a quello originale ma sopratutto si ottengono documenti più simili tra loro in quanto, ricordiamolo, l'obiettivo è quello di partire da un testo per crearne molteplici.

Pertanto i test che feci in passato si basavano su due principali parametri: sequenze di due termini e combinazioni di documenti originari.

La combinazione di documenti originari è importante per garantire che i documenti prodotti non usino tutti lo stesso identico vocabolario.

Quindi io prendevo cinque documenti originari (A B C D E) tutti sullo stesso argomento e producevo più di una pagina usando, per ciascuna delle pagine prodotte, dele fonti diverse.

Esempio: la prima pagina veniva basata sui documenti A e B, la seconda su A e C, la terza su A e D, la quarta su A ed E, la quinta su B e C, e così via... (queste combinazioni possono essere estese usando anche tre documenti originari invece di due).

Procedendo in questo modo, non esisteranno due documenti prodotti che usano lo stesso vocabolario. Questo è molto importante, perché io stesso ho progettato algoritmi per il calcolo della similarità di due documenti che si basano sul vocabolario usato dai documenti. Vocabolari identici conducono ad una similarità del 100%.

Le sequenze di due termini invece le scelsi per evitare che i documenti prodotti presentassero sequenze troppo lunghe di termini identici ai documenti originari (che nel mio caso erano già conosciuti al motore).

Magari prelevando dati (testo) da materiale cartaceo inerente all'argomento!?!

E' un buon metodo anche questo, ma va unito alla combinazione delle fonti, altrimenti si ottengono di nuovo documenti troppo simili tra loro.

paolino

c'è questo articolo http://www.mathworks.com/company/newsletters/news_notes/clevescorner/oct02_cleve.html

parla del PR in termini di Markov Chain.....

P.S. l'ultima volta che ho avuto a che fare con Markov era per gli algoritmi di riconoscimento vocale e m'è venuto un gran mal di testa

kerouac3001

Finito. http://www.spinder.it/keygen/

Ho usato la guida di Low e come seed iniziale la coppia posizionamento di. Il testo della guida di Low è 22kb e già produce un output "abbastanza" diverso dall'originale.

Ciò che mi sorprende è che funziona..cioè è incredibile come il testo sia una lingua verosimilmente italiana..si piena di errori, ma non troppi..si nota che non è del tutto casuale. Al massimo sembra scritta da un cretino, ma è un linguaggio abbastanza simile all'italiano.

Ovviamente lo script è free per tutti gli amici di gt appena lo miglioro lo metto online con una guida minima all'utilizzo. Ma prima gradirei una vostra opinione sul testo prodotto. (e sulla velocità della produzione).

Le variabili iniziali che ho settato sono:
$seed = "Posizionamento di";
$max_parole = 100;

Se volete posso tentare un miglioramento di questo tipo:
creo una variabile ($ottimizza) in cui potete settare una parola per cui volete ottimizzare il testo.
Se quella parola è presente tra le scelte possibili (come continuazione della coppia), allora verrà scelta..altrimenti verrà scelta una parola a caso tra le possibili (come già avviene).

Sarebbe utile?

kerouac3001

Paolino..io e l'inglese non andiamo d'accordo, ma mi sono già commosso leggendo quell'articolo:

The limiting probability that a dedicated random surfer visits any particular page is its PageRank.

positano

Ho usato la guida di Low e come seed iniziale la coppia posizionamento di. Il testo della guida di Low è 22kb e già produce un output "abbastanza" diverso dall'originale.
Prova a compararlo col tool di LowLevel stesso e vedi che risultato ti dà.
Ciò che mi sorprende è che funziona..cioè è incredibile come il testo sia una lingua verosimilmente italiana..si piena di errori, ma non troppi..si nota che non è del tutto casuale. Al massimo sembra scritta da un cretino, ma è un linguaggio abbastanza simile all'italiano.

Se volete posso tentare un miglioramento di questo tipo:
creo una variabile ($ottimizza) in cui potete settare una parola per cui volete ottimizzare il testo.
Se quella parola è presente tra le scelte possibili (come continuazione della coppia), allora verrà scelta..altrimenti verrà scelta una parola a caso tra le possibili (come già avviene).

Sarebbe utile?
Credo proprio di si, anzi la porrei come variabile di scelta nell'input, aspetto altre autorevoli risposte.

kerouac3001

@positano said:

Prova a compararlo col tool di LowLevel stesso e vedi che risultato ti dà.

Qual'è questo tool?

positano

@kerouac3001 said:

@positano said:

Prova a compararlo col tool di LowLevel stesso e vedi che risultato ti dà.

Qual'è questo tool?
Ecco i link inserendo l'indirizzo del primo (originale) ed il secondo (quello prodotto dallo script) verrà fuori se tra i due (pagine web) c'è similarità.
http://tool.motoricerca.info/analizzatore-similarita.phtml

kerouac3001

C'è una similarità del 36% circa tra il testo prodotto e quello originale. C'è inoltre una similarità del 12% circa tra 2 testi prodotti.

Dato che il testo fornito è poco direi che già va abbastanza bene.

Però vorrei saperlo da voi vabene così o è troppo simile?

lowlevel

Quale pagina hai usato come fonte?

Il 36% è poco, ma conta che quel tool misura solo alcuni tipi di similarità.

creo una variabile ($ottimizza) in cui potete settare una parola per cui volete ottimizzare il testo.
Se quella parola è presente tra le scelte possibili (come continuazione della coppia), allora verrà scelta..altrimenti verrà scelta una parola a caso tra le possibili (come già avviene).

Il fatto che venga scelta sempre non è una buona cosa. A seconda dei testi, si rischia che venga fuori un bel (e palese) keyword stuffing. Io farei in modo di aumentere la probabilità di scelta di una parola (in percentuale), a scelta dell'utente.

kerouac3001

@LowLevel said:

Quale pagina hai usato come fonte?

Il 36% è poco, ma conta che quel tool misura solo alcuni tipi di similarità.

creo una variabile ($ottimizza) in cui potete settare una parola per cui volete ottimizzare il testo.
Se quella parola è presente tra le scelte possibili (come continuazione della coppia), allora verrà scelta..altrimenti verrà scelta una parola a caso tra le possibili (come già avviene).

Il fatto che venga scelta sempre non è una buona cosa. A seconda dei testi, si rischia che venga fuori un bel (e palese) keyword stuffing. Io farei in modo di aumentere la probabilità di scelta di una parola (in percentuale), a scelta dell'utente.

Ho usato il 75% della tua guida..non una sola pagina. Tu ad occhio come lo vedi? Secondo te è meglio se amplio il testo? per ora è 22kb di testo..vediamo quanto ne serve per avere un testo meno simile all'originale?

Comunque l'idea della percentuale è ok. Metto dunque una variabile che permette di settare (se si vuole) una key per cui ottimizzare e faccio in modo che ogni volta che in un array si presenta la combinazione parola1 parola2 $key, si aggiunge automaticamente un altra occorrenza $key all'indice.

Così se per esempio abbiamo l'array:

Array['cane bianco'] -> ('che', 'di', 'che')

e vogliamo ottimizzare per la key 'che', aggiungiamo un 'che' per ogni occorrenza della key 'che' nell'array e otteniamo:

Array['cane bianco'] -> ('che', 'che', 'di', 'che', 'che')

in questo modo le probabilità che esca $key aumentano, ma non sono elevatissime (soprattutto negli array con molte parole)

Fammi sapere se secondo te è ok..io intanto mi riposo (troppo pc) e dopo proseguo l'ottimizzazione dello script

kerouac3001

Ho apportato le modifiche descritte prima (ma non ho allungato il testo originale). Inoltre ho inserito una funzione che trasforma la prima lettera dopo un punto nella corrispettiva maiuscola Così google non si accorge di nulla.

umor

Consiglio mio:
dopo il . metti un bel \n (non
).

Per il resto mi sembra buono..

kerouac3001

Ottima idea. Sto anche pensando di creare una funzione che impedisca di chiudere una parentesi quando non c'è una parentesi aperta e di aprire una parentesi (e di mettere un punto) quando c'è ancora una parentesi aperta.

E magari una cosa simile per le virgolette.

Che ne dite? Sto esagerao col perfezionismo?

positano

Quoto LowLevel, e aspetto anch'io una sua autorevole risposta su quando da te scritto qui sopra.Mi correggo nella pagina precedente.
Sul tuo perfezionismo continua continua

umor

Secondo me per il discorso punteggiatura (inteso come parentesi o segni scarsamente utilizzati) ti conviene fare un'espressione regolare o qualcosa del genere e rimuovere direttamente cià che non è sintatticamente corretto.

Aggiungerei dei filtri sulla densità delle chiavi, mettiamo che fai una doorway basata su un testo di 15 mega byte sui cani pazzi, non credi che la parola cani pazzi apparirà troppe volte ?

Oppure becchi del testo sfigato tipo:
"Il cane il il il il pazzo manga il il il il il il il gelato il con il il il becco il."

Penso che il risultato sarebbe qualcosa tipo:
"il il il il il" non trovi ?

Allora secondo me conviene ragionare diversamente:
io con questo algoritmo genero 1500 frasi su un determinato argomento, mi creo dei filtri (tipo anti duplicazione e cose cosi) e ne elimino un tot (probabilmente ne rimarranno diciamo la metà, o meno).
Da qui verifico per dire densità e cose del genere, in base alla statistica media di tutti i siti nelle serp di G per una determinata chiave, se rientro nei parametri allora prendo le frase rimaste per generare x pagine.

All'incirca ci siamo capiti ?
Poi le idee sono infinite, io non darei il codice in giro a tutti, sono sicuro che tanti ne farebbero cattivo uso

kerouac3001

@uMoR said:

Secondo me per il discorso punteggiatura (inteso come parentesi o segni scarsamente utilizzati) ti conviene fare un'espressione regolare o qualcosa del genere e rimuovere direttamente cià che non è sintatticamente corretto.

Aggiungerei dei filtri sulla densità delle chiavi, mettiamo che fai una doorway basata su un testo di 15 mega byte sui cani pazzi, non credi che la parola cani pazzi apparirà troppe volte ?

Oppure becchi del testo sfigato tipo:
"Il cane il il il il pazzo manga il il il il il il il gelato il con il il il becco il."

Penso che il risultato sarebbe qualcosa tipo:
"il il il il il" non trovi ?

Allora secondo me conviene ragionare diversamente:
io con questo algoritmo genero 1500 frasi su un determinato argomento, mi creo dei filtri (tipo anti duplicazione e cose cosi) e ne elimino un tot (probabilmente ne rimarranno diciamo la metà, o meno).
Da qui verifico per dire densità e cose del genere, in base alla statistica media di tutti i siti nelle serp di G per una determinata chiave, se rientro nei parametri allora prendo le frase rimaste per generare x pagine.

All'incirca ci siamo capiti ?
Poi le idee sono infinite, io non darei il codice in giro a tutti, sono sicuro che tanti ne farebbero cattivo uso

Secondo me la tua idea è troppo complessa e incasinata

cmq ho appena implementato un codice per gestire le parentesi tonde, ma adesso ovviamente serve un testo più lungo per generare un output abbastanza lungo.

quando dici "io con questo algoritmo genero 1500 frasi su un determinato argomento," vuoi dire che hai creato uno script del genere :O? o è un esempio?

P.S. Il testo sfigato non capiterà perchè lo sceglie un uomo non una macchina. (infatti per l'esempio ho scelto il testo di low perchè è molto ordinato..mette addirittura il punto prima di andare accapo! )