Quote:
|
positano
Quote:
|
Sulla parametrizzazione, consiglio di usare coppie, come nel tuo esempio, e non triple o serie più lunghe.
|
Nel tradurre l'approfondimento che tu postasti, mi sembra di aver capito (per quello che io riesca a capire nella mia maccheronica traduzione), che inserire triple forse era meglio, il testo assumeva più naturalezza, tue esperienze in merito? Ne racconti un esempio se ti è possibile?
|
Quando feci i test sulle Markov chain (anni fa) utilizzai diversi accorgimenti. A partire da quali documenti usare per nutrire l'algoritmo e da come usarli.
E' vero che aumentando la lunghezza della sequenza si ottengono testi più naturali, ma questa naturalezza maggiore deriva dal fatto che il testo prodotto estrapola sequenze più lunghe dai documenti di partenza.
In altre parole, quello che si guadagna in naturalezza si perde in unicità dei testi prodotti. Usando sequenze più lunghe non solo si ottiene un documento più simile a quello originale ma sopratutto si ottengono documenti più simili tra loro in quanto, ricordiamolo, l'obiettivo è quello di partire da un testo per crearne molteplici.
Pertanto i test che feci in passato si basavano su due principali parametri: sequenze di due termini e combinazioni di documenti originari.
La combinazione di documenti originari è importante per garantire che i documenti prodotti non usino tutti lo stesso identico vocabolario.
Quindi io prendevo cinque documenti originari (A B C D E) tutti sullo stesso argomento e producevo più di una pagina usando, per ciascuna delle pagine prodotte, dele fonti diverse.
Esempio: la prima pagina veniva basata sui documenti A e B, la seconda su A e C, la terza su A e D, la quarta su A ed E, la quinta su B e C, e così via... (queste combinazioni possono essere estese usando anche tre documenti originari invece di due).
Procedendo in questo modo, non esisteranno due documenti prodotti che usano lo stesso vocabolario. Questo è
molto importante, perché io stesso ho progettato algoritmi per il calcolo della similarità di due documenti che si basano sul vocabolario usato dai documenti. Vocabolari identici conducono ad una similarità del 100%.
Le sequenze di due termini invece le scelsi per evitare che i documenti prodotti presentassero sequenze troppo lunghe di termini identici ai documenti originari (che nel mio caso erano già conosciuti al motore).
Quote:
|
Magari prelevando dati (testo) da materiale cartaceo inerente all'argomento!?!
|
E' un buon metodo anche questo, ma va unito alla combinazione delle fonti, altrimenti si ottengono di nuovo documenti troppo simili tra loro.