Quote:
|
nbriani
- Altro punto interessante e da capire del brevetto è il suo utilizzo nel determinare documenti duplicati ( qui al punto 0023): mi pare di capire che ogni documento (di un dominio?) viene associato ad un numero limitato di "sentenze" (formate da frasi correlate intorno ad un concetto) e che indicizzazioni successive di documenti che matchano le stesse sentenze verranno considerate contenuto duplicato.... questo vuol dire cercare di caratterizzare le pagine di un sito per "sentenze" ?
- Infine lo spam: mi pare di capire che il metodo si riferisca allo spam da "long tail spam engine" ... si parla infatti di siti individuatri grazie all'elevato (fuori deviazione standard) numero di "Frasi buone" presenti... se la media è 30/40 per sito probailmente un sito che ha 1000/2000 cluster di frasi è probabile che sia un bello spam ... ( o una "povera" e semplice directory?  )
|
Sarebbe interessante il parere di Low

...