Ciao
Micky,
no, il mio parere è che il brevetto si riferisca a documenti che contengono una moltitudine di frasi "valide" (nel senso del brevetto) ma che molto probabilmente (cioè attraverso il raffronto con un valore standard) evidenziano proprio che non riguardano un solo argomento... tipico ad esempio degli
spam engines...
In sostanza, se si identificano delle regole per definire un frase come "BUONA" (good phrases) ,
google è in grado di definire un numero medio di "frasi buone" per documento... (nel far questo prenderà in considerazione anche i documenti dove gli argomenti sono ben spiegati e pure ben "allungati" come dici tu) ... quindi penso che l'asticella per definire un documento come SPAM attraverso un algo del genere (ricordati che gg ne utilizza molti altri di metodi) debba essere necessariamente molto alta ...
Quote:
|
A normal, non-spam document will generally have a relatively limited number of related phrases, typically on the order of between 8 and 20, depending on the document collection. By contrast, a spam document will have an excessive number of related phrases, for example on the order of between 100 and 1000 related phrases.
|
E' il concetto di "frase buona" che devi tenere bene in mente... probabilmente anche se tu infioretti un argomento quanto vuoi... difficilmente supererai un certo numero medio di "frasi buone" (ti ricordo che le buone sono quelle che anche ricorrono piu' di altri documenti semanticamente vicini)
Imho,

Nicola