[0126] Document
Topics
[0126] Temi del Documento
[0127] According to an implementation consistent with the principles of the invention, information regarding document topics may be used to generate (or alter) a score associated with a document. For example,
search engine 125 may perform topic extraction (e.g., through categorization,
URL analysis, content analysis, clustering, summarization, a set of unique low frequency words, or some other type of topic extraction). Search engine 125 may then monitor the topic(s) of a document over
time and use this information for scoring purposes.
[0127] In accordo con una implementazione coerente con i principi dell'invenzione, informazioni riguardanti i
TEMI di un documento possono essere usate per generare (o alterare) un punteggio associato al documento. Per esempio GG può effettuare l’estrazione dei temi (attraverso la categorizzazione, l’analisi dell’url, l’analisi dei contenuti, il clustering (qualche esperto potrebbe spiegare per bene cos’è il clustering), la sommarizzazione, un set di parole uniche a bassa frequenza, o alcuni atri tipi di estrazione del tema). GG può allora monitorare il tema (i temi) di un documento nel tempo e usare queste informazioni per assegnare il punteggio.
[0128] A significant change over time in the set of topics associated with a document may indicate that the document has changed owners and previous document indicators, such as score,
anchor text, etc., are no longer reliable. Similarly, a spike in the number of topics could indicate
spam. For example, if a particular document is associated with a set of one or more topics over what may be considered a "stable" period of time and then a (sudden) spike occurs in the number of topics associated with the document, this may be an indication that the document has been taken over as a "doorway" document. Another indication may include the disappearance of the original topics associated with the document. If one or more of these situations are detected, then search engine 125 may reduce the relative score of such documents and/or the
links, anchor text, or other data associated the document.
[0128] Un significativo cambiamento nel tempo in un set di temi associati con il documento può indicare che il documento ha cambiato proprietario e gli indicatori del documento precedente, come il punteggio, gli anchor text, etc, non sono più attendibili. Similarmente, un picco nel numero dei temi potrebbe indicare spam. Per esempio, se un particolare documento è associato con un set di uno o più temi sui quali può essere considerato un periodo “stabile” di tempo e poi avviene un picco (improvviso) nel numero di temi associati con il documento, questo può essere un indicatore che il documento sia un documento “
doorway”. Un'altra indicazione può includere la scomparsa dei temi originali associati con il documento. Se una o più di queste situazioni sono riscontrate, allora GG può ridurre relativamente il punteggio dei documenti e/o dei links, degli anchor text, o altri dati associati al documento.
[0129] In summary, search engine 125 may generate (or alter) a score associated with a document based, at least in part, on changes in one or more topics associated with the document.
[0129] Riassumendo, GG può generare (o alterare) un punteggio associato con un documento basato, almeno in parte, sui cambiamenti in uno o più temi associati con il documento.