Google: nuovo brevetto stopwords

mister.jinx

Google: nuovo brevetto stopwords

Il brevetto ha titolo originale "Locating meaningful stopwords or stop-phrases in keyword-based retrieval systems".

L'abstract indica che le stopword e stop-phrases sono identificate da un componente di Google apposito che le riconosce comparando i termini della query di ricerca a una lista di stopwords note.

Ora in una implementazione di questo componente i dati delle stopword vengono estratte da un indice di documenti, in un'altra dalle categorie rilevanti la query di ricerca.

Questi insiemi di dati vengono controllati e, se sostanzialmente simili, possono essere usati per rimuovere le potenziali stopword che non costituiscono materiale di ricerca. Se invece non c'è similitudine le potenziali stopword vengono considerate materiale di ricerca e pertanto non rimosse dalla query.

Il brevetto va avanti e indica che alcuni insiemi di stopword possono essere indicati manualmente e/o automaticamente confrontando per query multiple rispetto a quella digitata dall'utente:

la frequenza delle stopword
la percentuale di documenti in cui compaiono
le categorie e porzioni di categorie in cui compaiono le stopword
i punteggi di rilevanza tra gli insiemi di query elaborati

Il brevetto è qui.
La fonte è questa seobythesea.com/?p=1109