• ModSenior

    Google: nuovo brevetto stopwords

    Il brevetto ha titolo originale "Locating meaningful stopwords or stop-phrases in keyword-based retrieval systems".

    L'abstract indica che le stopword e stop-phrases sono identificate da un componente di Google apposito che le riconosce comparando i termini della query di ricerca a una lista di stopwords note.

    Ora in una implementazione di questo componente i dati delle stopword vengono estratte da un indice di documenti, in un'altra dalle categorie rilevanti la query di ricerca.

    Questi insiemi di dati vengono controllati e, se sostanzialmente simili, possono essere usati per rimuovere le potenziali stopword che non costituiscono materiale di ricerca. Se invece non c'è similitudine le potenziali stopword vengono considerate materiale di ricerca e pertanto non rimosse dalla query.

    Il brevetto va avanti e indica che alcuni insiemi di stopword possono essere indicati manualmente e/o automaticamente confrontando per query multiple rispetto a quella digitata dall'utente:

    • la frequenza delle stopword
    • la percentuale di documenti in cui compaiono
    • le categorie e porzioni di categorie in cui compaiono le stopword
    • i punteggi di rilevanza tra gli insiemi di query elaborati

    Il brevetto è qui.
    La fonte è questa seobythesea.com/?p=1109