Quote:
|
Everfluxx
[grassetto mio]
|
*
Multiple index based information retrieval system (20060106792)
Assigned to Google
*
Phrase-based searching in an information retrieval system (20060031195)
Assigned to Google
*
Phrase-based indexing in an information retrieval system (20060020607)
*
Phrase-based generation of document descriptions (20060020571)
*
Phrase identification in an information retrieval system (20060018551)
Detecting spam documents in a phrase based information retrieval system( 20060294155)
Everfluxx, certo ... ma quella parte si riferisce a solo uno dei brevetti (l'ultimo qui sopra e che fanno tutti capo a
Anna Lynn Patterson, ex archive.org ora google) e che riguardano "l'ingegnerizzazione" di molti aspetti (non solo quelli legati all'individuazione dello spam) che ruotano intorno alla realizzazione di un
MDR basato su un
indicizzazione per frasi
(dove
indicizzazione è intesa esattamente per cio' che è ...cioè il modo o meglio, la tecnica di archiviazione dei "contenuti spiderizzati" e che influenza fortemente la tipologia di algoritmi successivamente applicabili per il ranking e la ricerca dei migliori documenti).
Mi quoto sulla parte legata allo spam:
Quote:
|
- Infine lo spam: mi pare di capire che il metodo si riferisca allo spam da "long tail spam engine" ... si parla infatti di siti individuatri grazie all'elevato (fuori deviazione standard) numero di "Frasi buone" presenti... se la media è 30/40 per sito probailmente un sito che ha 1000/2000 cluster di frasi è probabile che sia un bello spam ...
|
Nicola