• ModSenior

    Google brevetto ricerca di contenuto duplicato

    Segue la traduzione del brevetto sulla ricerca di contenuto duplicato di Google Presentato il 16 Maggio 2007 e pubblicato il 20 Novembre 2008. Il link brevetto originale è questo.

    Abstract
    Un sistema può archiviare informazioni riguardanti un insieme di elementi di un contenuto, ricevere contenuto d'esempio da un utente, determinare se il contenuto di esempio corrisponde a uno o più degli elementi del contenuto, e notificare all'utente se l'esempio corrisponde a uno o più elementi del contenuto senza identificare uno o più elementi del contenuto all'utente.

    Dichiarazioni:

    1. Un sistema che comprende: un database per archiviare le informazioni sugli elementi di contenuti caricati o identificati da una pluralità di primi utenti; e un'unità di ricerca di contenuto per: ricevere un contenuto di esempio da un secondo utente, determinare se il contenuto d'esempio corrisponde a uno o più elementi del contenuto, e notificare che al secondo utente se il contenuto d'esempio corrisponde a uno o più elementi di un contenuto senza identificare uno o più elementi del contenuto alsecondo utente.

    2. Il sistema di cui al punto 1, dove il contenuto d'esempio include del testo d'esempio, e dove quando si determina se il contenuto d'esempio corrisponde a uno o più degli elementi del contenuto, l'unità di ricerca del contenuto duplicato è configurata per determinare se il testo d'esempio corrisponde al testo di uno o più elementi del contenuto

    3. Il sistema di cui al punto 1, dove il contenuto di esempio include i dati di un'immagine di esempio; e dove quando si determina se il contenuto d'esempio corrisponde a uno o più elementi del contenuto, l'unità di ricerca di contenuto duplicato è configurato per determinare se il dato dell'immagine di esempio corrisponde a al dato dell'immagine di uno o più elementi del contenuto.

    4. Il sistema di cui al punto 1, dove il contenuto di esempio include il dato di un video di esempio; dove quando si determina se il contenuto di esempio corrisponde a uno o più elementi del contenuto, l'unità di ricerca del contenuto duplicato è configurato per determinare se il dato del video di esempio corrisponde al dato del video di uno o più elementi del contenuto.

    5. Il sistema di cui al punto 1, dove il contenuto di esempio include il il dato di un audio di esempio; e dove quando si determina se il contenuto di esempio corrisponde a uno più elementi del contenuto, l'unità di ricerca del contenuto duplicato è configurato per determinare se il dato audio d'esempio corrisponde al dato audio di uno o più elementi del contenuto.

    6. Il sistema di cui al punto 1, dove l'unità di ricerca del contenuto     duplicato è anche configurata per determinare se il contenuto     d'esempio include testo, dati immagini, dati video, dati audio.
      
    7. Il sistema di cui al punto 6, dove l'unità di ricerca del contenuto     duplicato è anche configurato per determinare se almeno è ricevuta     una soglia limite totale del contenuto d'esempio (the duplicate     content search unit is further configured to determine whether at     least a threshold amount of the sample content is received). 
      
    8. Il metodo di cui al punto 7, dove la soglia totale differisce a     seconda del fatto che il contenuto d'esempio include testo, dati     immagine, dati video o dati audio.
      
    9. Il sistema di cui al punto 1, dove quando si determina se il contenuto d'esempio corrisponde a uno o più elementi del contenuto, l'unita di ricerca del contenuto duplicato è configurata per: cercare il database basato sul contenuto d'esempio, generae un punteggio di fiducia per ogni pluralità di elementi di contenuto che indica una misura di quanto è vicina la corrispondenza di un elemento del contenuto al contenuto d'esempio, e identificare se una delle pluralità degli elementi del contenuto ha il punteggio di fiduca sopra una [certa, n.d.t.] soglia.

    10. Il sistema di cui al punto 9, dove quando si notifica al secondo utente che l'unità di ricerca del contenuto duplicato è configurato per: informare il secondo utente che c'è una corrispondenza quando il primo della pliralità di elementi ha il punteggio di fiducia superiore alla soglia.

    11. Il sistema di cui al punto 1, dove quando notifica al secondo utente     l'unita di ricerca del contenuto duplicato è configurato per:     inviare al secondo utente un identificatore che codifica almeno uno     di un indirizzo di rete associato a uno o più elementi del     contenuto o un gruppo di contenuto a cui il primo di uno o più     elementi del contenuto appartiene. 
      
    12. Il sistema di cui al punto 11, dove l'unità di ricerca del contenuto duplicato include: una tabella per archiviare una mappatura dall'identificatore ad almeno uno dell'indirizzo di rete associato a uno di uno o più elementi del gruppo di contenuto con il primo di uno o più elemento del contenuto che segue.

    13. Il sistema di cui al punto 1, comprende anche: un indice che archivia uno o più caratteristiche relative agli elementi del contenuto; e dove l'unità di ricerca del contenuto duplicato è configurata per: determinare uno o più seconde caratteristiche relative al contenuto d'esempio, ricercare nell'indice per identificare un sottoinsieme di elementi di contenuto che hanno almeno uno o di uno o più caratteristiche che corrispondono a una o più seconde caratteristiche.

    14. Il sistema di cui al punto 13, dove quando si determina se il     contenuto d'esempio corrisponde a uno o più elementi del contenuto,     l'unità di ricerca del contenuto duplicato è configurata per     determinare se il contenuto corrisponde a un o più degli elementi     di contenuto in un sottoinsieme degli elementi del contenuto.
      
    15. Il sistema di cui al punto 1, dove il contenuto d'esempio è     ricevuto dal secondo utente include un contenuto hashed; e quando     determinando se il contenuto d'esempio corrisponde a uno o più     degli elementi del contenuto, l'unità di ricerca del contenuto     duplicato è configurata per confrontare il contenuto hashed agli     hash associati agli elementi del contenuto.
      
    16. Un sistema, che comprende:i mezzi per archiviare l'informazione riguardare una pluralità di elementi di contenuto; i mezzi per ricevere il contenuto d'esempio da un utente; i mezzi per determinare se il contenuto d'esempio corrisponde a uno o più elementi di contenuto; e i mezzi per notificare all'utente se il contenuto d'esempio corrisponde a uno o più degli elementi di contenuto senza identificare uno o più elementi di contenuto all'utente.

    17. Un metodo che comprende: archiviare l'informazione relativa agli     elementi di contenuto aggiornati  o identificati da una pluralità     di primi utenti; ricevere il contenuto d'esempio da un secondo     utente; determinare se è ricevuta almeno una soglia di valore del     contenuto d'esempio; determinare se il contenuto d'esempio     corrisponde a uno o più degli elementi e notificare al secondo     utente se il contenuto d'esempio corrisponde a uno o più degli     elementi del contenuto.
      
    18. Il metodo di cui al punto 17, dove il contenuto d'esempio include il testo d'esempio e dove determinare se il contenuto d'esempio corrisponde a uno o più degli elementi di contenuto include determinare se il testo d'esempio corrisponde a uno o più degli elementi di contenuto.

    19. Il metodo di cui al punto 17, dove il contenuto d'esempio include i dati dell'immagine d'esempio; e dove determinare se il contenuto d'esempio corrisponde a uno o più degli elementi di contenuto include determinare se i dati dell'immagine d'esempio corrispondono ai dati dell'immagine di uno o più degli elementi di contenuto.

    20. Il metodo di cui al punto 17, dove il contenuto d'esempio include i dati di un video d'esempio; e dove determinare se il contenuto d'esempio corrisponde a uno o più degli elementi di contenuto include determinare se i dati del video d'esempio corrispondono a a uno o più degli elementi di contenuto.

    21. Il metodo di cui al punto 17, dove il contenuto d'esempio include i dati audio d'esempio; e dove determinare se il contenuto d'esempio corrisponde a uno o più degli elementi di contenuto include determinare se i dati dell'audio d'esempio corrispondono a uno o più degli elementi di contenuto.

    22. Il metodo di cui al punto 17, dove si comprende determinare se il contenuto d'esempio include il testo, i dati d'immagine, i dati video o i dati audio.

    23. Il metodo di cui al punto 22, dove la soglia totla e cambia a seconda che il contenuto d'esempio includa testo, i dati d'immagine, i dati video o i dati audio.

    1. Il metodo di cui al punto 17, dove determinare se il contenuto d'esempio corrisponde a uno o più degli elementi di contenuto include: ricercare un database basato su un contenuto d'esempio, generare un punteggio di fiducia per ogni pluralità degli elementi di contenuto che indica una misura di quando è vicino una corrispondenza del contenuto di un elemento al contenuto d'esempio, e identificare se uno della pluralità degli elementi di contenuto ha il punteggio di fiducia al di sopra della soglia.

    2. Il metodo di cui al punto 24, dove notificare al secondo utente include informare il secondo utente che c'è una corrispondenza quando uno della pluralità degli elementi di contenuto ha un punteggio di fiducia al di sopra della soglia.

    3. Il metodo di cui al punto 17, dove notificare al secondo utente include inviare, al secondo utente, un identificatore che codifica almeno uno di un indirizzo di rete associato a uno di uno o di più elementi di contenuto o un gruppo di contenuto al quale appartiene uno o più degli elementi di contenuto.

    4. Il metodo di cui al punto 26, include anche archiviare una mappatura dall'identificatore a almeno uno degli indirizzi di rete associati a uno o più degli elementi di contenuto o un gruppo di contenuto a cui uno o più degli elementi di contenuto appariene..

    5. Il metodo di cui al punto 17, comprende anche: creare un indirice che archivia uno o più delle prime caratteristiche relative agli elementi di contenuto; determinare una o più delle seconde caratteristiche relative al contenuto d'esempio; e cercare nell'indice per identificare un sottoinsieme di elementi di contenuto che hanno uno o più delle prime caratteristiche che corrispondono a una o più delle seconde caratteristiche.

    6. Il contenuto di cui al punto 28, dove determinare se il contenuto d'esempio corrisponde a uno o più degli elementi di contenuto include determinare se il contenuto d'esempio corrisponde a uno o più degli elementi di contenuto nel sottoinsieme degli elementi di contenuto .

    7. Un sistema che comprende: un database per archiviare l'informazione relativa agli elementi di contenuto; e un'unità di ricerca di contenuto duplicato che include: una interfaccia per: **ricevere il contenuto d'esempio da un utente, e determinare se il contenuto d'esempio include testo, dati immagine, dati video, o dati audio e **almeno due tra: un identificatore di testo duplicato per determinare se il contenuto d'esempio corrisponde a uno o più degli elementi di contenuto quando il contenuto d'esempio include del testo, un identificatore di immagini duplicare per determinare se il contenuto d'esempio corrisponde ai dati immagine di uno o più degli elementi di contenuto quando il contenuto d'esempio include i dati immagine, un identificatore di video duplicati per determinare se il contenuto d'esempio corrisponde ai video di uno o più degli elementi di contenuto quando il contenuto d'esempio include i dati video, e un identificatore di audio duplicati per determinare se il contenuto d'esempio corrisponde ai dati audio di uno o più degli elementi di contenuto quando il contenuto d'esempio include dati audio; dove l'interfaccia è inoltre configurata per notificare all'utente se il contenuto d'esempio corrisponde al testo, ai dati immagine, ai dati video, o ai dati audio di uno o più degli elementi di contenuto.


  • ModSenior

    Background
    [0001] Il World Wide Web ("web") contiene una grande quantità di informazione. Trovare una porzione desiderata di informazione, comunque può essere impegnativo. Questo problema è aggravato dal fatto che la quantità delle informazioni sul web e il numero di utenti inesperti nel cercare sul web crescono rapidamente. I motori di ricerca assistono gli utenti nel cercare le porzioni desiderate di questa informazione catalogando le pagine web. In genere, in risposta ad una richiesta utente, il motore di ricerca restituisce i riferimenti ai documenti rilevanti per la richiesta.

    Sommario
    [0002] Secondo un aspetto, un sistema può includere un database e un'unità di ricerca di contenuto duplicato. Il database può archiviare l'informazione relativa al contenuto aggiornato o identificato da un gruppo di primi utenti. L'unità di ricerca di contenuto duplicato può ricevere il contenuto da un gruppo di primi utenti. L'unità di ricerca di contenuto duplicato può ricevere un contenuto d'esempio da un secondo utente, determinare se il contenuto d'esempio corrisponde a uno o più degli elementi del contenuto, e notificare al secondo utente se il contenuto d'esempio corrisponde a uno o più degli elementi di contenuto senza identificare il più o più elementi di contenuto al secondo utente.

    [0003] Secondo un altro aspetto, un sistema può includere i mezzi per archiviare informazioni riguardo a un gruppo di elementi di contenuto; mezzi per ricevere il contenuto d'esempio da un utente, mezzi per determinare se il contenuto d'esempio corrisponde a uno o più degli elementi di contenuto e mezzi per notificare all'utente se il contenuto d'esempio corrisponde a uno o più degli elementi di contenuto senza identificare il primo o più elementi di contenuto all'utente.

    [0004] Secondo un ulteriore aspetto, un metodo può includere l'archiviazione delle informazioni riguardanti gli elementi di contenuto aggiornato o identificato da un gruppo di primi utenti; ricevere un contenuto esempio da un secondo utente; determinare se è ricevuto almeno una soglia limite totale del contenuto d'esempio; determinare se il contenuto d'esempio corrisponde a uno o più degli elementi di contenuto quando è ricevuta almeno la soglia totale del contenuto d'esempio; e notificare al secondo utente se il contenuto d'esempio corrisponde a uno o più degli elementi di contenuto.

    Breve descrizione delle immagini
    [0005] I disegni accompagnatori che sono incorporati in questa specifica e ne sono parte, illustrano uno o più contenuti descritti qui e, assieme alla descrizione, li spiegano. Nei disegni
    [0006]FIG. 1 è un diagramma di una panoramica generale di un'implementazione d'esempio descritta qui;
    [0007]FIG. 2 è un diagramma d'esempio di una rete in cui i sistemi e metodi descritti qui possono essere implementati;
    [0008]FIG. 3 è un diagramma d'esempio del sistema di ricerca dei contenuti di FIG. 2;
    [0009]FIG. 4 è un diagramma d'esempio di unità di ricerca di contenuto su web di FIG. 3;
    [0010]FIG. 5 è un diagramma d'esempio di unità di ricerca di contenuto personalizzata di FIG. 3;
    [0011]FIG. 6 è un diagramma d'esempio di database di FIG. 3;
    [0012]FIG. 7 è un diagramma d'esempio di unità di ricerca di contenuto duplicato di FIG. 3;
    [0013]FIG. 8 è un diagramma di flusso di un processo d'esempio per fornire informazioni riguardanti l'uso non autorizzato del contenuto; e
    [0014]FIG. 9 è un diagramma di un esempio per fornire informazioni relative all'uso non autorizzato di contenuto.

           **Descrizione dettagliata**
    

    [0015] La descrizione dettagliata che segue si riferisce ai disegni che la accompagnano. I numeri stessi di riferimento nei disegni diversi possono identificare gli stessi elementi o simili. Inoltre la descrizione dettagliata che segue non è limitata all'invenzione.

    [0016] Le implementazioni descritte qui possono permettere al proprietario di un contenuto di determinare se qualcun altro sta usando il contenuto del proprietario senza il suo permesso. La FIG. 1 è un diagramma di una panoramica generale di una implementazione d'esempio descritta qi. Come mostrato in FIG. 1 un proprietario di un contenuto può informarsi su una un'unità di ricerca di contenuto di un'unità di ricerca di contenuto duplicato se qualcun altro sta usando il contenuto del proprietario senza la sua autorizzazione. L'unità di ricerca di contenuto duplicato può fornire al proprietario del contenuto una lista di alcuni potenziali utenti del contenuto del proprietario. Il proprietario del contenuto può fare le azioni appropriate per idagare e/o bloccare l'uso non autorizzato.

    [0017] Contenuto, ?come il termine è usato qui, è da interpretarsi in modo esteso per includere i dati che possono o meno essere in forma di documento. Esempi di contenuto possono includere i dati associati a uno o più contenuto, o i dati in uno o più database. Un ?documento? come termine usato qui è da intendere che include qualsiasi opera prodotta leggibile e archiviabile dalla macchina. Un documento ad esempio può includere un e-mail, un sito web, un elenco di aziende, un file, una combinazione di file, uno o più file associati da link ad altri file, un post su newsgroup, un blog, un annuncio etc. Nel contesto di Internet, un documento comune è una pagina web. I documenti spesso includono informazioni testuali e possono includere informazioni incorporate (come meta informazioni, dati immagine, dati video, dati audio, link a testo, dati immagini, dati video, dati audio, o altri documenti, etc) e/o istruzioni incluse (come Javascript etc).

    [0018] Contenuto personalizzato, ?come questa frase è usata qui è da intendersi in modo esteso per includere un contenuto che è stato aggiornato da un utente per l'indicizzazione e/o contenuto identificato da un utente per l'indicizzazione. Un ?utente? com'è usato qui il termine, è da intendersi in modo esteso per includere una o più persone (es.: persona, gruppo di persone che possono avere delle relazioni (ad esempio legate a un business o a un'organizzazione), o un gruppo di persone senza relazioni formali.

    [0019] Come è usato qui ?una corrispondenza? può riferisci a un degradare di similarità che è più che una soglia percentuale del contenuto (es: corrispondenza quasi esatta), include una corrispondenza di un cento percento di contenuto (es: corrispondenza esatta).


  • ModSenior

    [0020] La FIG. 2 è un diagramma d'esempio di una rete 200 in cui possono essere implementati i sistemi e i metodi descritti qui. La rete 200 può includere più client 210 connessi a un sistema di ricrca ricerca di contenuto 220 e a dei server di dati 230 attraverso la rete 240. Due client 210, un sistema di ricrca di contenuto unico 220 e uno o più server di dati 230 sono stati mostrati come connessi alla rete 240 per semplicità. In pratica ci potrebbero essere più o meno client, sistemi di ricerca di contenuti e server di dati. Inoltre in alcune istanze, un client 210 può eseguire una o più funzioni del sistema di ricerca di contenuti 220 o server 230 e/o sistema di ricerca di contenuti 220 o un server 230 può eseguire una o più funzioni di un client 210.

    [0021] I client 210 possono includere entità client. Una entità può essere definita come un device, come un PC, un telefono wireless, un PDA, un laptop, o ogni altro tipo di device per il computing o la comunicazione, un thread o un processo eseguito in uno di questi device e/o un oggetto eseguibile da uno di questi device. I client 210 possono implementare un browser per navigare i documenti archiviati nei server di dati 230. I client 210 possono anche usare il browser per accedere al sistema di ricerca contenuti 220 per cercare documenti (ad es.: contenuto web) associato ai server di dati 230 e/o contenuto personalizzato come descritto sotto.

    [0022] I server di dati 230 possono includere entità server che possono archiviare o mantenere i documenti che possono essere navigati dai client 210, o possono essere spiderizzati dal sistema di ricerca contenuti 220. Simili documenti possono includere dati relativi a news stories pubblicate, prodotti, immagini, gruppi di utenti, aree geografiche o ogni altro tipo di dato. Ad esempio il server 230 può archiviare o mantenere le news stories da ogni tipo di sorgente di news come, ad esempio, il Washington Post, il New York Times, Time magazine, o Newsweek. Un altro esempio, i server 230 possono archiviare o mantenere i dati relativi ai dati di prodotti di uno o più produttori. Ancora un altro esempio, i server 230 possono archiviare o mantenere i dati di altri tipi di documenti web, come ad esempio le pagine dei siti web (contenuto web).

    [0023] Il sistema di ricerca dei contenuti 220 può includere uno o più componenti hardware e/o software per accedere, recuperare, indicizzare, cercare e/o mantenere i documenti web generali e/o i documenti di contenuto personalizzati. Il sistema di ricerca 220 può implementare un servizio di aggregazione spiderizzando un corpus di documenti (es: le pagine web) hosted nei server di dati 230, indicizzare i documenti, e archiviare le informazioni associate a quessti documenti in un repository di documenti spiderizzati. Il servizio di aggregazione può essere implementato in altri modi, come un accordo con gli operatori dei server di dati 230 per distribuire i loro documenti attraverso il servizio di aggregazione.

    [0024] Mente il sistema di ricerca contenuti 220 e i server 230 sono mostrati come entità separate, è possibile per il sistema di ricerca di contenuto 220 eseguire una o più funzioni di uno o più server 230 e viceversa. Ad esempio è possibile per il sistema di ricerca di contenuti 220 e uno o più server 230 essere implementati come singola entità. E' anche possibile che un singolo sistema di ricerca 2230 o server 230 siano implementati come due o più device separati (e possibilmente distribuiti).

    [0025] La rete 240 può includere una o più reti di qualsiasi tipo, comprese LAN, WAN, MAN, una rete telefonica come la rete telefonica commutata (PSTN) o una rete di cellulari, una intranet, Internet, o una combinazione di reti. I client 210,il sistema di ricerca contenuti 220 e i server 230 possono connettersi alla rete 240 sia via cavo che senza.


  • ModSenior

    [0026] La FIG. 3 è un diagramma d'esempio di sistema di ricerca di contenuti 220. Come mostrato in FIG. 3, un sistema di ricerca di contenuti può includere un'unità di ricreca di contenuto web 310, un'unità di ricerca di contenuto personalizzato 320, un'unità di ricerca di contenuto duplicato 330, un database 340, e un'unità di sicurezza 350 interconnessa via bus e/o rete 360 alla rete 240. L'unità di ricerca di contenuto 310, l'unità di ricerca personalizzata 320, l'unità di ricerca di contenuto duplicato 330, il database 340, e l'unità di sicurezza 350 possono essere implementate come componenti hardware o software in una singola entità, o come componenti hardware o software distribuiti attraverso più entità.

    [0027] L'unità di ricerca di contenuto web 310 può spiderizzare i documenti (es: quelli che contenuto contenuto web) archiviati nei server di dati 230, indicizzare i documenti spiderizzati per creare un indice di ricerca web, e cercare nei documenti spiderizzati usando l'indice. L'unità di ricerca di contenuto personalizzato 320 può ottenere un contenuto personalizzato, come un elemento del contenuto aggiornato dagli utenti, gli elementi di contenuto designati dagli utenti come parte del loro contenuto personalizzato (es: un utente può designare uno o più documenti, come ad es. siti o pagine web, di essere inclusi nel contenuto personalizzato di un utente) elementi di contenuto ottenuto da sorgenti che richiedono registrazioni per accedere ai contenuti e/o elementi di contenuto di un dato argomento che possono essere ottenuti e aggregati da più sorgenti (ad ese: un utente può designare uno o più documenti, ad es. siti web o pagine web, che contengono il contenuto su un argomento selezionato come da essere incluso nel contenuto personalizzato di un utente), indicizzare il contenuto in indici separati di ricerche personalizzate per creare più indici personalizzati di ricerca (a cui ci riferiamo qui come ?gruppi di ricerca personalizzati?), e cercare il contenuto personalizzato usando uno più indici personalizzati.

    [0028] L'unità di ricerca di contenuto duplicato 330 può ricevere un contenuto personalizzato d'esempio da un proprietario del contenuto personalizzato e eseguire una ricerca di contenuto personalizzato ottenuto in precedenza da un'unità di ricerca di contenuto personalizzato da altri utenti associati a uno o più gruppi di contenuto personalizzato, per determinare se il contenuto personalizzato d'esempio corrisponde al contenuto personalizzato associato a uno più gruppi di contenuti personalizzati. L'unità di ricerca di contenuto duplicato 330 può informare il proprietario del contenuto personalizzato di un possibile uso del contenuto del proprietario da parte di altri utenti basandosi ad esempio sul risultato della ricerca.

    [0029] Il database 340 può archiviare un indice di ricerca web, uno o più indici di ricerca personalizzata, e/o informazioni riguardanti il contenuto su web e/o il contenuto personalizzato. Il database 340 può archiviare l'indice di ricerca web e uno o più indici di riceca contenuti come strutture dati diverse che possono essere ricercare indipendentemente l'una dall'altra. In alternativa il database 340 può archiviare uno più indici di ricerca personalizzati dentro la stessa struttura dati come l'indice di ricerca web in modo che possano essere ricrcati in maniera indipendente l'una dall'altra. Ogni indice di ricerca personalizzata può avere più voci di indici multipli, ciascuna voce contenente un termine o altri dati archiviati in associazione con un elemento di contenuto personalizzato in cui compare il termine o altro dato, e locazione dentro il contenuto personalizzato dove il termine o altro dato compare.

    [0030] Il database 340 può anche archiviare informazioni associate al contenuto web ottenuto dall'unità di ricerca su web 310 e il contenuto personalizzato può essere ottenuto dall'unità di ricerca di contenuto personalizzato 320. L'informazione può includere il testo, i dati immagine, i dati video, e/o i dati audio e questo è associato al contenuto web e/o al contenuto personalizzato.

    [0031] L'unità di sicurezza 350 può autenticare gli utenti che desiderano aggiornate il contenuto personalizzato all'unità di contenuto di ricerca personalizzato 320, gli utenti che desiderano cercare uno o più indici di contenuti associati al contenuto personalizzato, e/o utenti che desiderano identificare se altri stanno usando i loro contenuti personalizzati senza permesso. L'unità di sicurezza 350 può autenticare gli utenti passando dei token di autenticazione agli utenti e può contenere chiavi di sicurezza per permettere la criptazione delle informazioni sensibili. L'unità di ricerca 350 può autenticare gli utenti e autorizzare l'unità di ricerca di contenuti duplicati 330 per eseguire ricerche agli utenti autenticati.

    [0032] Il bus e/o la rete 360 possono includere un percorso di comunicazione, come un bus di sistema o una rete che permette all'unità di ricerca contenuto su web, all'unità di ricerca di contenuto personalizzata 320, all'unità di ricerca di contenuto duplicato 330, e all'unità di sicurezza 350 di comunicare con un'altra o con le entità sulla rete 240.


  • ModSenior

    [0033] La FIG. 4 è un diagramma d'esempio di unità di ricerca di contenuto web 310. Come mostrato in FIG. 4, l'unità di ricerca di contenuto su web può includere uno spider web 410, uno storage di contenuto web 420, un indicizzatore di contenuto web 430, un indice di ricerca 440, e un motore di ricerca 450. Lo spider 410, lo storage 420, l'indicizzatore di contenuto web 430, l'indice di ricerca 440 e il motore di ricerca 450 possono essere implementati come componenti hardware o software.

    [0034] Lo spider 410 può trovare e recuperare il contenuto web (ad es: documenti web) e fornire il contenuto recuperato allo storage web 420 e all'indicizzatore 430. Ad esempio lo spider 410 può inviare una richiesta a un server web per un documento web, scaricare l'intero documento web e poi fornirlo allo storage 420 e all'indicizzatore di contenuto 430. Lo storage 420 può archiviare l'informazione relativa ai documenti web come testo, dati immagine, dati video e/o dati audio associati ai documenti web o i link al testo, ai dati immagine, ai dati video e/o ai dati audio.

    [0035] L'indicizzatore di contenuto web 430 può indicizzare i documenti web per creare gli indici di ricerca web 440. Ad esempio l'indicizzatore di contenuto web 430 può prendere il testo o altri dati di un certo documento spiderizzato, estratte i singoli termini o altri dati dal testo del docmento, e ordinare questi termini o altri dati (ad es: alfabeticamente) nell'indice di ricerca 440. Per il testo ad esempio l'indicizzatore del contenuto 430 può identificare le parole che ricorrono meno frequentemente (ad esempio ricorrono mendo i una soglia di un numero di volte in un insieme di documenti) come altri dati possono essere inclusi nell'indice per il testo.

    [0036] Possono essere usate altre tecniche per estratte e indicizzare il contenuto, che sono più complesse rispetto alla semplice indicizzazione a livello di parole, include le tecniche per indicizzare i dati XML, i dati immagini, i dati video, i dati audio, etc. Per i dati immagine l'indicizzatore di contenuto 430 può identificare una o più caratteristiche dell'immagine (ad es.: uno o più colori dominanti dell'immagine) come altri dati da includere nell'indice per i dati immagine. Per i video, l'indicizzatore di contenuti web 430 può identificare una o più caratteristiche del video (ad es: uno o più colori dominanti dei frame dei dati video, o una o più frequenze delle porzioni audio dei dati video che non ricorrono con regolarità) come altri dati possono essere inclusi nell'indice per i dati video. Per i dati audio, l'indicizzatore di contenuto 430 può identificare una o più caratteristiche audio (ad es: uno o più frequenze che non ricorrono frequentemente) come altri dati da includere nell'indice per i dati audio. Ogni voce nell'indice di ricerca web 440 può contenere un termine o altri dati archiviati in associazione con una lista di documenti in cui il termine o altri dati appaiono e la locazione dentro il documento documento il termine o altri dati appaiono.

    [0037] Il motore di ricerca web 450 può ricercare l'indice di ricerca web 440 basandosi sulle query di ricerca che riceve, per individuare i termini delle query di ricerca con i termini o gli altri dati (ad es. dati video, dati immagine, dati audio) contenuti nelle voci nell'indice di ricerca 440. Il motore di ricerca web 450 può recuperare una lista di documenti corrispondenti da ogni voce nell'indice di ricerca web 440 che corrisponde a un termine della query di ricerca. Gli elenchi di documenti restituiti da una o più voci nell'indice di ricerca web 440 può essere restituito come risultati di ricerca. In una implementazione ogni risultato di risultati di ricerca web può includere un URL associato a un documento risultato della ricerca e, possibilmente, uno snippet di contenuto estratto dal corrispondente documento risultato della ricerca.