Un Evento Unico. 5 Sale. 27 Interventi. SEO, SOCIAL, E-Commerce, Mobile, Turismo.
CLICCA QUI e SCOPRI DI PIù X Chiudi
 
Forum GT: Condividiamo idee e conoscenza Forum GT: Condividiamo idee e conoscenza


Condividi questo contenuto nei Social Network:
Ti stiamo aspettando: Registrati subito e gratis. Entra a far parte di una delle comunità più attive in Italia. Se hai dimenticato i tuoi dati li puoi recuperare subito.


Vai indietro   Forum per Webmaster: Condividiamo Idee e Conoscenza > Seo e Tecnologie > Motori di Ricerca: prodotti e servizi > Google™ World GT
Benvenuto! Forum Regole FAQ Lista utenti Calendario Segna come letti

Google™ World GT News e tools del motore di ricerca

Hey Amico Visitatore,
Condividi con noi le tue idee e la tua conoscenza Aprendo una nuova discussione nella sezione Google™ World GT


Rispondi
 
LinkBack Strumenti di discussione
Vecchio 31-08-06, 18:50   #1 (permalink)
Esperto
 
L'avatar di nbriani
 
Data di registrazione: May 2005
Ubicazione: Firenze
Messaggi: 1,938
Invia un messaggio tramite MSN a nbriani Invia un messaggio tramite Skype a nbriani
[Tesseract OCR] Google rilascia software OCR open source

Se proprio ieri Google riceveva le prime critiche sull'usabilità dei PDF di interi libri (liberi da copyright) che è ora possible scaricare da Google Book (vedi relativa opzione nella ricerca avanzata), oggi rilascia il codice open source della propria tecnologia OCR.

Il codice inizialmente sviluppato da HP e abbandonato era stato poi ripreso da Google e dalla università di Nevada, Las vegas: da segnalare, tar gli altri utilizzatori della stessa tecnologia, l'Università di Tohoku (in Giappone) che offre questa pagina dove è possibile inviare immagini e riceverne il testo scannerizzato.


Nicola
__________________
Web Marketing Consultant

:sun: Focus on:
Convegno GT ! :sun:
nbriani non in linea   Rispondi citando
Vecchio 06-09-06, 03:01   #2 (permalink)
Consiglio Direttivo
 
L'avatar di Wolf Otakar
 
Data di registrazione: Apr 2006
Ubicazione: Calabria
Messaggi: 5,949
Google rilascia un OCR open source

Segnalo l'articolo di Punto Informatico
Fonte: http://punto-informatico.it/p.aspx?id=1632194&r=PI

Mountain View (USA) - Google ha aggiunto alla propria ragguardevole collezione di software gratuiti un'applicazione, chiamata Tesseract, per il riconoscimento ottico dei caratteri (OCR). Si tratta di un programma utilizzabile per convertire il testo contenuto in un'immagine, tipicamente ottenuta per mezzo di uno scanner, in caratteri comprensibili ad un elaboratore di testi.

Il motore alla base di Tesseract è stato originariamente creato da HP, che a partire dal 1995 ne ha però cessato lo sviluppo: questo nonostante all'epoca fosse considerato uno dei migliori software OCR del momento. Circa due anni fa HP ne ha donato il codice alla University of Nevada di Las Vegas (UNLV), che da allora è impegnata a correggerne i bug. Da alcuni mesi Google ha assunto il patrocinio dell'iniziativa facendone un progetto open source ed ora afferma che il programma "è sufficientemente stabile per essere ripubblicato come open source".

Tesseract soffre però ancora di alcune importanti limitazioni: la prima è il supporto della sola lingua inglese (niente correttore ortografico italiano, per intendersi); la seconda è l'incapacità di conservare il layout delle pagine (come colonne e tabelle); la terza è la scarsa capacità di riconoscere testi stampati su fogli grigi o a colori (in altre parole, dà il massimo solo con il classico testo nero su bianco). Su stessa ammissione di Google, Tesseract è di gran lunga meno accurato dei migliori pacchetti di OCR oggi in commercio.

Va del resto considerato che, sebbene gli sviluppatori della UNLV abbiano rattoppato il codice qui e là, la tecnologia alla base di Tesseract è rimasta sostanzialmente la stessa di dieci anni fa.

Google afferma però che Tesseract "è assai più accurato di qualsiasi OCR open source in circolazione"", inoltre la sua licenza permette a chiunque di migliorarlo ed integrarlo in altre applicazioni: il che non è poco.

La grande G ha promesso che continuerà a occuparsi di questo software, e a tal scopo sta assumendo esperti in tecnologie legate a quella OCR.

Che Google sia interessata all'OCR non sorprende: BigG sta facendo grande uso di questa tecnologia per la digitalizzazione dei libri (vedi Google Book Search), inoltre, come motore di ricerca, è particolarmente interessata ad accelerare la transizione di tutto lo scibile umano verso formati digitali indicizzabili dai propri spider.

Attualmente Tesseract è disponibile solo sotto forma di codice sorgente, scaricabile da questa pagina di SourceForge.net.

__________________
Sicurezza Informatica su

Ultima modifica di nbriani : 06-09-06 14:52.
Wolf Otakar non in linea   Rispondi citando
Vecchio 06-09-06, 14:29   #3 (permalink)
Esperto
 
L'avatar di nbriani
 
Data di registrazione: May 2005
Ubicazione: Firenze
Messaggi: 1,938
Invia un messaggio tramite MSN a nbriani Invia un messaggio tramite Skype a nbriani
Ciao Wolf Otakar,

nel ringraziarti della segnalazione, volevo pero' farti notare che l'articolo di Punto Informatico che segnali riprende una notizia di alcuni giorni fa... già segnalata.

Quando si postano notizie riprese dalla rete e non opinioni, approfondimenti e commenti personali sarebbe buona norma usare preventivamente il "cerca" nel forum (che tra l'altro è davvero potente!) in modo da non aprire thred duplicati.

Ciao e grazie, unisco quindi la tua segnalazione dell'articolo con l'altro thred,


Nicola
__________________
Web Marketing Consultant

:sun: Focus on:
Convegno GT ! :sun:

Ultima modifica di nbriani : 06-09-06 14:53.
nbriani non in linea   Rispondi citando
Vecchio 09-09-06, 18:49   #4 (permalink)
Consiglio Direttivo
 
L'avatar di Wolf Otakar
 
Data di registrazione: Apr 2006
Ubicazione: Calabria
Messaggi: 5,949
Ok nbriani... Ti ringrazio per la precisazione!
__________________
Sicurezza Informatica su
Wolf Otakar non in linea   Rispondi citando
Vecchio 16-03-07, 16:07   #5 (permalink)
User Newbie
 
Data di registrazione: Mar 2007
Messaggi: 1
scusate se mi intrometto e se probabilmente vi sembrero un po tonta..ma comunque riferendomi al tesseract scaricabile da google...una volta scompattato il file archivio,come si farebbe a farlo partire se non c'e nessun luncher???nessuna estensione valida a lancio?? ps se mi rispondete in cambio vi daro le mie valutazioni sul quel software visto che di simili ne ho tanti altri e li uso quotidianamente,,saluti
claudia86 non in linea   Rispondi citando
Vecchio 16-03-07, 18:26   #6 (permalink)
User
 
Data di registrazione: Apr 2005
Messaggi: 36
Va compilato lanciando il comando "configure". Tuttavia ipotizzo che non funzioni se non in ambienti UNIX/Linux.
__________________
Numismatica
incuso non in linea   Rispondi citando
Vecchio 17-03-07, 09:07   #7 (permalink)
 
L'avatar di Giorgiotave
 
Data di registrazione: Oct 2004
Ubicazione: Monasterace
Messaggi: 34,891
Invia un messaggio tramite Skype a Giorgiotave
Ciao Claudia,

se ti interessa, ti segnalo il Forum su Linux e quello sull'Open Source
Giorgiotave non in linea   Rispondi citando
Vecchio 16-04-07, 13:07   #8 (permalink)
User Newbie
 
Data di registrazione: Apr 2007
Messaggi: 1
cerco informazioni

sono Antonino,
non so a chi rivolgermi, mi sono inscritto stamattina e non so a chi e come fare per chiedere delle informazioni di informatica , come fare per attendere una risposta da esperti o da inscritti come chi mi puo' dare una mano ne sarei grato.
In attesa antonino
il mattiniere non in linea   Rispondi citando
Vecchio 16-04-07, 14:27   #9 (permalink)
 
L'avatar di Giorgiotave
 
Data di registrazione: Oct 2004
Ubicazione: Monasterace
Messaggi: 34,891
Invia un messaggio tramite Skype a Giorgiotave
Ciao Antonino e Benvenuto nel Forum GT,

puoi mettere una lista di domande che vorrei sti fare qui in questo post così io le divido e ti segnalo dove le metto?
Giorgiotave non in linea   Rispondi citando
Rispondi
Tags: , , , , , ,



Strumenti di discussione

Regole di scrittura
Non puoi postare nuove discussioni
Non puoi rispondere alle discussioni
Non puoi allegare file
Non puoi editare i tuoi post

BB code is Attivo
smilies è Attivo
[IMG] il codice è Attivo
Il codice HTML è Disattivato
Trackbacks are Attivo
Pingbacks are Attivo
Refbacks are Disattivato
Vai al forum



Tutti gli orari sono GMT +3. Attualmente sono le 07:01.




Forum GT - © 2004-2009 GT idea S.r.l P.iva 02418200800 - Privacy/Disclaimer

SEO by vBSEO 3.2.0 ©2008, Crawlability, Inc.