miércoles, 16 de julio de 2014

Realizando OCR en Fedora Linux

El término OCR hace referencia a Optical character recognition; existen innumrables herrramientas para realizar la conversión de caracteres a texto en Linux; sin embargo en un post me encontré con algunas que referenciaban desde sourceforge, validando, estas se incluyen en los repos de fedora por tanto es aún mas sencillo de instalar.

Instalar tesseract

sudo yum install  tesseract tesseract-langpack-spa


Con esto, ya instalamos las librerias para hacer nuestro OCR; ahora instalamos una herramienta grafica que nos facilite un poco las cosas:


yum search gimagereader
 


sudo yum install gimagereader

Finalmente  nos solicitan algunos diccionarios, para mejorar el tema en español

sudo yum install hunspell-es 


y basta con lanzar la APP gimagereader para realizar nuestro proceso de OCR.