Se encuentra usted aquí

Utilizar Tesseract desde el entorno gráfico.

A continuación un artículo enviado por nuestro compañero Quetzatl sobre como utilizar Tesseract o como escanear documentos desde el entorno gráfico.

utilizar tesseract desde el entorno gráfico
Hola a todos.

Bajo mi punto de vista es un engorro usar tesseract para hacer ocr desde
la consola por tener que dar órdenes complejas y andar escaneando con un
programa y reconociendo con otro.

Bien, ubuntu y tiflobuntu vienen con el controlador de escáneres xsane
que es completísimo y soporta cantidad de escáneres y dispositivos,
supongo que para trabajo con imagen digitalizada es muy bueno, pero yo
fui incapaz de hacer ocr con gocr que es el motor de reconocimiento de
textos que utiliza.

Leyendo en internet encontré que hay un paquete llamado xsane2tess, pero
yo no logré localizarlo, di tú que no busqué demasiado de momento dado
que la otra solución con la que me topé me ha dado resultados.

Se trata, en definitiva, de utilizar el programa gscan2pdf que claro, ya
entendéis para qué sirve, pero al cual es sencillísimo hacerle reconocer
textos con el motor de ocr tesseract.

Bien, voy a presuponer que tendréis instalado tiflobuntu, de lo
contrario deberéis instalaros el teseract con sus idiomas.

Entonces instalaremos el gscan2pdf:

sudo apt-get install gscan2pdf

os sacará unas cuantas dependencias que aceptaréis.

bien, ahora nos iremos a menú de aplicaciones con alt f1, bajaremos
hasta gráficos y daremos flecha derecha y pulsaremos intro sobre
gscan2pdf.

Se nos abrirá el programa, es posible que os diga que falta cierto
paquete para poder convertir a cierto formato, pero de momento nos da
igual, si queréis lo instaláis pero bueno, para lo que estamos mirando
hoy no es necesario caso que os lo pida en vuestro caso.

Bueno, el foco nos caerá sobre la barra de herramientas donde tenéis los
botones más usados, podéis entonces ir con las flechas hasta escanear y
dar a intro, o de lo contrario podéis ir a la barra de menús con f10,
flecha abajo por el menú archivo e intro sobre la opción escanear, que
las dos vienen a ser lo mismo.

Esto saca un sistema multipestaña, bueno en realidad con dos pestañas en
las que posiblemente no hay que tocar nada:

el primer panel en la pestaña de opciones de página es el de páginas,
tienes unos botones de opción, todos o un signo de número

Si eliges todo pues eso las escaneas todas, supongo que será esto por si
tenemos cargador de hojas, si eliges el signo de número # pues puedes
tabular a un botón contador y seleccionar cuántas quieres escanear, a
efecto de escáneres planos como el mío que es un canon lide 50, no tiene
efecto, o eso creo.

El panel de fuente del documento te permite seleccionar cosas como si
solo tiene una cara, si tiene las dos, si el anverso o el reverso. Sería
cosa a probar con alimentador de hojas que yo no tengo.

El panel post processing te ofrece un botón de opciones que te permitirá
configurar qué partes se escanean o no de la página y como, tales como
márgenes y zonas específicas. No la he tocado de momento.

Seguidamente la casilla para activar el ocr de páginas escaneadas que
tendrá lugar tras cada una que digitalicemos.

Seguidamente aparecen dos cuadros combinados, uno para seleccionar el
motor de OCR, en mi caso solamente tengo tesseract, y otro para
seleccionar el idioma de reconocimiento que, en mi caso tiene español.
Lo que no entiendo es por qué tiflobuntu solamente trae alemán y
español, me extrañó que no viniese con el inglés, de todos modos hay
muchos idiomas que se pueden instalar a tesseract, en su web los
encontraréis y supongo que empaquetados también los habrá.

y seguidamente los botones escanear y cerrar que de momento ignoramos.

Finalmente hay un cuadro combinado donde aparecerán las posibles fuentes
de reconocimientos de imagen, en mi caso aparece mi capturadora de tv y
el escaner, si no véis aquí ninguno se debe a que por cualquier razón no
se reconoce vuestro escaner, siempre podréis buscar por internet para
saber si hay controladores.

la segunda de las páginas, con opciones de escaneado tiene el tipo de
documento a escanear, a4, a5, etc dependiendo del escáner,

un cuadro combinado para elegir cómo se escanea, color, gris y trazos,
no sé lo que son los trazos aunque supongo que se refiere a blanco y
negro, debería estar como mucho en grís, no escaneéis en color para
hacer ocr, no se gana en calidad y si se pierde en velocidad.

Un cuadro combinado para la resolución que en mi caso viene en 300 y que
debe quedarse ahí, aumentarlo no tiene sentido, aunque podría llegarse a
600 si el escaner lo permite y bajarlo a 200 da velocidad pero pierde
calidad de reconocimiento.

Muy bien, pues ahora se pulsa sobre escanear y se espera, pasa el
escáner, digitaliza la página, pasa el ocr y se detiene, si se quiere se
sigue escaneando hasta terminar, entonces se da al botón cerrar y luego
tabulamos un par de veces hasta que nos diga texto, es ahí donde ha
colocado el resultado. El cursor se pondrá al final del documento.

Un par de cosas, este programa está pensado para convertir a pdf y
todavía no he visto el modo de guardar como texto.

El motor de reconocimiento no será capaz de leer nada si no horientáis
bien el texto, es decir, a diferencia de fine reader o de omnipage, o
colocas la página en la dirección correcta o no la lee. Los que
aprendimos a escanear textos con recógnita 3.0, la interface lee y el hp
IIIp, sabemos bien qué significa eso.

Bueno, la esperanza está en ocropus que será capaz de hacer todo esto y
más, pero hoy por hoy ya es posible leer documentos fácilmente en linux.

Una cosa menos por la que permanecer enganchado al mundo de micro$

Otra cosa, no sé por qué fue, pero la primera vez que intenté el
proceso, mi escáner se travó en el retroceso y me dió un buen susto, por
si os pasa, simplemente desconecta el escáner, cierra gscan2pdf conecta
el escaner y vuelta a empezar.

Salud.