Reconocimiento óptico de caracteres
El Reconocimiento Óptico de Caracteres (OCR), así como el reconocimiento de texto, en general son aplicaciones dirigidas a la digitalización de textos.
Identifican automáticamente símbolos o caracteres que pertenecen a un determinado alfabeto, a partir de una imagen para almacenarla en forma de datos con los que podremos interactuar mediante un programa de edición de texto o similar.
En los últimos años la digitalización de la información (textos, imágenes, sonido, etc ) ha pasado a ser un punto de interés para la sociedad. En el caso concreto de los textos, existen y se generan continuamente grandes cantidades de información escrita, tipográfica o manuscrita en todo tipo de soportes. En este contexto, poder automatizar la introducción de caracteres evitando la entrada por teclado, implica un importante ahorro de recursos humanos y un aumento de la productividad, al mismo tiempo que se mantiene, o hasta se mejora, la calidad de muchos servicios.
Problemas con el Reconocimiento Óptico de Caracteres
El proceso básico que se lleva a cabo en el Reconocimiento Óptico de Caracteres es convertir el texto que aparece en una imagen en un archivo de texto que podrá ser editado y utilizado como tal por cualquier otro programa o aplicación que lo necesite.
Partiendo de una imagen perfecta, es decir, una imagen con sólo dos niveles de gris, el reconocimiento de estos caracteres se realizará básicamente comparándolos con unos patrones o plantillas que contienen todos los posibles caracteres. Ahora bien, las imágenes reales no son perfectas, por lo tanto el Reconocimiento Óptico de Caracteres se encuentra con varios problemas:
El dispositivo que obtiene la imagen puede introducir niveles de grises al fondo que no pertenecen a la imagen original.
La resolución de estos dispositivos puede introducir ruido en la imagen, afectando los píxeles que han de ser procesados.
La distancia que separa a unos caracteres de otros, al no ser siempre la misma, puede producir errores de reconocimiento.
La conexión de dos o más caracteres por píxeles comunes también puede producir errores.
Reconocimiento de texto manuscrito
Las dificultades que podemos encontrar a la hora de reconocer un texto tipografiado, no se pueden comparar con las que aparecen cuando queremos reconocer un texto manuscrito.
El reconocimiento de un texto manuscrito continúa siendo un desafío. Aunque el texto se compone básicamente de caracteres individuales, la mayoría de algoritmos OCR no consiguen buenos resultados, ya que la segmentación de texto continuo es un procedimiento complejo.
En el caso de reconocimiento de escritura manuscrita a la hora de corrección de exámenes, existe la posibilidad, añadiendo un listado de lexico (nombres y apellidos) de acercarse al 100% de acierto. A través de las casillas de respuesta ICR se pueden reconocer palabras, como nombres de países, nombres de regiones, marcas comerciales, en resumen, todo aquello que pueda ser integrado en una lista de palabras –Lexico- este puede ir aumentándose según necesidades.
Por otro lado, se puede llegar a comprender una frase cuando la hemos terminado de leer. Esto implica una operación de niveles morfológicos, léxico y sintáctico que se consigue mediante el reconocimiento del habla continua. Para llevar a cabo esa metodología, se utilizan algoritmos robustos que utilizan una segmentación previa, debido a que se obtiene automáticamente con la descodificación.
OCR-Software
Adobe Acrobat Professional (Windows, Mac OS)
BIT-Alpha (Windows)
ExactScan Pro (Mac OS)
Openbook – Freedom Cientific (Windows)
ABBYY FineReader (Unix, Windows, Mac OS)
Scansoft Omnipage (Windows)
Neoptec (Windows, Mac OS, Unix)
Nicomsoft CrystalOCR SDK (Windows)
OCRKit (Mac OS)
Readiris (Unix, Windows, Mac OS)
OCRFORMSv2 (Windows, GNU/Linux)
OCRFORMSv2 SUITE (Linux, Windows Xp/Vista/7)
OCRFORMSv2 SDK (Linux, Windows Xp/Vista/7)
Prizmo (Mac OS)
BibliografíaAcerca de OCR (tecnología y software)
http://bitsearch.blogspot.com
http://alojamientos.us.es/gtocoma/ (Grupo de Topología Computacional y Matemática Aplicada )
http://www.iti.es/media/about/docs/tic/13/articulo2.pdf (Instituto Tecnológico de Informática)
Software para la corrección automática de exámenes y oposiciones tipo test, QCM-Direct - http://www.neoptec.com/es/productos/qcm-direct/presentacion.php
Software de tratamiento automatizado de cuestionarios - http://www.neoptec.com/es/productos/data-scan/presentacion.php
https://observatorio.iti.upv.es/resources/project/58 (Instituto Tecnológico de Informática: ITI OCR: Investigación de Nuevas Técnicas para OCR/ICR de Formularios Impresos y Manuscritos)
lunes, 22 de agosto de 2011
Suscribirse a:
Enviar comentarios (Atom)
No hay comentarios:
Publicar un comentario