Reconocimiento óptico de caracteres OCR con deep learning

¿Cómo funciona el reconocimiento óptico de caracteres (OCR) con deep learning?

HIXSA

4 enero, 2023

El reconocimiento óptico de caracteres es una innovación tecnológica que por mucho tiempo quedo relegada, al quedarse estancada, ser costosa y vista como un tipo de herramienta en el que no valía la pena invertir por el tiempo que tomaba obtener beneficios de ella, sin embargo la introducción de deep learning le ha dado una nueve oportunidad al OCR de destacar y ganarse el lugar que merece entre las tendencias tecnológicas actuales para los negocios. En este post exploramos cómo la irrupción de deep learning ha logrado los avances necesarios para aprovechar los beneficios del OCR.

Ya sea extrayendo información automáticamente de un recibo escaneado para un informe de gastos o traduciendo un idioma usando la cámara de tu teléfono, la tecnología de reconocimiento óptico de caracteres (OCR) puede parecer fascinante. Y si bien parece milagroso que tengamos computadoras que puedan digitalizar texto analógico con cierto grado de precisión, la realidad es que la precisión que esperamos está por debajo de lo que es posible.

Y eso se debe a que, a pesar de la percepción de OCR como un avance extraordinario, en realidad es bastante anticuado y limitado, en gran parte porque está dirigido por un oligopolio que está frenando la innovación.

Breve historia de el reconocimiento óptico de caracteres

El precursor de OCR fue inventado hace más de 100 años en Birmingham, Inglaterra, por el científico Edmund Edward Fournier d’Albe. Queriendo ayudar a las personas ciegas a “leer” el texto, d’Albe construyó un dispositivo, el Optophone , que usaba fotosensores para detectar letras en negro y convertirlas en sonidos. Los sonidos podrían luego ser traducidos en palabras por el lector con discapacidad visual. Los dispositivos resultaron ser tan caros, y el proceso de lectura tan lento, que el Optophone, potencialmente revolucionario, nunca fue comercialmente viable.

Si bien el desarrollo adicional de texto a sonido continuó a principios del siglo XX, OCR, tal como lo conocemos hoy, no despegó hasta la década de 1970, cuando el inventor y futurista Ray Kurzweil desarrolló un programa informático OCR. Para 1980, Kurzweil vendió a Xerox, quien continuó comercializando la conversión de texto de papel a computadora. Desde entonces, muy poco ha cambiado. Convierte un documento en una imagen, luego el software intenta hacer coincidir las letras con los conjuntos de caracteres que ha cargado un operador humano.

Y ahí radica el problema con OCR como lo conocemos. Existen innumerables variaciones en los tipos de documentos y textos, pero la mayoría de los OCR se basan en un conjunto limitado de reglas existentes que, en última instancia, limitan la verdadera utilidad de la tecnología. Como proclamó una vez Morpheus : “Sin embargo, su fuerza y ​​su velocidad todavía se basan en un mundo que se basa en reglas. Debido a eso, nunca serán tan fuertes o rápidos como tú puedes ser”.

Además, la innovación adicional en OCR se ha visto obstaculizada por los guardianes de la tecnología, así como por su modelo comercial de pocos centavos por página, que ha hecho que invertir miles de millones en su desarrollo sea tan viable como Optophone. Pero eso está empezando a cambiar.

Reconocimiento óptico de caracteres de última generación

Recientemente, una nueva generación de ingenieros está reiniciando OCR de una manera que asombraría a Edmund Edward Fournier d’Albe. Creadas con tecnologías de aprendizaje automático basadas en inteligencia artificial, estas nuevas tecnologías no están limitadas por la coincidencia de caracteres basada en reglas del software OCR existente.

Con el aprendizaje automático, los algoritmos entrenados en un volumen significativo de datos aprenden a pensar por sí mismos. En lugar de estar restringidos a un número fijo de juegos de caracteres, estos nuevos programas de OCR acumularán conocimientos y aprenderán a reconocer cualquier número de caracteres.

Uno de los mejores ejemplos de OCR moderno es, el software de OCR de 34 años que fue adoptado por Google y convertido en código abierto en 2006. Desde entonces, las mentes más brillantes de la comunidad de OCR han estado trabajando para mejorar la estabilidad del software, y una docena de años después, Tesseract puede procesar texto en 100 idiomas, incluidos idiomas de derecha a izquierda como el árabe y el hebreo.

Estas tecnologías fácilmente disponibles ciertamente han reducido enormemente el costo de construir un OCR con calidad mejorada. Aun así, no resuelven necesariamente los problemas que la mayoría de los usuarios de OCR buscan solucionar.

Problemas que OCR debe superar

La dificultad intrínseca y de larga data del reconocimiento de caracteres en sí mismo nos ha cegado durante mucho tiempo a la realidad de que la simple digitalización nunca fue el objetivo final para usar OCR. No usamos OCR solo para poder poner texto analógico en formatos digitales. Lo que queremos es convertir el texto analógico en información digital.

Por ejemplo, una empresa podría escanear cientos de contratos de seguros con el objetivo final de descubrir su exposición al riesgo climático. Convertir todos esos contratos en papel en contratos digitales solo es de poca utilidad que los originales.

Es por eso que ahora muchos miran más allá del aprendizaje automático e implementan otro tipo de inteligencia artificial, el aprendizaje profundo. En el aprendizaje profundo, una red neuronal imita el funcionamiento del cerebro humano para garantizar que los algoritmos no tengan que depender de patrones históricos para determinar la precisión; pueden hacerlo ellos mismos. El beneficio es que, con el aprendizaje profundo, la tecnología hace más que solo reconocer texto: puede derivar significado de él.

Con OCR basado en aprendizaje profundo, la empresa que escanea contratos de seguros obtiene más que solo versiones digitales de sus documentos en papel. Obtienen visibilidad instantánea del significado del texto en esos documentos. Y eso puede desbloquear miles de millones de dólares en conocimientos y tiempo ahorrado.

También te puede interesar: 7 casos de uso de Procesamiento Inteligente de Documentos (IDP)

Agregar información al reconocimiento

OCR finalmente se está alejando de solo ver y hacer coincidir. Impulsado por Deep learning, está entrando en una nueva fase en la que primero reconoce el texto escaneado y luego le da significado. La ventaja competitiva se otorgará al software que proporcione la extracción de información más poderosa y los conocimientos de la más alta calidad. Y dado que cada categoría comercial tiene sus propios tipos de documentos, estructuras y consideraciones particulares, hay espacio para que varias empresas tengan éxito en función de las competencias específicas de la vertical.

Los usuarios de los servicios tradicionales de OCR deben reevaluar sus licencias y condiciones de pago actuales. También pueden probar servicios gratuitos como Textract de Amazon o Tesseract de Google para ver los últimos avances en OCR y determinar si esos avances se alinean con sus objetivos comerciales. También será importante buscar proveedores independientes en el espacio de RPA e inteligencia artificial que están avanzando a pasos agigantados para la industria en general.

Y en cinco años, espero que lo que ha sido bastante estático durante los últimos 30, si no 100 años, será completamente irreconocible.

AutomationEdge IDP

Herramientas como AutomationEdge ofrecen un conjunto de soluciones para la automatización de del Procesamiento Inteligente de Documentos. IDP combina el poder de OCR con herramientas de inteligencia artificial como ML, Deep Learning y PNL para optimizar el procesamiento de documentos.

Esta es una solución que transforma datos no estructurados y semiestructurados de documentos en datos estructurados. Esta solución combina el poder de AI, ML, NLP y OCR para procesar con precisión todo tipo de información y alimentar la salida en aplicaciones posteriores.

Pese a que la idea de la industria sin papel está lejos de la realidad, ya que industrias como la banca, la atención médica y los seguros están plagadas de documentos en papel, el IDP en RPA es una oportunidad para reducir el costo a través de la automatización y mejorar la eficiencia operativa y la productividad.

AutomationEdge es una plataforma líder de hiperautomatización para proporcionar soluciones de automatización de procesos de TI y automatización de procesos robóticos (RPA)

¿Quieres conocer más detalles sobre reconocimiento óptico de caracteres? Con gusto podemos ayudarte a aclarar todas tus dudas. Haz nos saber si tiene alguna pregunta o si te gustaría tener una conversación más profunda para hablar sobre las soluciones de AutomationEdge.

Consula la información original en inglés.

Guía del CIO para la evaluación de soluciones RPA

En esta guía para CIO’s compartimos las claves para evaluar soluciones de RPA para tu negocio.

Guía de AI Service Desk y Automatización

En este documento te compartimos un modelo probado de automatización de la mesa de servicio de TI, que ayuda a analizar desafíos, evaluar soluciones y elegir el mejor enfoque de automatización.

10 consejos de lectura obligada para seleccionar un sistema ECM

En este eBook te mostramos cómo un sistema ECM y la gestión inteligente de la información puede hacer tu negocio más competitivo

Business Case para la Gestión de Contenido Empresarial

En este eBook te compartimos como la afluencia de contenido muy diverso de una variedad de sistemas y repositorios apunta a la urgente necesidad de las empresas invertir en la gestión de contenidos para tomar control de su contenido.