Logotipo de Zephyrnet

Automatice la digitalización de documentos transaccionales con supervisión humana utilizando Amazon Textract y Amazon A2I

Fecha:

En esta publicación, presentamos una solución para digitalizar documentos transaccionales utilizando Amazon Textil e incorporar una revisión humana usando IA aumentada de Amazon (A2I). Puede encontrar la fuente de la solución en nuestro GitHub repositorio.

Las organizaciones deben procesar con frecuencia documentos transaccionales escaneados con texto estructurado para poder realizar operaciones como detección de fraude o aprobaciones financieras. Algunos ejemplos comunes de documentos transaccionales que contienen datos tabulares incluyen extractos bancarios, facturas y listas de materiales. La extracción manual de datos de dichos documentos es costosa, lleva mucho tiempo y, a menudo, requiere una inversión significativa en la capacitación de una fuerza laboral especializada. Con la arquitectura descrita en esta publicación, puede digitalizar datos tabulares incluso de documentos escaneados de baja calidad y lograr un alto grado de precisión.

Se han logrado avances significativos con algoritmos basados ​​en aprendizaje automático (ML) para aumentar la precisión y la confiabilidad al procesar documentos de texto escaneados. Estos algoritmos suelen igualar el rendimiento a nivel humano en el reconocimiento de texto y la extracción de contenido. Amazon Textract es un servicio completamente administrado que extrae automáticamente texto impreso, escritura a mano y otros datos de documentos escaneados. Además, Amazon Textract puede identificar y extraer automáticamente formularios y tablas de documentos escaneados.

Las empresas que manejan documentos complejos, variados y confidenciales a menudo necesitan supervisión humana para garantizar la precisión, la coherencia y el cumplimiento de los datos extraídos. A medida que los revisores humanos brindan información, puede ajustar los modelos de IA para capturar los matices sutiles de un proceso comercial en particular. Amazon A2I es un servicio de aprendizaje automático que facilita la creación de los flujos de trabajo necesarios para la revisión humana. Amazon A2I elimina el trabajo pesado no diferenciado asociado con la creación de sistemas de revisión humanos o la gestión de una gran cantidad de revisores humanos, y brinda una experiencia unificada y segura a su fuerza laboral.

La extracción de datos transaccionales de documentos escaneados, como una lista de transacciones con tarjeta de débito en un extracto bancario, plantea un conjunto único de desafíos. La combinación de la inteligencia artificial con la revisión humana proporciona un enfoque práctico para superar estos obstáculos. Una solución integrada que combina Amazon Textract y Amazon A2I es un ejemplo convincente.

Los consumidores utilizan habitualmente sus teléfonos inteligentes para escanear y cargar documentos transaccionales. Dependiendo de la calidad general del escaneo, incluidas las condiciones de iluminación, la perspectiva sesgada y una resolución de imagen inferior a la adecuada, no es raro ver una precisión subóptima cuando estos documentos se procesan con técnicas de visión por computadora (CV). Al mismo tiempo, el manejo de documentos escaneados con mano de obra puede resultar en mayores costos de procesamiento y tiempo de procesamiento, y puede limitar su capacidad para escalar el volumen de documentos que puede manejar una canalización.

Resumen de la solución

El siguiente diagrama ilustra el flujo de trabajo de nuestra solución:

Nuestro flujo de trabajo integral realiza los siguientes pasos:

  1. Extrae tablas de documentos originales escaneados.
  2. Aplica reglas comerciales personalizadas al extraer datos de las tablas.
  3. Escala selectivamente documentos desafiantes para revisión humana.
  4. Realiza el posprocesamiento de los datos extraídos.
  5. Almacena los resultados.

Se proporciona una interfaz de usuario personalizada creada con ReactJS a los revisores humanos para revisar y corregir de manera intuitiva y eficiente los problemas en los documentos cuando Amazon Textract proporciona una puntuación de extracción de baja confianza, por ejemplo, cuando el texto está oscuro, borroso o poco claro.

Nuestra solución de referencia utiliza una tubería altamente resistente, como se detalla en el siguiente diagrama, para coordinar las diversas etapas de procesamiento de documentos.

La solución incorpora varias mejores prácticas arquitectónicas:

  • Procesamiento por lotes – Cuando sea posible, la solución debe recopilar varios documentos y realizar operaciones por lotes para que podamos optimizar el rendimiento y utilizar los recursos de manera más eficiente. Por ejemplo, llamar a un modelo de IA personalizado para ejecutar la inferencia una vez para un grupo de documentos, en lugar de llamar al modelo para cada documento individualmente. El diseño de nuestra solución debe permitir el procesamiento por lotes cuando corresponda.
  • Ajuste de prioridad – Cuando el volumen de documentos en la cola aumenta y la solución ya no puede procesarlos de manera oportuna, necesitamos una forma de indicar que ciertos documentos tienen mayor prioridad y, por lo tanto, deben procesarse antes que otros documentos en la cola. .
  • Escalado automático – La solución debe ser capaz de escalar hacia arriba y hacia abajo dinámicamente. Muchos flujos de trabajo de procesamiento de documentos deben admitir la naturaleza cíclica de la demanda. Debemos diseñar la solución de manera que pueda escalarse sin problemas para manejar picos en la carga y reducirse cuando la carga disminuya.
  • Autorregulación – La solución debe ser capaz de manejar correctamente las interrupciones del servicio externo y las limitaciones de tarifas.

Etapas de procesamiento de documentos

En esta sección, lo guiaremos a través de los detalles de cada etapa en el flujo de trabajo de procesamiento de documentos:

  • Acquisition
  • Conversión
  • Extracción
  • Reorganización
  • Operaciones comerciales personalizadas
  • aumentar
  • catalogación

Acquisition

La primera etapa de la tubería adquiere documentos de entrada de Servicio de almacenamiento simple de Amazon (Amazon S3). En esta etapa, almacenamos la información inicial del documento en un Amazon DynamoDB después de recibir una notificación de evento S3 a través de Servicio de cola simple de Amazon (Amazon SQS). Usamos este registro de tabla para rastrear la progresión de este documento a lo largo de toda la canalización.

El orden de prioridad de cada documento se determina clasificando el prefijo de la clave de entrada alfanumérica en la ruta del documento. Por ejemplo, un documento almacenado con clave acquire/p0/doc.pdf da como resultado la prioridad p0, y tiene prioridad sobre otro documento almacenado con clave acquire/p1/doc.pdf (resultando en la prioridad p1). Los documentos sin indicador de prioridad en la clave se procesan al final.

Conversión

Los documentos adquiridos en la etapa anterior se convierten a formato PDF, por lo que podemos proporcionar un formato de datos coherente
para el resto de la tubería. Esto nos permite agrupar varias páginas de un documento relacionado.

Extracción

Los documentos PDF se envían a Amazon Textract para realizar el reconocimiento óptico de caracteres (OCR). Los resultados de Amazon Textract se almacenan como JSON en una carpeta en Amazon S3.

Reorganización

Amazon Textract proporciona información detallada del documento procesado, incluido texto sin formato, pares clave-valor y tablas. Una cantidad significativa de metadatos adicionales identifica la ubicación y la relación entre los bloques de entidad detectados. Los datos transaccionales se seleccionan para su posterior procesamiento en esta etapa.

Operaciones comerciales personalizadas

Las reglas comerciales personalizadas se aplican a la salida remodelada que contiene información sobre las tablas del documento. Las reglas personalizadas pueden incluir detección de formato de tabla (como detectar que una tabla contiene transacciones de cheques) o validación de columna (como verificar que una columna de código de producto solo contiene códigos válidos).

aumentar

Los anotadores humanos utilizan Amazon A2I para revisar el documento y aumentarlo con cualquier información que se haya perdido. La revisión incluye el análisis de cada tabla del documento en busca de errores, como tipos de tabla incorrectos, encabezados de campo y texto de celda individual que se pronosticó incorrectamente. Las puntuaciones de confianza proporcionadas por la etapa de extracción se muestran en la interfaz de usuario para ayudar a los revisores humanos a localizar fácilmente las predicciones menos precisas. La siguiente captura de pantalla muestra la interfaz de usuario personalizada utilizada para este propósito.

Nuestra solución utiliza una fuerza laboral de revisión humana privada que consta de anotadores internos. Esta es una opción ideal cuando se trata de documentos confidenciales o documentos que requieren un conocimiento de dominio altamente especializado. Amazon A2I también es compatible con las fuerzas de trabajo de revisión humana a través de Amazon Mechanical Turk y los socios de etiquetado de datos autorizados de Amazon.

catalogación

Los documentos que pasan la revisión humana se catalogan en un libro de Excel para que sus equipos comerciales puedan consumirlos fácilmente. El libro de trabajo contiene cada tabla detectada y procesada en el documento de origen en su hoja respectiva, que está etiquetada con el tipo de tabla y el número de página. Estos archivos de Excel se almacenan en una carpeta en Amazon S3 para que los consuman las aplicaciones comerciales, por ejemplo, para detectar fraudes mediante técnicas de aprendizaje automático.

Implementar la solución

Esta solución de referencia está disponible en GitHub y puede implementarla con el Kit de desarrollo en la nube de AWS (CDK de AWS). AWS CDK utiliza la familiaridad y el poder expresivo de los lenguajes de programación para modelar sus aplicaciones. Proporciona componentes de alto nivel llamados construcciones que preconfiguran los recursos de la nube con valores predeterminados probados, para que pueda crear aplicaciones en la nube con facilidad.

Para obtener instrucciones sobre cómo implementar la aplicación en la nube, consulte el archivo LÉAME en el GitHub repositorio

Demostración de la solución

El siguiente video lo guía a través de una demostración de la solución.

Conclusión

Esta publicación mostró cómo puede crear una solución de digitalización personalizada para procesar documentos transaccionales con Amazon Textract y Amazon A2I. Automatizamos y aumentamos los manifiestos de entrada y aplicamos reglas comerciales personalizadas. También proporcionamos una interfaz de usuario intuitiva para que las fuerzas de trabajo humanas revisen los datos con puntajes de confianza bajos, realicen los ajustes necesarios y utilicen los comentarios para mejorar los modelos de aprendizaje automático subyacentes. La capacidad de usar un marco de front-end personalizado como ReactJS nos permite crear aplicaciones web modernas que satisfacen nuestras necesidades precisas, especialmente cuando se utilizan fuerzas de trabajo de etiquetado de datos públicas, privadas o de terceros.

Para obtener más información acerca de Amazon Texttract y Amazon A2I, consulte Uso de IA aumentada de Amazon para agregar revisión humana a la salida de Amazon Textract. Para presentaciones de video, cuadernos Jupyter de muestra o información sobre casos de uso como procesamiento de documentos, moderación de contenido, análisis de opiniones, traducción de texto y más, consulte Recursos de IA aumentada de Amazon.

Acerca del equipo

El laboratorio de soluciones de Amazon ML empareja a su organización con expertos en ML para ayudarlo a identificar y crear soluciones de ML para abordar las oportunidades de ML de mayor retorno de la inversión de su organización. A través de talleres de descubrimiento y sesiones de ideación, el Laboratorio de soluciones de ML "trabaja hacia atrás" a partir de sus problemas comerciales para entregar una hoja de ruta de casos de uso de ML priorizados con un plan de implementación para abordarlos. Nuestros científicos de ML diseñan y desarrollan modelos de ML avanzados en áreas como la visión por computadora, el procesamiento del habla y el procesamiento del lenguaje natural para resolver los problemas de los clientes, incluidas las soluciones que requieren revisión humana.


Acerca de los autores

Pri Nonis es un arquitecto de aprendizaje profundo en Amazon ML Solutions Lab, donde trabaja con clientes en varios verticales y los ayuda a acelerar su viaje de migración a la nube y a resolver sus problemas de ML utilizando soluciones y tecnologías de última generación.

dan noble es ingeniero de desarrollo de software en Amazon, donde ayuda a crear experiencias de usuario agradables. En su tiempo libre, disfruta leer, hacer ejercicio y vivir aventuras con su familia.

Jae Sung Jang es un ingeniero de desarrollo de software. Su pasión radica en la automatización de procesos manuales utilizando soluciones de inteligencia artificial y tecnologías de orquestación para garantizar la ejecución empresarial.

Jeremy Feltracco es ingeniero de desarrollo de software en el laboratorio de soluciones de Amazon ML en Amazon Web Services. Utiliza su experiencia en visión por computadora, robótica y aprendizaje automático para ayudar a los clientes de AWS a acelerar su adopción de IA.

david dazari es gerente en el Laboratorio de soluciones de Amazon ML, donde ayuda a los clientes de AWS a acelerar su IA y la adopción de la nube en las soluciones Human-In-The-Loop en varios sectores verticales de la industria. Con ERP y servicios de pago como experiencia, estaba obsesionado con que ML/AI avanzara a pasos agigantados para deleitar a los clientes que lo llevaron a este campo.

punto_img

Información más reciente

punto_img