Logotipo de Zephyrnet

Cómo extraer fácilmente datos de recibos de pago usando aprendizaje profundo

Fecha:

¿Cómo OCR nóminas? Este blog es una descripción general completa de los diferentes métodos de extracción de texto estructurado mediante OCR de los recibos de pago de sueldos para automatizar la entrada manual de datos.

Los recibos de pago o talones de pago, como se los conoce más comúnmente, son una forma común de verificación de ingresos utilizada por los prestamistas para verificar su solvencia crediticia. Si es un empleado que trabaja o ha estado en el pasado, sin duda se ha encontrado con uno. Por lo general, estas nóminas contienen detalles como los ingresos de un empleado durante un tiempo determinado, incluidos otros campos como sus deducciones fiscales, montos de seguro, números de seguro social, etc. Estos pueden estar en papel o en formato digital y, a veces, enviados por correo electrónico o publicar.

Actualmente, los prestamistas obtienen archivos PDF escaneados o digitales de estos recibos de pago e ingresan manualmente los detalles en sus sistemas para emitir un préstamo. Este proceso lleva mucho tiempo, especialmente durante las temporadas altas, lo que lleva a que transcurra mucho tiempo desde la solicitud del préstamo hasta la liberación de los fondos. ¿Qué pasaría si pudieras? raspar PDF versiones de estos recibos de pago y reducir este tiempo a unos pocos segundos para un procesamiento de préstamo más rápido para deleitar a su cliente?

En este blog, revisaremos diferentes formas sobre cómo se puede automatizar la extracción de información de nóminas (Payslip OCR o Payslip Extracto de PDF) y guárdelos como datos estructurados mediante el reconocimiento óptico de caracteres (OCR). Además, discutiremos los desafíos frecuentes que encontramos para construir un OCR preciso integrado con modelos de aprendizaje automático y aprendizaje profundo. A continuación se muestra la tabla de contenido.

En esta sección, discutiremos cómo podemos hacer uso de algoritmos basados ​​en OCR para extraer información de los recibos de pago. Si no conoce el OCR, considérelo como un algoritmo informático que puede leer imágenes de texto mecanografiado o escrito a mano en formato de texto. Existen diferentes herramientas gratuitas y de código abierto en GitHub como Tesseract, Ocropus, Kraken, pero tienen ciertas limitaciones. Por ejemplo, Tesseract es muy preciso para extraer texto organizado, pero no funciona bien en datos no estructurados. Del mismo modo, las otras herramientas de OCR tienen varias limitaciones basadas en las fuentes, el idioma, la alineación, las plantillas, etc. Ahora, volviendo a nuestro problema de extraer información de nóminas, un OCR ideal debería poder extraer todos los campos esenciales, independientemente de la inconvenientes discutidos anteriormente. Ahora, antes de configurar un OCR, veamos los campos estándar que necesitamos extraer de un documento de nómina.

  • Sueldo neto
  • Salario bruto
  • Cuenta bancaria
  • Nombre del empleador
  • Dirección del empleado
  • Nombre de empleado
  • Número de empleado
  • Dirección del empleado
  • Periodo salarial
  • Fecha de nacimiento
  • Días trabajados
  • Horas trabajadas
  • Fecha de servicio de entrada / salida
  • Tarifa por hora
  • Tasa de impuesto
  • Fecha de emisión

Antes de configurar un OCR y analizar los resultados, debemos darnos cuenta de que OCR no sabe qué tipo de documentos les estamos dando para extraer, identifican ciegamente el texto y lo devuelven independientemente de los campos o identificadores mencionados anteriormente. Ahora, usaremos Tesseract, que es un motor de OCR gratuito y de código abierto de Google. Para obtener más información sobre cómo configurar esto en su sistema y desarrollar scripts de Python para imágenes escaneadas, consulte nuestra guía sobre Tesseract aquí.

Imagen de la izquierda: recibo de pago, imagen de la derecha: texto extraído del recibo de pago con Tesseract

Como podemos ver claramente, Tesseract identificó todo el texto en la imagen dada, independientemente de las tablas, posiciones y alineación del texto y lo imprimió con precisión. Pero se necesita mucho posprocesamiento para seleccionar todos los campos importantes y colocarlos de forma estructurada. Por ejemplo, digamos que solo necesita extraer los impuestos deducidos para un empleado, Tesseract por sí solo no puede hacerlo. Aquí es donde entran en juego los modelos de aprendizaje automático y aprendizaje profundo para identificar de forma inteligente la ubicación de los campos y extraer los valores necesarios. A esto lo llamamos extracción de par clave-valor, analicemos cómo podemos lograrlo en las siguientes secciones.

Inconvenientes y desafíos

Al escanear los recibos de pago, nos encontramos con diferentes problemas, como capturar en ángulos incorrectos o condiciones de iluminación tenue. Además, una vez capturados, es igualmente importante comprobar si son originales o falsificados. En esta sección, discutiremos estos desafíos críticos y cómo se pueden abordar.

Escaneo inadecuado

Es el problema más común al realizar OCR. Para imágenes escaneadas y alineadas de alta calidad, el OCR tiene una alta precisión para producir texto editable con capacidad de búsqueda. Sin embargo, cuando un escaneo está distorsionado o cuando el texto está borroso, las herramientas de OCR pueden tener dificultades para leerlo, y ocasionalmente producen resultados inexactos. Para superar esto, debemos estar familiarizados con técnicas como las transformaciones de imágenes y el desvío, que nos ayudan a alinear la imagen en una posición adecuada.

Comprobaciones de fraude e imágenes borrosas

Es importante que las empresas y los empleados comprueben si las nóminas son auténticas o no. Estos son algunos de los rasgos que pueden ayudarnos a comprobar si la imagen es falsa o no.

  • Identifique fondos para partes dobladas o distorsionadas.
  • Tenga cuidado con las imágenes de baja calidad.
  • Compruebe si hay textos borrosos o editados.

Un algoritmo que es familiar para superar esta tarea es la "Varianza de Laplacian". Nos ayuda a encontrar y examinar la distribución de frecuencias altas y bajas en la imagen dada.

Como se mencionó anteriormente, la extracción de clave-valor buscará claves definidas por el usuario que son texto estático en formularios y luego identificará los valores asociados a ellas. Para lograr esta técnica primero, uno debe estar familiarizado con Deep Learning. También tendremos que asegurarnos de que estos algoritmos de aprendizaje profundo sean aplicables para diferentes plantillas, ya que en el mismo algoritmo debería ser apropiado para documentos de otros formatos. Una vez que el algoritmo encuentra la posición de las claves y valores requeridos, usamos OCR para extraer el texto de él.

Aquí hay un ejemplo de cómo tesseract extrae texto,

Muestra de recibo de pago

Sample Company LLC EARNINGS STATEMENT
2305 Gruene Lake Drive, Suite C New Braunfels, Texas
Hidalgo P. Swift XXX-XX-1234 12345 76612 01/08/19-01/14/19 0115/19
GROSS WAGES 24.25 40.00 970.00 FICA MED TAX 14.06 28.12
FICA SS TAX 60.14 120.28
FED TAX 117.68 235.36
1,940.00 383.76 1,556.24 970.00 191.88 778.12

Mientras que para la extracción de pares clave-valor tendremos una salida JSON de las claves y valores requeridos del recibo de pago dado. Los datos JSON de salida se pueden guardar como datos estructurados en hojas de Excel, bases de datos y sistemas CRM mediante el uso de scripts de automatización simples. En la siguiente sección, analizaremos algunas técnicas de aprendizaje profundo para la extracción de pares clave-valor en documentos como recibos de pago.

Modelos de aprendizaje profundo para IE de nómina

Hay dos formas de extraer información mediante el aprendizaje profundo, una construyendo algoritmos que pueden aprender de las imágenes y la otra del texto.

Muy bien, ahora profundicemos en el aprendizaje profundo y comprendamos cómo estos algoritmos identifican pares clave-valor a partir de imágenes o texto. También especialmente para los recibos de pago, es esencial extraer los datos de las tablas, ya que la mayoría de las ganancias y deducciones en un recibo de pago se mencionan en formato tabular. Ahora, revisemos algunas arquitecturas populares de aprendizaje profundo para documentos escaneados.

En la investigación, CUTIE (Learning to Understand Documents with Convolutional Universal Text Information Extractor), Xiaohui Zhao propuso extraer información clave de documentos, como recibos o facturas, y preservar los textos interesantes en datos estructurados. El corazón de esta investigación son las redes neuronales convolucionales, que se aplican a los textos. Aquí, los textos están incrustados como características con connotaciones semánticas. Este modelo está capacitado en 4, 484 recibos etiquetados y ha logrado 90.8%, 77.7% de precisión promedio en recibos de taxi y recibos de entretenimiento, respectivamente.

BERTgrid es un popular modelo de lenguaje basado en el aprendizaje profundo para comprender documentos genéricos y realizar tareas de extracción de pares clave-valor. Este modelo también utiliza redes neuronales convolucionales basadas en la segmentación de instancia semántica para ejecutar la inferencia. En general, la precisión media en el encabezado del documento seleccionado y las líneas de pedido fue del 65.48%.

In ProfundoDeSRT, Schreiber y col. presentó el sistema de extremo a extremo para la comprensión de tablas en imágenes de documentos. El sistema contiene dos modelos posteriores para la detección de tablas y la extracción de datos estructurados en las tablas reconocidas. Superó los métodos de vanguardia para la detección de tablas y el reconocimiento de estructuras al lograr medidas F1 de 96.77% y 91.44% para la detección de tablas y el reconocimiento de estructuras, respectivamente. Modelos como estos se pueden utilizar para extraer valores de tablas de nóminas exclusivamente.

OTRAS LECTURAS


punto_img

Información más reciente

punto_img