Logotipo de Zephyrnet

Cree una solución de verificación de vacunación utilizando la función Consultas en Amazon Textract | Servicios web de Amazon

Fecha:

Amazon Textil es un servicio de aprendizaje automático (ML) que permite la extracción automática de texto, escritura a mano y datos de documentos escaneados, superando el reconocimiento óptico de caracteres (OCR) tradicional. Puede identificar, comprender y extraer datos de tablas y formularios con notable precisión. Actualmente, varias empresas dependen de métodos de extracción manual o software OCR básico, lo cual es tedioso, requiere mucho tiempo y requiere una configuración manual que debe actualizarse cuando cambia el formulario. Amazon Textract ayuda a resolver estos desafíos mediante el uso de ML para procesar automáticamente diferentes tipos de documentos y extraer información con precisión con una mínima intervención manual. Esto le permite automatizar el procesamiento de documentos y utilizar los datos extraídos para diferentes propósitos, como automatizar el procesamiento de préstamos o recopilar información de facturas y recibos.

A medida que los viajes se reanudan después de la pandemia, en muchos casos puede ser necesario verificar el estado de vacunación del viajero. Los hoteles y las agencias de viajes a menudo necesitan revisar las tarjetas de vacunación para recopilar detalles importantes, como si el viajero está completamente vacunado, las fechas de la vacunación y el nombre del viajero. Algunas agencias hacen esto mediante la verificación manual de las tarjetas, lo que puede llevar mucho tiempo al personal y deja lugar a errores humanos. Otros han creado soluciones personalizadas, pero pueden ser costosas y difíciles de escalar, y su implementación requiere mucho tiempo. En el futuro, puede haber oportunidades para agilizar el proceso de verificación del estado de vacunación de una manera que sea eficiente para las empresas y al mismo tiempo respete la privacidad y conveniencia de los viajeros.

Consultas de extractos de texto de Amazon ayuda a abordar estos desafíos. Amazon Textract Queries le permite especificar y extraer solo la información que necesita del documento. Le brinda información precisa y exacta del documento.

En esta publicación, lo guiamos a través de una guía de implementación paso a paso para crear una solución de verificación del estado de vacunación mediante consultas de Amazon Textract. La solución muestra cómo procesar tarjetas de vacunación mediante una consulta de Amazon Textract, verificar el estado de vacunación y almacenar la información para uso futuro.

Resumen de la solución

El siguiente diagrama ilustra la arquitectura de la solución.

El flujo de trabajo incluye los siguientes pasos:

  1. El usuario toma una fotografía de una cartilla de vacunación.
  2. La imagen se carga en un Servicio de almacenamiento simple de Amazon (Amazon S3) cubo.
  3. Cuando la imagen se guarda en el depósito S3, invoca un Funciones de paso de AWS flujo de trabajo:
  4. El decisor de consultas AWS Lambda La función examina el documento pasado y agrega información sobre el tipo MIME, el número de páginas y el número de consultas al flujo de trabajo de Step Functions (para nuestro ejemplo, tenemos cuatro consultas).
  5. NumberQueriesAndPagesChoice es un estado de elección que agrega lógica condicional a un flujo de trabajo. Si hay entre 15 y 31 consultas y el número de páginas está entre 2 y 3,001, entonces el procesamiento asincrónico de Amazon Textract es la única opción, porque las API sincrónicas solo admiten hasta 15 consultas y documentos de una página. Para todos los demás casos, recurrimos a la selección aleatoria de procesamiento sincrónico o asincrónico.
  6. El TextractSync La función Lambda envía una solicitud a Amazon Textract para analizar el documento en función de las siguientes consultas de Amazon Textract:
    1. ¿Qué es el estado de vacunación?
    2. ¿Qué es nombre?
    3. ¿Qué es la fecha de nacimiento?
    4. ¿Qué es el número de documento?
  7. Amazon Textract analiza la imagen y envía las respuestas de estas consultas a la función Lambda.
  8. La función Lambda verifica el estado de vacunación del cliente y almacena el resultado final en formato CSV en el mismo depósito S3 (demoqueries-textractxxx) En la csv-output carpeta.

Requisitos previos

Para completar esta solución, debe tener una cuenta de AWS y los permisos adecuados para crear los recursos necesarios como parte de la solución.

Descargue el código de implementación y el modelo de tarjeta de vacunación desde GitHub.

Utilice la función Consultas en la consola de Amazon Textract

Antes de crear la solución de verificación de vacunación, exploremos cómo puede utilizar las consultas de Amazon Textract para extraer el estado de vacunación a través de la consola de Amazon Textract. Puede utilizar la muestra de tarjeta de vacunación que descargó del repositorio de GitHub.

  1. En la consola de Amazon Textract, elija Analizar documento en el panel de navegación.
  2. under Subir documento, escoger Elegir documento para cargar la tarjeta de vacunación desde su unidad local.
  3. Después de cargar el documento, seleccione Consultas existentes Configurar documento .
  4. Luego puede agregar consultas en forma de preguntas en lenguaje natural. Agreguemos lo siguiente:
    • ¿Qué es el estado de vacunación?
    • ¿Qué es nombre?
    • ¿Qué es la fecha de nacimiento?
    • ¿Qué es el número de documento?
  5. Después de agregar todas sus consultas, elija Aplicar configuración.
  6. Consulta las consultas pestaña para ver las respuestas a las preguntas.

Puede ver que Amazon Textract extrae la respuesta a su consulta del documento.

Implementar la solución de verificación de vacunación

En esta publicación utilizamos un Nube de AWS9 instancia e instalar las dependencias necesarias en la instancia con el Kit de desarrollo en la nube de AWS (AWS CDK) y Docker. AWS Cloud9 es un entorno de desarrollo integrado (IDE) basado en la nube que le permite escribir, ejecutar y depurar su código con solo un navegador.

  1. En la terminal, elija Cargar archivos locales en Archive .
  2. Elige Seleccionar carpeta Y elige la vaccination_verification_solution carpeta que descargaste de GitHub.
  3. En la terminal, prepare su aplicación sin servidor para los pasos posteriores de su flujo de trabajo de desarrollo en Modelo de aplicación sin servidor de AWS (AWS SAM) usando el siguiente comando:
    $ cd vaccination_verification_solution/
    $ pip install -r requirements.txt
    

  4. Implementar la aplicación utilizando el cdk deploy mando:
    cdk deploy DemoQueries --outputs-file demo_queries.json --require-approval never

    Espere a que AWS CDK implemente el modelo y cree los recursos mencionados en la plantilla.

  5. Cuando se completa la implementación, puede verificar los recursos implementados en la página Formación en la nube de AWS consola en el Recursos pestaña de la página de detalles de la pila.

Prueba la solución

Ahora es el momento de probar la solución. Para activar el flujo de trabajo, utilice aws s3 cp para subir el vac_card.jpg presentar a la DemoQueries.DocumentUploadLocation dentro de la carpeta de documentos:

aws s3 cp docs/vac_card.JPG $(aws cloudformation list-exports --query 'Exports[?Name==`DemoQueries-DocumentUploadLocation`].Value' --output text)


El archivo del certificado de vacunación se carga automáticamente en el depósito S3 demoqueries-textractxxx en la carpeta de cargas.

El flujo de trabajo de Step Functions se activa a través de una función Lambda tan pronto como el archivo del certificado de vacunación se carga en el depósito S3.

La función Queries-Decider Lambda examina el documento y agrega información sobre el tipo MIME, el número de páginas y el número de consultas al flujo de trabajo de Step Functions (para este ejemplo, utilizamos cuatro consultas: número de documento, nombre del cliente, fecha de nacimiento y estado de vacunación).

El TextractSync La función envía las consultas de entrada a Amazon Textract y devuelve sincrónicamente el resultado completo como parte de la respuesta. Admite documentos de 1 página (TIFF, PDF, JPG, PNG) y hasta 15 consultas. El GenerateCsvTask La función toma la salida JSON de Amazon Textract y la convierte en un archivo CSV.

El resultado final se almacena en el mismo depósito S3 en la carpeta csv-output como un archivo CSV.

Puede descargar el archivo a su máquina local usando el siguiente comando:

aws s3 cp <paste the S3 URL from TextractOutputCSVPath>

El formato del resultado es timestamp, classification, filename, page number, key name, key_confidence, value, value_confidence, key_bb_top, key_bb_height, key_bb.width, key_bb_left, value_bb_top, value_bb_height, value_bb_width, value_bb_left.

Puede escalar la solución a cientos de documentos de certificados de vacunación para múltiples clientes cargando sus certificados de vacunación en DemoQueries.DocumentUploadLocation. Esto activa automáticamente múltiples ejecuciones de la máquina de estado de Step Functions y el resultado final se almacena en el mismo depósito S3 en la carpeta csv-output.

Para cambiar el conjunto inicial de consultas que se introducen en Amazon Textract, puede ir a su instancia de AWS Cloud9 y abrir el archivo start_execution.py. En la vista de archivos en el panel izquierdo, navegue hasta lambda, start_queries, app, start_execution.py. Esta función Lambda se invoca cuando se carga un archivo en DemoQueries.DocumentUploadLocation. Las consultas enviadas al flujo de trabajo se definen en start_execution.py; puede cambiarlos actualizando el código como se muestra en la siguiente captura de pantalla.

Limpiar

Para evitar incurrir en cargos continuos, elimine los recursos creados en esta publicación usando el siguiente comando:

cdk destroy DemoQueries

Responde la pregunta Are you sure you want to delete: DemoQueries (y/n)? con y.

Conclusión

En esta publicación, le mostramos cómo utilizar Amazon Textract Queries para crear una solución de verificación de vacunación para la industria de viajes. Puede utilizar Amazon Textract Queries para crear soluciones en otras industrias, como finanzas y atención médica, y recuperar información de documentos como recibos de sueldo, notas hipotecarias y tarjetas de seguro basándose en preguntas en lenguaje natural.

Para más información, consulte la Análisis de documentoso consulte la consola de Amazon Textract y pruebe esta función.


Acerca de los autores

Dhiraj Thakur es un arquitecto de soluciones con Amazon Web Services. Trabaja con los clientes y socios de AWS para proporcionar orientación sobre la adopción, la migración y la estrategia de la nube empresarial. Es un apasionado de la tecnología y disfruta construyendo y experimentando en el espacio analítico y AI / ML.

Rishabh Yadav es arquitecto de soluciones de socios en AWS con amplia experiencia en ofertas de DevOps y seguridad en AWS. Trabaja con socios de la ASEAN para brindar orientación sobre la adopción de la nube empresarial y revisiones de arquitectura, además de desarrollar prácticas de AWS mediante la implementación del marco de buena arquitectura. Fuera del trabajo, le gusta dedicar su tiempo al campo de los deportes y a los juegos FPS.

punto_img

Información más reciente

punto_img