Logotipo de Zephyrnet

Modere su transmisión en vivo de Amazon IVS con Amazon Rekognition | Servicios web de Amazon

Fecha:

Servicio de video interactivo de Amazon (Amazon IVS) es una solución administrada de transmisión en vivo diseñada para proporcionar una configuración rápida y sencilla que le permita crear experiencias de video interactivas y manejar contenido de video interactivo desde la ingesta hasta la entrega.

Con el mayor uso de la transmisión en vivo, la necesidad de una moderación efectiva del contenido se vuelve aún más crucial. El contenido generado por el usuario (CGU) presenta desafíos complejos para la seguridad. Muchas empresas dependen de moderadores humanos para monitorear las transmisiones de video, lo cual requiere mucho tiempo, es propenso a errores y no se adapta a la velocidad de crecimiento del negocio. Cada vez se necesita más una solución de moderación automatizada que respalde a un ser humano en el circuito (HITL).

Moderación de contenido de Amazon Rekognition, una capacidad de Reconocimiento de amazonas, automatiza y agiliza los flujos de trabajo de moderación de imágenes y videos sin requerir experiencia en aprendizaje automático (ML). En esta publicación, explicamos la práctica común de moderación visual de transmisiones en vivo con una solución que utiliza la API de imágenes de Amazon Rekognition para moderar transmisiones en vivo. Puede implementar esta solución en su cuenta de AWS utilizando el Kit de desarrollo en la nube de AWS (AWS CDK) disponible en nuestro Repositorio GitHub.

Moderar contenido visual de transmisión en vivo

El enfoque más común para la moderación visual de transmisiones en vivo de UGC implica muestrear imágenes de la transmisión y utilizar la moderación de imágenes para recibir resultados casi en tiempo real. Las plataformas de transmisión en vivo pueden utilizar reglas flexibles para moderar el contenido visual. Por ejemplo, las plataformas con audiencias más jóvenes pueden tener reglas estrictas sobre contenido para adultos y ciertos productos, mientras que otras pueden centrarse en símbolos de odio. Estas plataformas establecen diferentes reglas para hacer coincidir sus políticas de manera efectiva. Al combinar la revisión humana y automática, un proceso híbrido es un enfoque de diseño común. Ciertas transmisiones se detendrán automáticamente, pero los moderadores humanos también evaluarán si una transmisión viola las políticas de la plataforma y debe desactivarse.

El siguiente diagrama ilustra el flujo de trabajo conceptual de un sistema de moderación casi en tiempo real, diseñado con un acoplamiento flexible con el sistema de transmisión en vivo.

General

El flujo de trabajo contiene los siguientes pasos:

  1. El servicio de transmisión en vivo (o la aplicación cliente) toma muestras de fotogramas de imágenes de transmisiones de video en función de un intervalo específico.
  2. Un motor de reglas evalúa las pautas de moderación, determinando la frecuencia del muestreo de flujo y las categorías de moderación aplicables, todo dentro de políticas predefinidas. Este proceso implica la utilización de algoritmos ML y no ML.
  3. El motor de reglas alerta a los moderadores humanos al detectar infracciones en las transmisiones de video.
  4. Los moderadores humanos evalúan el resultado y desactivan la transmisión en vivo.

La moderación de transmisiones en vivo de UGC es distinta de la moderación de video clásica en los medios. Atiende diversas regulaciones. La frecuencia con la que se toman muestras de imágenes de fotogramas de vídeo para moderación suele estar determinada por la política de confianza y seguridad de la plataforma y el acuerdo de nivel de servicio (SLA). Por ejemplo, si una plataforma de transmisión en vivo tiene como objetivo detener los canales en 3 minutos por violaciones de políticas, un enfoque práctico es realizar muestras cada 1 o 2 minutos, dando tiempo a los moderadores humanos para verificar y tomar medidas. Algunas plataformas requieren un control flexible de la frecuencia de moderación. Por ejemplo, los streamers de gran reputación pueden necesitar menos moderación, mientras que los nuevos requieren más atención. Esto también permite la optimización de costos al reducir la frecuencia de muestreo.

El costo es una consideración importante en cualquier solución de moderación de transmisión en vivo. A medida que las plataformas de transmisión en vivo UGC se expanden rápidamente, moderar las transmisiones simultáneas a alta frecuencia puede generar preocupaciones sobre los costos. La solución presentada en esta publicación está diseñada para optimizar costos al permitirle definir reglas de moderación para personalizar la frecuencia de muestreo, ignorar marcos de imágenes similares y otras técnicas.

Grabación de contenido de transmisión de Amazon IVS en Amazon S3

Amazon IVS ofrece soluciones nativas para grabar contenido de transmisión a una Servicio de almacenamiento simple de Amazon (Amazon S3) y generación de miniaturas: fotogramas de imágenes de una transmisión de vídeo. Genera miniaturas cada 60 segundos de forma predeterminada y brinda a los usuarios la opción de personalizar la calidad y frecuencia de la imagen. Utilizando el Consola de administración de AWS, puede crear una configuración de grabación y vincularlo a un canal de Amazon IVS. Cuando una configuración de grabación está asociada con un canal, las transmisiones en vivo del canal se graban automáticamente en el depósito S3 especificado.

No hay cargos de Amazon IVS por utilizar la función de grabación automática en Amazon S3 o por escribir en Amazon S3. Hay cargos por el almacenamiento de Amazon S3, las llamadas a la API de Amazon S3 que realiza Amazon IVS en nombre del cliente y la entrega del vídeo almacenado a los espectadores. Para obtener detalles sobre los costos de Amazon IVS, consulte Costos (streaming de baja latencia).

API de moderación de Amazon Rekognition

En esta solución, usamos el API de detección de moderación de Amazon Rekognition para moderar las miniaturas de Amazon IVS casi en tiempo real. Amazon Rekognition Content Moderation proporciona API previamente entrenadas para analizar una amplia gama de contenido inapropiado u ofensivo, como violencia, desnudez, símbolos de odio y más. Para obtener una lista completa de las taxonomías de moderación de contenido de Amazon Rekognition, consulte Moderación de contenido.

El siguiente fragmento de código demuestra cómo llamar a la API DetectModerationLabel de Amazon Rekognition para moderar imágenes dentro de un AWS Lambda función usando la biblioteca Python Boto3:

import boto3 # Initialize the Amazon Rekognition client object
rekognition = boto3.client('rekognition') # Call the Rekognition Image moderation API
response = rekognition.detect_moderation_labels( Image={'S3Object': {'Bucket': data_bucket,'Name': s3_key}}
)

A continuación se muestra un ejemplo de respuesta de la API de moderación de imágenes de Amazon Rekognition:

{ "ModerationLabels": [ { "Confidence": 99.9290542602539, "Name": "Female Swimwear Or Underwear", "ParentName": "Suggestive" }, ... ], "ModerationModelVersion": "6.1"
}

Para ver ejemplos adicionales de la API de moderación de imágenes de Amazon Rekognition, consulte nuestra Laboratorio de imágenes de moderación de contenido.

Resumen de la solución

Esta solución se integra con Amazon IVS leyendo imágenes en miniatura de un depósito S3 y enviando imágenes a la API de moderación de imágenes de Amazon Rekognition. Proporciona opciones para detener la transmisión automáticamente y una revisión humana en el circuito. Puede configurar reglas para que el sistema detenga automáticamente las transmisiones según las condiciones. También incluye un portal ligero de revisión humana, que permite a los moderadores monitorear transmisiones, administrar alertas de infracciones y detener transmisiones cuando sea necesario.

En esta sección, presentamos brevemente la arquitectura del sistema. Para obtener información más detallada, consulte la Repositorio GitHub.

La siguiente grabación de pantalla muestra la interfaz de usuario del moderador, lo que les permite monitorear transmisiones activas con advertencias de moderación y tomar acciones como detener la transmisión o descartar advertencias.

Moderador de demostración

Los usuarios pueden personalizar las reglas de moderación, controlar la frecuencia de muestreo de la transmisión de video por canal, configurar las categorías de moderación de Amazon Rekognition con umbrales de confianza y habilitar verificaciones de similitud, lo que garantiza el rendimiento y la optimización de costos al evitar el procesamiento de imágenes redundantes.

La siguiente grabación de pantalla muestra la interfaz de usuario para administrar una configuración global.

Configuración de demostración

La solución utiliza una arquitectura de microservicios, que consta de dos componentes clave ligeramente acoplados con Amazon IVS.

Arquitectura general

motor de reglas

El motor de reglas constituye la columna vertebral del sistema de moderación de transmisiones en vivo. Es un servicio de procesamiento en vivo que permite la moderación casi en tiempo real. Utiliza Amazon Rekognition para moderar imágenes, valida resultados según reglas personalizables, emplea algoritmos de hash de imágenes para reconocer y excluir imágenes similares y puede detener transmisiones automáticamente o alertar al subsistema de revisión humana sobre violaciones de reglas. El servicio se integra con Amazon IVS a través de la lectura de imágenes basada en Amazon S3 y facilita la invocación de API a través de Puerta de enlace API de Amazon.

El siguiente diagrama de arquitectura ilustra el flujo de trabajo de moderación casi en tiempo real.

Motor de reglas

Existen dos métodos para desencadenar el flujo de trabajo de procesamiento del motor de reglas:

  • Activador de archivos S3 – Cuando se agrega una nueva imagen al depósito de S3, se inicia el flujo de trabajo. Esta es la forma recomendada para la integración de Amazon IVS.
  • Llamada API REST – Puede realizar una llamada API RESTful a API Gateway con los bytes de imagen en el cuerpo de la solicitud. La API almacena la imagen en un depósito S3, lo que activa el procesamiento casi en tiempo real. Este enfoque es adecuado para imágenes capturadas por el lado del cliente de la aplicación de transmisión en vivo y transmitidas a través de Internet.

El flujo de trabajo de procesamiento de imágenes, gestionado por Funciones de paso de AWS, implica varios pasos:

  1. Verifique la regla de frecuencia de muestreo. El procesamiento se detiene si el tiempo de muestra anterior es demasiado reciente.
  2. Si está habilitado en la configuración, realice una verificación de similitud utilizando algoritmos hash de imágenes. El proceso omite la imagen si es similar a la anterior recibida para el mismo canal.
  3. Utilice la API de moderación de imágenes de Amazon Rekognition para evaluar la imagen según las reglas configuradas, aplicando un umbral de confianza e ignorando categorías innecesarias.
  4. Si el resultado de la moderación viola alguna regla, envíe notificaciones a un Servicio de notificación simple de Amazon (Amazon SNS), alertando a los sistemas posteriores con advertencias de moderación.
  5. Si se infringe la regla de moderación de detención automática, la transmisión de Amazon IVS se detendrá automáticamente.

El diseño gestiona reglas a través de una máquina de estado de Step Functions, proporcionando una GUI de arrastrar y soltar para una definición flexible del flujo de trabajo. Puede ampliar el motor de reglas incorporando flujos de trabajo adicionales de Step Functions.

Panel de control y gestión

El panel de monitoreo y administración es una aplicación web con una interfaz de usuario que permite a los moderadores humanos monitorear las transmisiones en vivo de Amazon IVS. Proporciona alertas de moderación casi en tiempo real, lo que permite a los moderadores detener transmisiones o descartar advertencias. El portal web también permite a los administradores gestionar reglas de moderación para el motor de reglas. Admite dos tipos de configuraciones:

  • reglas del canal – Puede definir reglas para canales específicos.
  • Reglas globales – Estas reglas se aplican a todos o a un subconjunto de canales de Amazon IVS que carecen de configuraciones específicas. Puede definir una expresión regular para aplicar la regla global a los nombres de canales de Amazon IVS que coincidan con un patrón. Por ejemplo: .* se aplica a todos los canales. /^test-/ se aplica a canales con nombres que comienzan con test-.

El sistema es una aplicación web sin servidor, que presenta una interfaz estática de React alojada en Amazon S3 con Amazon CloudFront para almacenamiento en caché. La autenticación es manejada por Cognito Amazonas. Los datos se entregan a través de API Gateway y Lambda, con almacenamiento de estado en Amazon DynamoDB. El siguiente diagrama ilustra esta arquitectura.

Aplicación web

El panel de monitoreo es una aplicación de demostración liviana que proporciona funciones esenciales para los moderadores. Para mejorar la funcionalidad, puede ampliar la implementación para admitir múltiples moderadores con un sistema de administración y reducir la latencia implementando un mecanismo de inserción mediante WebSockets.

Latencia de moderación

La solución está diseñada para moderación casi en tiempo real, con latencia medida en dos subsistemas separados:

  • Flujo de trabajo del motor de reglas – El flujo de trabajo del motor de reglas, desde la recepción de imágenes hasta el envío de notificaciones a través de Amazon SNS, tiene un promedio de 2 segundos. Este servicio maneja rápidamente imágenes a través de una máquina de estado de Step Functions. La API de moderación de imágenes de Amazon Rekognition procesa menos de 500 milisegundos para tamaños de archivo promedio inferiores a 1 MB. (Estos hallazgos se basan en pruebas realizadas con la aplicación de muestra, que cumplen con requisitos casi en tiempo real). En Amazon IVS, tiene la opción de seleccionar diferentes resoluciones de miniaturas para ajustar el tamaño de la imagen.
  • Portal web de seguimiento – El portal web de monitoreo se suscribe al tema SNS del motor de reglas. Registra advertencias en una tabla de DynamoDB, mientras que la interfaz de usuario del sitio web recupera las advertencias más recientes cada 10 segundos. Este diseño muestra una demostración ligera de la vista del moderador. Para reducir aún más la latencia, considere implementar un WebSocket para enviar advertencias instantáneamente a la interfaz de usuario cuando llegan a través de Amazon SNS.

Ampliar la solución

Esta publicación se centra en la moderación del contenido visual de la transmisión en vivo. Sin embargo, la solución es intencionalmente flexible, capaz de adaptarse a reglas comerciales complejas y extensible para admitir otros tipos de medios, incluida la moderación de mensajes de chat y audio en transmisiones en vivo. Puede mejorar el motor de reglas introduciendo nuevos flujos de trabajo de máquina de estado de Step Functions con lógica de despacho ascendente. Profundizaremos en la moderación de audio y texto de transmisiones en vivo utilizando los servicios de IA de AWS en próximas publicaciones.

Resumen

En esta publicación, brindamos una descripción general de una solución de muestra que muestra cómo moderar videos de transmisión en vivo de Amazon IVS mediante Amazon Rekognition. Puede experimentar la aplicación de muestra siguiendo las instrucciones en la Repositorio GitHub e implementarlo en su cuenta de AWS utilizando el paquete AWS CDK incluido.

Aprenda más sobre moderación de contenido en AWS. Da el primer paso hacia optimizar sus operaciones de moderación de contenido con AWS.


Acerca de los autores

Autor Lana Zhanglana zhang es Arquitecto de Soluciones Sénior en el equipo de Servicios de IA de AWS WWSO, especializado en IA y ML para Moderación de Contenido, Visión por Computador, Procesamiento de Lenguaje Natural e IA Generativa. Con su experiencia, se dedica a promover las soluciones de IA/ML de AWS y ayudar a los clientes a transformar sus soluciones comerciales en diversas industrias, incluidas las redes sociales, los juegos, el comercio electrónico, los medios, la publicidad y el marketing.

Autor Tony Vutony vu es ingeniero socio senior en Twitch. Se especializa en evaluar la tecnología de socios para la integración con Amazon Interactive Video Service (IVS), con el objetivo de desarrollar y ofrecer soluciones conjuntas integrales a nuestros clientes de IVS.

punto_img

Información más reciente

punto_img