Logotipo de Zephyrnet

Marcar contenido dañino mediante la detección de toxicidad de Amazon Comprehend | Servicios web de Amazon

Fecha:

Las comunidades en línea están impulsando la participación de los usuarios en industrias como los juegos, las redes sociales, el comercio electrónico, las citas y el aprendizaje electrónico. Los miembros de estas comunidades en línea confían en los propietarios de plataformas para brindarles un entorno seguro e inclusivo donde puedan consumir contenido y contribuir libremente. A menudo se contrata a moderadores de contenido para revisar el contenido generado por el usuario y verificar que sea seguro y cumpla con sus términos de uso. Sin embargo, la escala, la complejidad y la variedad cada vez mayores del contenido inapropiado hacen que los flujos de trabajo de moderación humana sean costosos y no escalables. El resultado son comunidades pobres, dañinas y no inclusivas que desconectan a los usuarios e impactan negativamente a la comunidad y las empresas.

Junto con el contenido generado por el usuario, el contenido generado por máquinas ha planteado un nuevo desafío a la moderación del contenido. Crea automáticamente contenido muy realista que puede resultar inapropiado o dañino a gran escala. La industria se enfrenta al nuevo desafío de moderar automáticamente el contenido generado por IA para proteger a los usuarios de material dañino.

En esta publicación, presentamos la detección de toxicidad, una nueva característica de Amazon Comprehend que le ayuda a detectar automáticamente contenido dañino en texto generado por usuarios o máquinas. Esto incluye texto sin formato, texto extraído de imágenes y texto transcrito de contenido de audio o vídeo.

Detecta toxicidad en contenido de texto con Amazon Comprehend

Amazon Comprehend es un servicio de procesamiento de lenguaje natural (NLP) que utiliza aprendizaje automático (ML) para descubrir información y conexiones valiosas en el texto. Ofrece una variedad de modelos de aprendizaje automático que se pueden entrenar previamente o personalizar a través de interfaces API. Amazon Comprehend ahora ofrece una solución sencilla basada en PNL para la detección de contenido tóxico en texto.

La API de detección de toxicidad de Amazon Comprehend asigna una puntuación de toxicidad general al contenido de texto, que oscila entre 0 y 1, lo que indica la probabilidad de que sea tóxico. También clasifica el texto en las siguientes siete categorías y proporciona una puntuación de confianza para cada una:

  • EL DISCURSO DEL ODIO – Discurso que critique, insulte, denuncie o deshumanice a una persona o a un grupo en base a una identidad, ya sea raza, etnia, identidad de género, religión, orientación sexual, capacidad, origen nacional u otro grupo identitario.
  • GRÁFICO – Discurso que utiliza imágenes visualmente descriptivas, detalladas y desagradablemente vívidas. Este lenguaje suele ser detallado para amplificar un insulto, una incomodidad o un daño al destinatario.
  • ACOSO_O_ABUSO – Discurso que impone dinámicas de poder disruptivas entre el hablante y el oyente (independientemente de la intención), busca afectar el bienestar psicológico del receptor o cosifica a una persona.
  • SEXUAL – Discurso que indica interés, actividad o excitación sexual mediante el uso de referencias directas o indirectas a partes del cuerpo, rasgos físicos o sexo.
  • VIOLENCIA_O_AMENAZA – Discurso que incluye amenazas que buscan infligir dolor, daño u hostilidad hacia una persona o grupo.
  • INSULTOS – Discurso que incluya lenguaje degradante, humillante, burlón, insultante o menospreciador.
  • BLASFEMIA – Discurso que contenga palabras, frases o acrónimos que sean descorteses, vulgares u ofensivos.

Puede acceder a la API de detección de toxicidad llamándola directamente mediante el Interfaz de línea de comandos de AWS (AWS CLI) y SDK de AWS. Actualmente, la detección de toxicidad en Amazon Comprehend es compatible con el idioma inglés.

Use cases

La moderación de texto juega un papel crucial en la gestión del contenido generado por el usuario en diversos formatos, incluidas publicaciones en redes sociales, mensajes de chat en línea, debates en foros, comentarios de sitios web y más. Además, las plataformas que aceptan contenido de vídeo y audio pueden utilizar esta función para moderar el contenido de audio transcrito.

La aparición de la IA generativa y los modelos de lenguaje grande (LLM) representa la última tendencia en el campo de la IA. En consecuencia, existe una necesidad creciente de soluciones receptivas para moderar el contenido generado por los LLM. La API de detección de toxicidad de Amazon Comprehend es ideal para abordar esta necesidad.

Solicitud de API de detección de toxicidad de Amazon Comprehend

Puede enviar hasta 10 segmentos de texto a la API de detección de toxicidad, cada uno con un límite de tamaño de 1 KB. Cada segmento de texto de la solicitud se maneja de forma independiente. En el siguiente ejemplo, generamos un archivo JSON llamado toxicity_api_input.json que contiene el contenido del texto, incluidos tres segmentos de texto de muestra para moderación. Tenga en cuenta que en el ejemplo, las palabras profanas están enmascaradas como XXXX.

{ "TextSegments": [ {"Text": "and go through the door go through the door he's on the right"}, {"Text": "he's on the right XXXXX him"}, {"Text": "what the XXXX are you doing man that's why i didn't want to play"} ], "LanguageCode": "en"
}

Puede utilizar la AWS CLI para invocar la API de detección de toxicidad utilizando el archivo JSON anterior que contiene el contenido de texto:

aws comprehend detect-toxic-content --cli-input-json file://toxicity_api_input.json

Respuesta de la API de detección de toxicidad de Amazon Comprehend

La salida JSON de respuesta de la API de detección de toxicidad incluirá el resultado del análisis de toxicidad en el ResultList campo. ResultList enumera los elementos del segmento de texto y la secuencia representa el orden en el que se recibieron las secuencias de texto en la solicitud de API. La toxicidad representa la puntuación de confianza general de la detección (entre 0 y 1). Las etiquetas incluyen una lista de etiquetas de toxicidad con puntuaciones de confianza, clasificadas por tipo de toxicidad.

El siguiente código muestra la respuesta JSON de la API de detección de toxicidad según el ejemplo de solicitud de la sección anterior:

{ "ResultList": [ { "Toxicity": 0.009200000204145908, "Labels": [ { "Name": "PROFANITY", "Score": 0.0007999999797903001}, { "Name": "HATE_SPEECH", "Score": 0.0017999999690800905}, { "Name": "INSULT", "Score": 0.003000000026077032}, { "Name": "GRAPHIC", "Score": 0.0010000000474974513}, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.0013000000035390258}, { "Name": "SEXUAL", "Score": 0.0017000000225380063}, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.004999999888241291} ] }, { "Toxicity": 0.7358999848365784, "Labels": [ { "Name": "PROFANITY", "Score": 0.011900000274181366}, { "Name": "HATE_SPEECH", "Score": 0.019500000402331352}, { "Name": "INSULT", "Score": 0.0714000016450882}, { "Name": "GRAPHIC", "Score": 0.006099999882280827}, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.018200000748038292}, { "Name": "SEXUAL", "Score": 0.0027000000700354576}, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.8145999908447266} ] }, { "Toxicity": 0.9843000173568726, "Labels": [ { "Name": "PROFANITY", "Score": 0.9369999766349792 }, { "Name": "HATE_SPEECH", "Score": 0.30880001187324524 }, { "Name": "INSULT", "Score": 0.42100000381469727 }, { "Name": "GRAPHIC", "Score": 0.12630000710487366 }, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.25519999861717224 }, { "Name": "SEXUAL", "Score": 0.19169999659061432 }, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.19539999961853027 } ] } ]
}

En el JSON anterior, el primer segmento de texto se considera seguro y tiene una puntuación de toxicidad baja. Sin embargo, el segundo y tercer segmento de texto recibieron puntuaciones de toxicidad del 73% y 98%, respectivamente. Para el segundo segmento, Amazon Comprehend detecta una puntuación de toxicidad alta para VIOLENCE_OR_THREAT; para el tercer segmento, detecta PROFANITY con un alto puntaje de toxicidad.

Solicitud de muestra utilizando el SDK de Python

El siguiente fragmento de código demuestra cómo utilizar el SDK de Python para invocar la API de detección de toxicidad. Este código recibe la misma respuesta JSON que el comando de AWS CLI demostrado anteriormente.

import boto3 import base64
# Initialize a Comprehend boto3 client object
comprehend_client = session.client('comprehend') # Call comprehend Detect Toxic Content API with text segments
response = comprehend_client.detect_toxic_content( TextSegments=[ {"Text": "and go through the door go through the door he's on the right"}, {"Text": "he's on the right XXXXX him"}, {"Text": "what the XXXX are you doing man that's why i didn't want to play"} ], LanguageCode='en'
)

Resumen

En esta publicación, brindamos una descripción general de la nueva API de detección de toxicidad de Amazon Comprehend. También describimos cómo se puede analizar el JSON de respuesta de API. Para obtener más información, consulte Comprender el documento API.

La detección de toxicidad de Amazon Comprehend ahora está disponible de manera general en cuatro regiones: us-east-1, us-west-2, eu-west-1 y ap-southeast-2.

Para obtener más información sobre la moderación de contenido, consulte Guía para la moderación de contenido en AWS. Da el primer paso hacia optimizar sus operaciones de moderación de contenido con AWS.


Acerca de los autores

Autor - Lana Zhanglana zhang es Arquitecto de Soluciones Sénior en el equipo de Servicios de IA de AWS WWSO, especializado en IA y ML para Moderación de Contenido, Visión por Computador, Procesamiento de Lenguaje Natural e IA Generativa. Con su experiencia, se dedica a promover las soluciones de IA/ML de AWS y ayudar a los clientes a transformar sus soluciones comerciales en diversas industrias, incluidas las redes sociales, los juegos, el comercio electrónico, los medios, la publicidad y el marketing.

Autor - Ravisha SKRavisha SK es gerente técnico senior de productos en AWS con un enfoque en AI/ML. Tiene más de 10 años de experiencia en análisis de datos y aprendizaje automático en diferentes dominios. En su tiempo libre le gusta leer, experimentar en la cocina y explorar nuevas cafeterías.

punto_img

Información más reciente

punto_img