Científicos de datos comprometidos en la batalla contra el sesgo de datos

8-28 Responsable AI-2 — La IA responsable según la definición de H2O.ai es una combinación de IA ética, IA explicable, IA segura y aprendizaje automático centrado en el ser humano. (Crédito: H2O.ai)

Por el personal de AI Trends

Los científicos de datos se han unido a la batalla para eliminar o al menos identificar el sesgo en los conjuntos de datos utilizados para entrenar programas de IA.

El trabajo no es fácil. Una persona que se esfuerza por abordarlo es Benjamin Cox de H2O.ai, una empresa dedicada a lo que llama "IA responsable", una combinación de IA ética, IA explicable, IA segura y aprendizaje automático centrado en el ser humano. Con experiencia en ciencia de datos y experiencia en Ernst & Young, Nike y Citigroup, Cox es ahora gerente de marketing de productos en H2O.

Benjamin Cox, director de marketing de productos, H2O.ai

"Me apasionó profundamente el campo de la IA responsable después de años trabajando en ciencia de datos y dándome cuenta de que era necesario realizar una cantidad considerable de trabajo para evitar que el aprendizaje automático perpetuara e impulsara la desigualdad sistémica y económica en el futuro", dijo Cox. en una entrevista reciente en BuscarEnterpriseAI. "En un mundo perfecto, en lugar de permitir que los algoritmos perpetúen el sesgo humano histórico, podemos usarlos para identificar ese sesgo, eliminarlo y prevenirlo".

Él y su equipo toman una serie de pasos para identificar y neutralizar el sesgo en los conjuntos de datos. Primero, el equipo analiza cómo se recopilaron los datos para ver si hubo problemas operativos que causen sesgos al ingresar al conjunto de datos.

Luego busca desequilibrios de datos que podrían tratar a un grupo de manera injusta, generalmente porque no hay suficientes datos disponibles para que esa clase tome buenas decisiones. Un ejemplo es el uso del código postal para un modelo de decisión crediticia. Los códigos postales tienen una correlación del 95% con una etnia específica. Si el equipo decide que la etnicidad no se utilizará para impulsar las decisiones crediticias, deben asegurarse de que el modelo no sea una ingeniería inversa de la etnicidad mediante otro atributo.

Transparencia y explicabilidad ayudar a cumplir con la IA responsable. "WSomos capaces de pintar una buena imagen de por qué el modelo llegó a la conclusión que llegó, y si la razón por la que llegó a esa conclusión viola las reglas regulatorias o tiene sentido comercial común ”, afirmó Cox.

Las herramientas de aprendizaje automático automatizadas pueden generar riesgos en la medida en que los desarrolladores no estén al tanto de lo que hacen los algoritmos. El equipo de H2O.ai ha desarrollado un enfoque técnico para abordar esto. “Automatizamos todo el conjunto de herramientas del panel de interpretación de aprendizaje automático y la documentación del modelo para que los usuarios puedan analizar muy fácilmente lo que AutoML sistema desarrollado ”, dijo.

Los modelos de aprendizaje automático deben tener un grado de sesgo estadístico para encontrar el modelo de rendimiento óptimo. “Si no tenemos sesgos pero sí una varianza extremadamente alta, esencialmente hemos creado un modelo extremadamente sobreajustado. Este es uno de los matices de la ciencia de datos y la comprensión del problema empresarial subyacente que está tratando de resolver ”, dijo Cox.

La naturaleza frágil de algunos modelos de aprendizaje automático durante la pandemia Covid-19 ha generado más escepticismo hacia la IA. “Lo que Covid-19 pudo haber hecho es realmente arrojar luz sobre modelos que estaban muy sobreajustados a escenarios de mercado extremadamente lineales y estables”, afirmó Cox. "El equilibrio entre la señal y la estabilidad es clave para crear modelos que sean más resistentes a los impactos".

Esperando que el aprendizaje automático incorpore variables neutrales

Christabelle Pabalan, tutora de matemáticas, graduada de la Universidad de San Francisco, maestría en ciencia de datos

Christabelle Pabalan lucha contra el sesgo de los datos desde la perspectiva del estudiante. Graduada de la Universidad de San Francisco con una maestría en ciencia de datos, afirmó en un artículo reciente que escribió en Hacia la ciencia de datos, "La esencia de la IA son las matemáticas". Actualmente trabaja como tutora de matemáticas en AJ Tutoring.

En teoría, el aprendizaje automático debería proporcionar una evaluación neutral de muchas variables. Pero el conocido axioma "basura entra, basura sale" significa que los insumos de mala calidad dan como resultado un resultado de mala calidad. Históricamente, los buenos insumos serían representación pulida y precisas de la sociedad como ha actuado en el pasado. "Sin embargo, ahora podemos ver que nuestra entrada de basura podría muy bien ser una representación pulida y precisa de nuestra sociedad como ha actuado en el pasado ”, Pabalan estados. Por lo tanto, el peligro en el aprendizaje automático tiene más que ver con humanoss que los robots.

"Cuando se utilizan datos con sesgos sociales para entrenar un modelo de aprendizaje automático, el resultado insidioso es un modelo de aprendizaje automático discriminatorio que predice los sesgos sociales que pretendemos eliminar ", dijo. escribe.

Reimaginar el aprendizaje automático podría incorporar consideraciones en el libro "Compatible con humanos" de Stuart J. Russell, que sugiere que el modelo estándar de IA es problemático debido a la falta de intervención. El enfoque está en optimizar un conjunto inicial de métricas sin ninguna supervisión humana en el circuito. Stuart propone que en lugar de utilizar sistemas de inteligencia artificial para optimizar para un objetivo fijo, los desarrolladores deberían crear objetivos con la flexibilidad de adaptarse, para programar en un nivel de incertidumbre. Se llama inverso rcumplimiento lganador.

“El aprendizaje por refuerzo inverso se alimenta de un conjunto de comportamientos e intenta encontrar la función de recompensa óptima”, Pabalan escribe. Este proceso puede ayudar a desvelar las formas en que los humanos están sesgados. Ella posas una pregunta: "Al insertar algoritmos en procesos que ya son complicados y desafiantes, ¿dedicamos suficiente tiempo a examinar el contexto?" Ella citó el ejemplo de COMPAS, el Perfil de Gestión de Delincuentes Correccionales para Sanciones Alternativas, que se ha demostrado que produce resultados de discriminación racial. COMPAS los jueces todavía lo utilizan para dictar sentencias en varios estados de EE. UU.

“Estos modelos han lastimado a muchas personas a gran escala al tiempo que brindan una falsa sensación de seguridad y neutralidad”, afirmó, señalando que dedicará sus propios esfuerzos a desarrollar algoritmos justos.

Lea los artículos fuente en BuscarEnterpriseAI y Hacia la ciencia de datos.

Fuente: https://www.aitrends.com/data-science/data-scientists-engaged-in-the-battle-against-data-bias/

Inteligencia de datos generativa

Científicos de datos comprometidos en la batalla contra el sesgo de datos

Crypto.com supera los 100 millones de usuarios globales

El impacto de la IA en el servicio al cliente

Información más reciente

GBM Auctions organizará una subasta de recuerdos con el creador de Polkadot, Dr. Gavin Wood – Crypto-News.net

La reclasificación de la marihuana pendiente de la administración Biden podría conducir a un enorme recorte de impuestos para las empresas de cannabis – Conexión del programa de marihuana medicinal

¿Podría Bitcoin alcanzar los 73,000 dólares en mayo? ¡Se acabó la corrección, es hora de un mitin! – CriptoInfoNet

5 productos de CBD para la artritis y el dolor de las articulaciones en 2024 – Conexión del programa de marihuana medicinal

$Elon supera los 30 millones de dólares en volumen de operaciones en sólo 7 días

¿Por qué el precio de 'Ethereum Killer' Avalanche (AVAX) explotará en el próximo Bull Run?