Logotipo de Zephyrnet

Cuando 1 es más grande que 4 para AI

Fecha:

Le pregunté a ChatGPT sobre los números 1 y 4. ¿Cuál es más grande?

A veces, 1 era más grande. Otras veces, 4 era más grande. Sharon Zhou realizó este experimento a escala para mostrar el orden de sí y no importa en la respuesta.

imagen
Esto se llama una respuesta no determinista o estocástica. Entradas similares no producen consistentemente salidas idénticas. Las respuestas tienen una lógica inconsistente.

Vivimos con sistemas estocásticos a diario: informes meteorológicos, ETA en mapas de Google, construcción de cartera de acciones. Somos estocásticos: los humanos podemos estar de mal humor, errar en nuestros cálculos o cambiar de opinión con nueva información.

En estas conversaciones, el robot a veces se equivoca, pero nunca duda. Cuando un sistema produce una respuesta, debemos verificar que la respuesta sea correcta. No son solo errores lógicos los que ocurren: alucinaciones, cuando el sistema inventa respuestas que no existen, plagado alrededor de la mitad de los resultados de chat de Bing en este estudio de Stanford.

Todavía no nos hemos calibrado al nivel de la duda para expresar. Al igual que trabajar con un nuevo colega, debemos comprender sus fortalezas y debilidades.

Para los consumidores, el universo de resultados aceptables puede ser bastante amplio. A conejo encima de un camión de bomberos tiene muchas respuestas aceptables.

Pero en el mundo B2B, la consistencia importa. Las empresas que utilizan genAI exigirán respuestas coherentes a preguntas como estas: ¿cuáles son los ingresos de la empresa por región? O como restablezco mi contraseña? ¿O cuánto pagaría si usara 1000 unidades de un producto?

GenAI necesitará escribir, crear y calcular con una tasa de error significativamente mejor que los humanos.

Estoy trabajando con ProductBoard para comprender cómo las diferentes empresas emergentes B2B planean aprovechar la IA con una encuesta. Si está integrando GenAI en su producto y está interesado en escuchar los planes de otros, complételo y le enviaremos los datos sin procesar anónimos. Busque los resultados que se publicarán en unas pocas semanas.

punto_img

Información más reciente

punto_img