Casi todo el mundo ha oído hablar de grandes modelos de lenguaje, o LLM, desde que la IA generativa entró en nuestro léxico diario a través de sus increíbles capacidades de generación de texto e imágenes, y su promesa como una revolución en la forma en que las empresas manejan las funciones comerciales centrales. Ahora más que nunca, la idea de hablar acceder a la IA a través de una interfaz de chat o hacer que realice tareas específicas por usted, es una realidad tangible. Se están dando enormes pasos hacia la adopción de esta tecnología para impactar positivamente las experiencias diarias como individuos y consumidores.
Pero ¿qué pasa en el mundo de la voz? Se ha prestado tanta atención a los LLM como catalizadores de capacidades mejoradas de chat de IA generativa que no muchos hablan de cómo se puede aplicar a experiencias conversacionales basadas en voz. El contact center moderno está actualmente dominado por experiencias conversacionales rígidas (sí, la respuesta de voz interactiva o IVR sigue siendo la norma). Ingrese al mundo de los modelos de voz grandes o LSM. Sí, LLM Tiene un primo más vocal con los beneficios y posibilidades que puede esperar de la IA generativa, pero esta vez los clientes pueden interactuar con el asistente por teléfono.
Durante los últimos meses, los equipos de desarrollo de IBM Watsonx e IBM Research han estado trabajando arduamente para desarrollar un nuevo modelo de voz grande (LSM) de última generación. Basado en tecnología de transformadores, los LSM requieren grandes cantidades de datos de entrenamiento y parámetros de modelo para ofrecer precisión en el reconocimiento de voz. Nuestro LSM, diseñado específicamente para casos de uso de atención al cliente, como asistentes telefónicos de autoservicio y transcripción de llamadas en tiempo real, ofrece transcripciones altamente avanzadas listas para usar para crear una experiencia de cliente perfecta.
Estamos muy emocionados de anunciar la implementación de nuevos LSM en inglés y japonés, ya disponibles. exclusivamente en beta cerrada a clientes de telefonía Watson Speech to Text y Watsonx Assistant.
Podemos seguir y seguir sobre lo geniales que son estos modelos, pero todo se reduce a actuación. Según una evaluación comparativa interna, el nuevo LSM es nuestro modelo de voz más preciso hasta el momento, superando al modelo Whisper de OpenAI en casos de uso de inglés breve. Comparamos el rendimiento listo para usar de nuestro LSM en inglés con el modelo Whisper de OpenAI en cinco casos de uso de clientes reales en el teléfono, y descubrimos que la tasa de error de palabras (WER) de IBM LSM era un 42% menor que la de el modelo Whisper (ver nota al pie (1) para la metodología de evaluación).
El LSM de IBM también es 5 veces más pequeño que el modelo Whisper (5 veces menos parámetros), lo que significa que procesa audio 10 veces más rápido cuando se ejecuta en el mismo hardware. Con la transmisión, el LSM terminará de procesar cuando finalice el audio; Whisper, por otro lado, procesa el audio en modo de bloque (por ejemplo, intervalos de 30 segundos). Veamos un ejemplo: al procesar un archivo de audio que dura menos de 30 segundos, digamos 12 segundos, Whisper continúa con silencio pero aún así tarda los 30 segundos completos en procesarse; IBM LSM procesará una vez que se completen los 12 segundos de audio.
Estas pruebas indican que nuestro LSM es muy preciso en formato corto. Pero hay más. El LSM también mostró un rendimiento comparable a la precisión de Whisper en casos de uso de formato largo (como análisis de llamadas y resumen de llamadas), como se muestra en el cuadro a continuación.
¿Cómo puedes empezar con estos modelos?
Solicite nuestro programa de usuario beta cerrado y nuestro equipo de gestión de productos se comunicará con usted para programar una llamada. Como IBM LSM está en beta cerrada, algunas características y funcionalidades aún están en desarrollo.2.
Regístrese hoy para explorar LSM
1 Metodología para el benchmarking:
- Modelo de susurro para comparar: medium.en
- Idioma evaluado: inglés estadounidense
- Métrica utilizada para la comparación: la tasa de errores de palabras, comúnmente conocida como WER, se define como la cantidad de errores de edición (sustituciones, eliminaciones e inserciones) dividida por la cantidad de palabras en la transcripción humana o de referencia.
- Antes de la puntuación, todas las transcripciones automáticas se normalizaron utilizando el normalizador susurro para eliminar cualquier diferencia de formato que pudiera causar discrepancias en WER.
2 Las declaraciones de IBM con respecto a sus planes, dirección e intención están sujetas a cambios o retiros sin previo aviso a exclusivo criterio de IBM. La información mencionada sobre posibles productos futuros no es un compromiso, promesa u obligación legal de entregar ningún material, código o funcionalidad. El desarrollo, lanzamiento y calendario de cualquier característica o funcionalidad futura queda a discreción exclusiva de IBM.
Más de Inteligencia artificial
Boletines informativos de IBM
Obtenga nuestros boletines y actualizaciones de temas que brindan el liderazgo intelectual más reciente y conocimientos sobre tendencias emergentes.
Subscribirme Ahora
Más boletines
- Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
- PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
- PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
- PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
- PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
- Fuente: https://www.ibm.com/blog/ibms-new-watson-large-speech-model-brings-generative-ai-to-the-phone/