El nuevo modelo Watson Large Speech de IBM lleva la IA generativa al teléfono - Blog de IBM

El nuevo Watson Large Speech Model de IBM lleva la IA generativa al teléfono – Blog de IBM

Persona en un escritorio en una sala de estar sonriendo al teléfono en la mano, con la otra mano en la computadora portátil

Casi todo el mundo ha oído hablar de grandes modelos de lenguaje, o LLM, desde que la IA generativa entró en nuestro léxico diario a través de sus increíbles capacidades de generación de texto e imágenes, y su promesa como una revolución en la forma en que las empresas manejan las funciones comerciales centrales. Ahora más que nunca, la idea de hablar acceder a la IA a través de una interfaz de chat o hacer que realice tareas específicas por usted, es una realidad tangible. Se están dando enormes pasos hacia la adopción de esta tecnología para impactar positivamente las experiencias diarias como individuos y consumidores.

Pero ¿qué pasa en el mundo de la voz? Se ha prestado tanta atención a los LLM como catalizadores de capacidades mejoradas de chat de IA generativa que no muchos hablan de cómo se puede aplicar a experiencias conversacionales basadas en voz. El contact center moderno está actualmente dominado por experiencias conversacionales rígidas (sí, la respuesta de voz interactiva o IVR sigue siendo la norma). Ingrese al mundo de los modelos de voz grandes o LSM. Sí, LLM Tiene un primo más vocal con los beneficios y posibilidades que puede esperar de la IA generativa, pero esta vez los clientes pueden interactuar con el asistente por teléfono.

Durante los últimos meses, los equipos de desarrollo de IBM Watsonx e IBM Research han estado trabajando arduamente para desarrollar un nuevo modelo de voz grande (LSM) de última generación. Basado en tecnología de transformadores, los LSM requieren grandes cantidades de datos de entrenamiento y parámetros de modelo para ofrecer precisión en el reconocimiento de voz. Nuestro LSM, diseñado específicamente para casos de uso de atención al cliente, como asistentes telefónicos de autoservicio y transcripción de llamadas en tiempo real, ofrece transcripciones altamente avanzadas listas para usar para crear una experiencia de cliente perfecta.

Estamos muy emocionados de anunciar la implementación de nuevos LSM en inglés y japonés, ya disponibles. exclusivamente en beta cerrada a clientes de telefonía Watson Speech to Text y Watsonx Assistant.

Podemos seguir y seguir sobre lo geniales que son estos modelos, pero todo se reduce a actuación. Según una evaluación comparativa interna, el nuevo LSM es nuestro modelo de voz más preciso hasta el momento, superando al modelo Whisper de OpenAI en casos de uso de inglés breve. Comparamos el rendimiento listo para usar de nuestro LSM en inglés con el modelo Whisper de OpenAI en cinco casos de uso de clientes reales en el teléfono, y descubrimos que la tasa de error de palabras (WER) de IBM LSM era un 42% menor que la de el modelo Whisper (ver nota al pie (1) para la metodología de evaluación).

El LSM de IBM también es 5 veces más pequeño que el modelo Whisper (5 veces menos parámetros), lo que significa que procesa audio 10 veces más rápido cuando se ejecuta en el mismo hardware. Con la transmisión, el LSM terminará de procesar cuando finalice el audio; Whisper, por otro lado, procesa el audio en modo de bloque (por ejemplo, intervalos de 30 segundos). Veamos un ejemplo: al procesar un archivo de audio que dura menos de 30 segundos, digamos 12 segundos, Whisper continúa con silencio pero aún así tarda los 30 segundos completos en procesarse; IBM LSM procesará una vez que se completen los 12 segundos de audio.

Estas pruebas indican que nuestro LSM es muy preciso en formato corto. Pero hay más. El LSM también mostró un rendimiento comparable a la precisión de Whisper en casos de uso de formato largo (como análisis de llamadas y resumen de llamadas), como se muestra en el cuadro a continuación.

¿Cómo puedes empezar con estos modelos?

Solicite nuestro programa de usuario beta cerrado y nuestro equipo de gestión de productos se comunicará con usted para programar una llamada. Como IBM LSM está en beta cerrada, algunas características y funcionalidades aún están en desarrollo.².

Regístrese hoy para explorar LSM

¹Metodología para el benchmarking:

Modelo de susurro para comparar: medium.en
Idioma evaluado: inglés estadounidense
Métrica utilizada para la comparación: la tasa de errores de palabras, comúnmente conocida como WER, se define como la cantidad de errores de edición (sustituciones, eliminaciones e inserciones) dividida por la cantidad de palabras en la transcripción humana o de referencia.
Antes de la puntuación, todas las transcripciones automáticas se normalizaron utilizando el normalizador susurro para eliminar cualquier diferencia de formato que pudiera causar discrepancias en WER.

²Las declaraciones de IBM con respecto a sus planes, dirección e intención están sujetas a cambios o retiros sin previo aviso a exclusivo criterio de IBM. La información mencionada sobre posibles productos futuros no es un compromiso, promesa u obligación legal de entregar ningún material, código o funcionalidad. El desarrollo, lanzamiento y calendario de cualquier característica o funcionalidad futura queda a discreción exclusiva de IBM.

Gerente de Producto, Asistente Watson, Software

Gerente de Producto, Servicios de traducción de voz y lenguaje de Watson

Más de Inteligencia artificial

20 de diciembre de 2023

Cinco tipos de aprendizaje automático que debes conocer

5 min leer – Las tecnologías de aprendizaje automático (ML) pueden impulsar la toma de decisiones en prácticamente todas las industrias, desde la atención médica hasta los recursos humanos y las finanzas, y en innumerables casos de uso, como visión por computadora, modelos de lenguaje de gran tamaño (LLM), reconocimiento de voz, vehículos autónomos y más. Sin embargo, la creciente influencia del ML no está exenta de complicaciones. Los conjuntos de datos de validación y entrenamiento que sustentan la tecnología de aprendizaje automático a menudo son agregados por seres humanos, y los seres humanos son susceptibles a sesgos y propensos a errores. Incluso en los casos en los que un modelo de ML no está sesgado en sí mismo...

15 de diciembre de 2023

Tendencias de servicio al cliente que las organizaciones ganadoras deben seguir

4 min leer – Prestar atención a las últimas tendencias en servicio al cliente garantiza que una organización esté preparada para satisfacer las expectativas cambiantes de los clientes. La lealtad de los clientes está disminuyendo, impulsada por la pandemia de COVID-19, las influencias sociales y la facilidad para cambiar de marca. Más que nunca, las organizaciones deben estar al tanto de los cambios en la experiencia de servicio al cliente para mejorar la satisfacción del cliente y satisfacer sus crecientes necesidades. Un estudio de Gartner de 2023 encontró que el 58% de los líderes identificaron el crecimiento empresarial como uno de sus objetivos más importantes.…

15 de diciembre de 2023

Cinco herramientas de inteligencia artificial de código abierto que debes conocer

5 min leer – La inteligencia artificial (IA) de código abierto se refiere a tecnologías de IA en las que el código fuente está disponible gratuitamente para que cualquiera pueda usarlo, modificarlo y distribuirlo. Cuando los algoritmos de IA, los modelos previamente entrenados y los conjuntos de datos están disponibles para uso público y experimentación, surgen aplicaciones creativas de IA a medida que una comunidad de entusiastas voluntarios se basa en el trabajo existente y acelera el desarrollo de soluciones prácticas de IA. Como resultado, estas tecnologías a menudo conducen a las mejores herramientas para manejar desafíos complejos en muchos casos de uso empresarial....

11 de diciembre de 2023

IBM Tech Now: 11 de diciembre de 2023

<1 min leer – Bienvenido IBM Tech Now, nuestra serie web de videos que presenta las últimas y mejores noticias y anuncios en el mundo de la tecnología. Asegúrese de suscribirse a nuestro canal de YouTube para recibir una notificación cada vez que se publique un nuevo vídeo de IBM Tech Now. IBM Tech Now: Episodio 90 En este episodio, cubrimos los siguientes temas: IBM Quantum Heron IBM Quantum System Two El GA de watsonx.governance Manténgase conectado Puede consultar los anuncios del blog de IBM para obtener una información completa...

Boletines informativos de IBM

Obtenga nuestros boletines y actualizaciones de temas que brindan el liderazgo intelectual más reciente y conocimientos sobre tendencias emergentes.

Subscribirme Ahora

Más boletines

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
Fuente: https://www.ibm.com/blog/ibms-new-watson-large-speech-model-brings-generative-ai-to-the-phone/

Inteligencia de datos generativa

El nuevo Watson Large Speech Model de IBM lleva la IA generativa al teléfono – Blog de IBM

¿Cómo puedes empezar con estos modelos?

Más de Inteligencia artificial

Cinco tipos de aprendizaje automático que debes conocer

Tendencias de servicio al cliente que las organizaciones ganadoras deben seguir

Cinco herramientas de inteligencia artificial de código abierto que debes conocer

IBM Tech Now: 11 de diciembre de 2023

Boletines informativos de IBM

MtGox se prepara para liberar 142,000 BTC y 143,000 BCH antes del 31 de octubre

Los inversores apuestan por Solana mientras los productos de inversión SOL lideran las entradas de altcoins, según muestran los datos

Información más reciente

Los inversores apuestan por Solana mientras los productos de inversión SOL lideran las entradas de altcoins, según muestran los datos

La liquidez de Bitcoin se traslada a Altcoins: se espera la temporada alternativa en 2-3 meses

DENSO y Certhon presentan Artemy, un robot cosechador de tomates Cherry Truss totalmente automatizado

¿Quién es Roaring Kitty y qué significa su regreso para las criptomonedas? – Descifrar

¿Quién es Roaring Kitty y qué significa su regreso para las criptomonedas? – Descifrar

¿Quién es Roaring Kitty y qué significa su regreso para las criptomonedas? – Descifrar