Logotipo de Zephyrnet

Las actualizaciones de Mozilla Common Voice ayudarán a entrenar la palabra de advertencia 'Hey Firefox' para la navegación web basada en voz

Fecha:

Mozilla lanzó hoy la última versión de Common Voice, su colección de código abierto de datos de voz transcritos para startups, investigadores y aficionados para crear aplicaciones, servicios y dispositivos habilitados para voz. Common Voice ahora contiene más de 7,226 horas totales de datos de voz aportados en 54 idiomas diferentes, frente a las 1,400 horas en 18 idiomas en Febrero 2019.

Common Voice consiste no solo en fragmentos de voz, sino en metadatos aportados voluntariamente útiles para entrenar motores de habla, como las edades, el sexo y los acentos de los hablantes. Está diseñado para integrarse con DeepSpeech, un conjunto de motores de código abierto de voz a texto, de texto a voz y modelos entrenados mantenidos por el Grupo de Aprendizaje Automático de Mozilla.

La recopilación de más de 5.5 millones de clips en Common Voice requirió mucho trabajo preliminar, principalmente porque las indicaciones en el sitio web de Common Voice tuvieron que traducirse a cada idioma. Aún así, 5,591 de las 7,226 horas han sido confirmadas válidas por los contribuyentes del proyecto hasta el momento. Y según Mozilla, cinco idiomas en Common Voice (inglés, alemán, francés, italiano y español) ahora tienen más de 5,000 hablantes únicos, mientras que siete idiomas (inglés, alemán, francés, kabyle, catalán, español y kinyarwandan) tienen más de 500 horas registradas.

Hoy también se lanzó el primer segmento objetivo del conjunto de datos de Mozilla, que tiene como objetivo recopilar datos de voz para fines específicos y casos de uso. Este segmento incluye los dígitos "cero" a "nueve", así como las palabras "sí", "no", "oye" y "Firefox", pronunciadas por 11,000 personas durante 120 horas colectivamente en 18 idiomas. Previamente, Megan Branson, líder del producto Common Voice, dijo que se usaría en parte para las pruebas de palabras de alerta "Hey Firefox".

VB Transform 2020 en línea - 15-17 de julio. Únase a los principales ejecutivos de IA: Regístrese para la transmisión en vivo gratis.

"Los datos de este segmento ayudarán a Mozilla a evaluar la precisión de nuestro motor de reconocimiento de voz de código abierto, DeepSpeech, en varios idiomas para una tarea similar y permitirá comentarios más detallados sobre cómo continuar mejorando el conjunto de datos", escribió Branson en una publicación de blog. "Con contribuciones de todo el mundo, [nuestros colaboradores] nos están ayudando a cumplir nuestro objetivo de crear un conjunto de datos de voz que esté disponible públicamente para cualquier persona y que represente el mundo en el que vivimos".

La actualización de Common Voice sigue a una actualización significativa de vozprofunda que incorporó uno de los modelos de reconocimiento de voz de código abierto más rápidos hasta la fecha. La última versión agregó soporte para TensorFlow Lite, una distribución del marco de aprendizaje automático TensorFlow de Google que está optimizado para dispositivos móviles e incrustados con limitaciones informáticas, y reduce el consumo de memoria de DeepSpeech en 22 veces al tiempo que aumenta su velocidad de inicio en más de 500 veces.

Tanto Common Voice como DeepSpeech informan el trabajo en proyectos de Mozilla como Voz de Firefox, una extensión del navegador que agrega soporte de reconocimiento de voz a Firefox. Actualmente, Firefox Voice puede comprender comandos como "¿Qué tiempo hace?" Y "Buscar la pestaña de Gmail", pero el objetivo es facilitar las "interacciones significativas" con sitios web que utilizan solo la voz.

Fuente: http://feedproxy.google.com/~r/venturebeat/SZYF/~3/8sd9EKzE0is/

punto_img

Información más reciente

punto_img