Logotipo de Zephyrnet

Las 9 mejores aplicaciones de voz a texto en 2023 (probadas y comprobadas)

Fecha:

La mayoría de las aplicaciones de reconocimiento de voz no tienen problemas para transcribir la grabación de un hablante nativo con un micrófono profesional en una habitación tranquila. Esto no es un desafío.

Entonces, para probarlos más a fondo, creé una grabación de "pesadilla" de dos hablantes no nativos con un fuerte ruido de fondo de la ciudad.

¿Cómo les fue?

Vamos a averiguar.

Página de inicio de Otter.aiPágina de inicio de Otter.ai

Otter fue una de las soluciones mencionadas con más frecuencia cuando solicitamos sugerencias en Twitter y en la comunidad de Ahrefs. Y por una buena razón. Es fácil de configurar, tiene una interfaz intuitiva y ofrece precios claros.

Las características únicas

Lo que se destaca del resto es la capacidad de la aplicación para grabar reuniones en línea y transcribirlas, simplemente pegando la URL de la reunión. Pero también puede importar un archivo de video/audio o grabar audio directamente en la aplicación.

Además, puedes conectar tu calendario para no perderte ninguna reunión.

Calidad de la transcripción

Obtuve resultados decentes, pero también hubo mucho que editar.

No acertó con algunos nombres. Pero no puedo culpar a ninguna herramienta por no recoger "Ahrefs" o "Tim Soulo" el 100% del tiempo.

Resultados de la transcripción de Otter.aiResultados de la transcripción de Otter.ai

Una cosa que encontré es que después de notificar que las transcripciones estaban listas, aún podría hacer algo en segundo plano, especialmente en servicios de transcripción policial (ajustar marcas de tiempo, etiquetar altavoces, etc.). Como un estudiante que sigue garabateando en un examen mientras se lo pasa al maestro.

Precios

Puede comenzar gratis y actualizar a un plan pago más tarde. Puede importar hasta tres archivos y grabar 290 minutos de reuniones antes de que necesite actualizar (a partir de abril de 2023).

Página de inicio de Rev.comPágina de inicio de Rev.com

Configurar una cuenta fue una obviedad. También encontré la interfaz fácil de navegar. Un comentario personal es que se sentía un poco demasiado "frío" para usarlo, ya que veía cosas como "Realizar pedido", "Facturación" y "Factura" con demasiada frecuencia.

Puede tener la impresión de que fue diseñado por un equipo de contabilidad (a diferencia de Descript que viene a continuación en este resumen).

Las características únicas

Además de las transcripciones generadas automáticamente, Rev ofrece subtítulos en vivo para las reuniones de Zoom. También tiene la opción de realizar un pedido de transcripciones humanas.

Calidad de la transcripción

El audio deficiente con el ruido de la ciudad fue demasiado para Rev. Faltaban algunas palabras, mientras que otras no se reconocían. Como resultado, algunos párrafos no tenían mucho sentido, mientras que otros estaban bien.

Resultados de la transcripción de Rev.comResultados de la transcripción de Rev.com

Precios

Puede transcribir el primer archivo de audio (hasta 45 minutos) de forma gratuita. Recibí una factura de $1.25 con un descuento que resultó en un total de $0.00. Gracias, equipo de contabilidad. 😉

Rev también tiene una prueba de 14 días de su plan pago. Pero eso fue difícil de encontrar. Para ubicarlo, debe ir al pie de página de la página de inicio y buscarlo en "Servicios".

Pie de página de la página de inicio, a través de rev.comPie de página de la página de inicio, a través de rev.com
Página de inicio de DescriptPágina de inicio de Descript

Descript me dio la bienvenida por mi nombre (que fue una buena coincidencia). Lo principal que debe saber es que es un software independiente en lugar de un servicio web. Es mucho más que un convertidor de voz a texto. Es básicamente una herramienta de edición de video. Y definitivamente hay una curva de aprendizaje. Pero afortunadamente, la incorporación es extremadamente divertida y atractiva.

La incorporación de Descript es interactiva y atractivaLa incorporación de Descript es interactiva y atractiva

Las características únicas

Como mencioné, Descript es más una herramienta de edición de video que es buena para transcribir. Yo lo llamaría "Canva para video/subtítulos". Puede agregar B-rolls, efectos, animaciones y más.

Puede arrastrar y soltar fácilmente y, básicamente, producir un video completo con su ayuda. Pero si solo necesita una transcripción o subtítulos de un video o audio, también puede hacerlo.

Calidad de la transcripción

Mi audio de muestra tuvo resultados bastante turbios. A veces, tenía dificultades para reconocer abreviaturas (p. ej., SEO). También tuve un problema con la eliminación de palabras de relleno como "uh" y "um".

Descubrí que si no elegía una opción para eliminarlos, ellos, um, simplemente me quedé allí a pesar de que no los necesitaba la mayor parte del tiempo. Pero si elegía eliminarlos, ocasionalmente se comía partes de otras palabras, causando aún más problemas.

Además, no podía reconocer partes que un ser humano no tendría problemas para entender solo por el contexto, por ejemplo, "Jack of all trades" se convirtió en "chacal, trades".

En el lado positivo, creo que todavía puedes entender de qué trata el texto.

Describir los resultados de la transcripciónDescribir los resultados de la transcripción

Precios

Puede comenzar con funciones básicas de forma gratuita y actualizar si es necesario.

Aplicación MacWhisper en gumroad.comAplicación MacWhisper en gumroad.com

MacWhisper es una herramienta de transcripción impulsada por Whisper. Es un sistema de reconocimiento automático de voz (ASR) desarrollado por OpenAI, la misma compañía que nos trajo ChatGPT.

Como dice OpenAI en su sitio web:

Whisper está capacitado en 680,000 XNUMX horas de datos supervisados ​​multilingües y multitarea recopilados de la web.

Whisper no es algo que simplemente pueda "ejecutar" tal cual. Además, es bastante complicado de configurar si desea ejecutarlo usted mismo. Github, Python: entiendes la esencia.

Afortunadamente, existen herramientas como MacWhisper que te quitan esto de encima y te permiten usar el poder de la IA en una interfaz de usuario simple.

Las características únicas

Simplemente reconocimiento de voz a texto con marcas de tiempo. Desafortunadamente, no etiqueta automáticamente los altavoces.

Calidad de la transcripción

Cuando ejecuta la herramienta, debe elegir un "modelo" para trabajar. Básicamente, cuanto más ligero sea el modelo, más rápido funcionará. Pero los modelos más grandes producirán mejores resultados. Además, en MacWhisper, esos modelos más grandes (mejores pero más lentos) solo están disponibles en la versión de pago.

Decidí comenzar con el modelo "pequeño" gratuito, que se decía que tenía "velocidad normal con buena precisión".

Estuvo bien, pero no mejor que los competidores. Supuse que funcionaría bien con audio de alta calidad, pero no con los horribles ejemplos que le di.

“La IA está sobrevalorada”, pensé. Pero antes de cerrar la Mac y volver a mi querida PC con Windows, decidí probar el modelo "grande".

Y sabes qué, la IA no está sobrevalorada. Los resultados me parecieron mucho mejores que cualquier otra cosa.

La transcripción fue muy, muy buena. ¡Incluso acertó cosas como "Ahrefs" y "SaaS"! Aunque todavía no el 100% del tiempo.

Resultados de la transcripción de MacWhisperResultados de la transcripción de MacWhisper

Precios

Puede ejecutar modelos más pequeños de forma gratuita. Para un modelo grande, deberá comprar una licencia.

Transcripciones de IA por la página de inicio de RiversideTranscripciones de IA por la página de inicio de Riverside

Esta herramienta es la más fácil de usar. Simplemente arrastre y suelte su archivo, entonces estará listo. Sin embargo, lleva algo de tiempo procesarlo.

Las características únicas

Nada más que descargar una transcripción.

Calidad de la transcripción

Mi primera impresión fue que los resultados fueron perfectos porque, visualmente, entregó un texto de aspecto seguro:

Transcripciones de IA por resultados de transcripción de RiversideTranscripciones de IA por resultados de transcripción de Riverside

Pero después de la revisión, me di cuenta de que simplemente no incluía las partes que no reconocía, a veces varias palabras seguidas.

Precios

Es de uso gratuito.

Página de inicio de Adobe Premiere ProPágina de inicio de Adobe Premiere Pro

Premiere Pro no es exactamente una “herramienta de transcripción”, sino más bien un software de edición de video. Lo incluyo porque asumo que algunas empresas ya pueden tenerlo en su arsenal (como nosotros).

Para acceder a la función de transcripción en Premiere Pro, simplemente vaya al espacio de trabajo "Subtítulos y gráficos" y haga clic en "Crear transcripción".

Interfaz de Premiere Pro: puede generar transcripciones en el espacio de trabajo "Subtítulos y gráficos"Interfaz de Premiere Pro: puede generar transcripciones en el espacio de trabajo "Subtítulos y gráficos"

Las características únicas

Si aquí solo tenemos en cuenta el reconocimiento de voz, lo que hace bien es crear marcas de tiempo precisas, etiquetar automáticamente a los oradores y, si es necesario, agregar automáticamente una pista de subtítulos editables a un proyecto de video.

Calidad de la transcripción

Seamos directos: encontré que la ruidosa transcripción del audio fue un fracaso. No podía comprender de qué hablaba la gente en primer lugar.

Resultados de la transcripción de Adobe Premiere ProResultados de la transcripción de Adobe Premiere Pro

Aún así, creo que esta función puede ser realmente útil si está creando subtítulos a partir de audio de alta calidad. Yo mismo lo usé varias veces y no tuve nada de qué quejarme cuando la calidad de grabación era buena.

Precios

Necesitas una Adobe Creative Cloud suscripción para usar Premiere Pro.

Página de inicio de Happyscribe.comPágina de inicio de Happyscribe.com

Si bien registrarse y cargar archivos es bastante sencillo, debe dedicar un tiempo a responder preguntas sobre usted y su empresa antes de que finalmente pueda acceder a la herramienta. Y no, no puede omitir escribir el nombre de su empresa, su función y el tamaño de su empresa.

Pero una vez que superas esto, la interfaz es limpia e intuitiva.

Las características únicas

Puede generar una transcripción o subtítulos para video o audio. También hay una opción para solicitar una revisión manual de la transcripción. Alternativamente, puede generar subtítulos en un idioma diferente, por lo que tiene transcripción y traducción en un solo clic.

Las funciones de Happy Scribe incluyen transcripción, subtítulos y subtítulos en idiomas extranjerosLas funciones de Happy Scribe incluyen transcripción, subtítulos y subtítulos en idiomas extranjeros

Calidad de la transcripción

Happy Scribe hizo un muy buen trabajo al transcribir el audio. No tuvo problema con palabras como “SEO” y “SaaS” (obviamente el punto más débil de muchas herramientas). También podría etiquetar automáticamente los altavoces, lo que podría ser útil en ciertas situaciones.

Resultados de la transcripción de Happy ScribeResultados de la transcripción de Happy Scribe

Precios

Podría probar un archivo gratis. Después de eso, necesitaría comprar créditos para usar por cada minuto de video o audio transcrito.

Página de inicio de Sonix.aiPágina de inicio de Sonix.ai

Sonix es una herramienta para transcripciones automáticas, traducciones e integración con aplicaciones de reuniones.

Las características únicas

Además de la integración de reuniones, que es casi un hecho para la mayoría de las herramientas, la generación de resúmenes de IA es una característica interesante (en versión beta a partir de abril de 2023). Pero ya obtuve resultados impresionantes.

Resumen de IA de SonixResumen de IA de Sonix

También obtiene algunas herramientas adicionales para trabajar con subtítulos de video: una vista de línea de tiempo y una opción para dividir los subtítulos en varias líneas. También puede importar una transcripción existente y Sonix la sincronizará con el audio.

Calidad de la transcripción

Sonix tiene una función de vocabulario personalizado. Descubrí que ayudó un poco con nombres como "Tim Soulo" y "Ahrefs", pero no funcionó el 100% del tiempo. En su mayoría lo hizo bien. Pero a veces, confundió SEO con CEO y devolvió la palabra "Excel" aparentemente de la nada.

La transcripción tenía sentido en general, pero requería bastantes ediciones para ser perfecta.

Resultados de la transcripción de Sonix.aiResultados de la transcripción de Sonix.ai

Precios

Sonix tiene una prueba gratuita de 25 minutos de transcripciones. Después de eso, debe comprar créditos de pago por uso u obtener una suscripción.

Página de inicio de Notta.aiPágina de inicio de Notta.ai

Notta es otro servicio de transcripción que funciona tanto para reuniones en tiempo real como para grabaciones existentes.

Las características únicas

Además de la transcripción, Notta se enfoca en optimizar ciertos flujos de trabajo y ofrece funciones como sincronización de calendario y programador (en versión beta a partir de abril de 2023).

Calidad de la transcripción

El ruido de fondo y la mala calidad del audio no fueron un factor decisivo para Notta. Los resultados de la transcripción fueron en su mayoría correctos, pero todavía tenían algunos problemas.

Resultados de la transcripción de Notta.aiResultados de la transcripción de Notta.ai

La estructura de las oraciones a veces era un poco extraña, faltaban ciertas palabras y mi parte favorita de "aprendizaje de todos los oficios" no fue tan buena esta vez.

Inconsistencia en la transcripción de NottaInconsistencia en la transcripción de Notta

Otra cosa que vale la pena señalar es que, por alguna razón, no reconoció a dos oradores y toda la entrevista se etiquetó como "Orador 1".

Precios

Puede comenzar con una suscripción básica gratuita y probar una prueba de tres días del plan pago, Notta Pro.

Reflexiones finales

Como puede ver, hay muchas herramientas para elegir. Aún así, parece que OpenAI agitó un poco las cosas al lanzar un sistema ASR (reconocimiento automático de voz) gratuito, que me pareció considerablemente más capaz que otros.

Pero la calidad pura del reconocimiento de voz es solo un factor. Tal vez necesite grabar sus reuniones de Zoom (Otter), trabajar con subtítulos en un gran proyecto de video (Premiere Pro) o crear rápidamente un video estilo Canva (Descript).

Además, debo enfatizar que estaba tratando de llevar estas herramientas al límite dándoles la grabación del peor de los casos. Para usos más naturales, las diferencias en el resultado pueden ser mucho menos notorias.

Es genial ver que hay tantas opciones, y espero que esta revisión te ayude un poco a encontrar la que sea perfecta para ti.

¿Tienes preguntas? hazme ping en Twitter.

punto_img

Información más reciente

punto_img

café vc

café vc

vidacienciav

vidacienciav