La mayoría de las aplicaciones de reconocimiento de voz no tienen problemas para transcribir la grabación de un hablante nativo con un micrófono profesional en una habitación tranquila. Esto no es un desafío.
Entonces, para probarlos más a fondo, creé una grabación de "pesadilla" de dos hablantes no nativos con un fuerte ruido de fondo de la ciudad.
¿Cómo les fue?
Vamos a averiguar.
Otter fue una de las soluciones mencionadas con más frecuencia cuando solicitamos sugerencias en Twitter y en la comunidad de Ahrefs. Y por una buena razón. Es fácil de configurar, tiene una interfaz intuitiva y ofrece precios claros.
Las características únicas
Lo que se destaca del resto es la capacidad de la aplicación para grabar reuniones en línea y transcribirlas, simplemente pegando la URL de la reunión. Pero también puede importar un archivo de video/audio o grabar audio directamente en la aplicación.
Además, puedes conectar tu calendario para no perderte ninguna reunión.
Calidad de la transcripción
Obtuve resultados decentes, pero también hubo mucho que editar.
No acertó con algunos nombres. Pero no puedo culpar a ninguna herramienta por no recoger "Ahrefs" o "Tim Soulo" el 100% del tiempo.
Una cosa que encontré es que después de notificar que las transcripciones estaban listas, aún podría hacer algo en segundo plano, especialmente en servicios de transcripción policial (ajustar marcas de tiempo, etiquetar altavoces, etc.). Como un estudiante que sigue garabateando en un examen mientras se lo pasa al maestro.
Precios
Puede comenzar gratis y actualizar a un plan pago más tarde. Puede importar hasta tres archivos y grabar 290 minutos de reuniones antes de que necesite actualizar (a partir de abril de 2023).
Configurar una cuenta fue una obviedad. También encontré la interfaz fácil de navegar. Un comentario personal es que se sentía un poco demasiado "frío" para usarlo, ya que veía cosas como "Realizar pedido", "Facturación" y "Factura" con demasiada frecuencia.
Puede tener la impresión de que fue diseñado por un equipo de contabilidad (a diferencia de Descript que viene a continuación en este resumen).
Las características únicas
Además de las transcripciones generadas automáticamente, Rev ofrece subtítulos en vivo para las reuniones de Zoom. También tiene la opción de realizar un pedido de transcripciones humanas.
Calidad de la transcripción
El audio deficiente con el ruido de la ciudad fue demasiado para Rev. Faltaban algunas palabras, mientras que otras no se reconocían. Como resultado, algunos párrafos no tenían mucho sentido, mientras que otros estaban bien.
Precios
Puede transcribir el primer archivo de audio (hasta 45 minutos) de forma gratuita. Recibí una factura de $1.25 con un descuento que resultó en un total de $0.00. Gracias, equipo de contabilidad. 😉
Rev también tiene una prueba de 14 días de su plan pago. Pero eso fue difícil de encontrar. Para ubicarlo, debe ir al pie de página de la página de inicio y buscarlo en "Servicios".
Descript me dio la bienvenida por mi nombre (que fue una buena coincidencia). Lo principal que debe saber es que es un software independiente en lugar de un servicio web. Es mucho más que un convertidor de voz a texto. Es básicamente una herramienta de edición de video. Y definitivamente hay una curva de aprendizaje. Pero afortunadamente, la incorporación es extremadamente divertida y atractiva.
Las características únicas
Como mencioné, Descript es más una herramienta de edición de video que es buena para transcribir. Yo lo llamaría "Canva para video/subtítulos". Puede agregar B-rolls, efectos, animaciones y más.
Puede arrastrar y soltar fácilmente y, básicamente, producir un video completo con su ayuda. Pero si solo necesita una transcripción o subtítulos de un video o audio, también puede hacerlo.
Calidad de la transcripción
Mi audio de muestra tuvo resultados bastante turbios. A veces, tenía dificultades para reconocer abreviaturas (p. ej., SEO). También tuve un problema con la eliminación de palabras de relleno como "uh" y "um".
Descubrí que si no elegía una opción para eliminarlos, ellos, um, simplemente me quedé allí a pesar de que no los necesitaba la mayor parte del tiempo. Pero si elegía eliminarlos, ocasionalmente se comía partes de otras palabras, causando aún más problemas.
Además, no podía reconocer partes que un ser humano no tendría problemas para entender solo por el contexto, por ejemplo, "Jack of all trades" se convirtió en "chacal, trades".
En el lado positivo, creo que todavía puedes entender de qué trata el texto.
Precios
Puede comenzar con funciones básicas de forma gratuita y actualizar si es necesario.
MacWhisper es una herramienta de transcripción impulsada por Whisper. Es un sistema de reconocimiento automático de voz (ASR) desarrollado por OpenAI, la misma compañía que nos trajo ChatGPT.
Como dice OpenAI en su sitio web:
Whisper está capacitado en 680,000 XNUMX horas de datos supervisados multilingües y multitarea recopilados de la web.
Whisper no es algo que simplemente pueda "ejecutar" tal cual. Además, es bastante complicado de configurar si desea ejecutarlo usted mismo. Github, Python: entiendes la esencia.
Afortunadamente, existen herramientas como MacWhisper que te quitan esto de encima y te permiten usar el poder de la IA en una interfaz de usuario simple.
Las características únicas
Simplemente reconocimiento de voz a texto con marcas de tiempo. Desafortunadamente, no etiqueta automáticamente los altavoces.
Calidad de la transcripción
Cuando ejecuta la herramienta, debe elegir un "modelo" para trabajar. Básicamente, cuanto más ligero sea el modelo, más rápido funcionará. Pero los modelos más grandes producirán mejores resultados. Además, en MacWhisper, esos modelos más grandes (mejores pero más lentos) solo están disponibles en la versión de pago.
Decidí comenzar con el modelo "pequeño" gratuito, que se decía que tenía "velocidad normal con buena precisión".
Estuvo bien, pero no mejor que los competidores. Supuse que funcionaría bien con audio de alta calidad, pero no con los horribles ejemplos que le di.
“La IA está sobrevalorada”, pensé. Pero antes de cerrar la Mac y volver a mi querida PC con Windows, decidí probar el modelo "grande".
Y sabes qué, la IA no está sobrevalorada. Los resultados me parecieron mucho mejores que cualquier otra cosa.
La transcripción fue muy, muy buena. ¡Incluso acertó cosas como "Ahrefs" y "SaaS"! Aunque todavía no el 100% del tiempo.
Precios
Puede ejecutar modelos más pequeños de forma gratuita. Para un modelo grande, deberá comprar una licencia.
Esta herramienta es la más fácil de usar. Simplemente arrastre y suelte su archivo, entonces estará listo. Sin embargo, lleva algo de tiempo procesarlo.
Las características únicas
Nada más que descargar una transcripción.
Calidad de la transcripción
Mi primera impresión fue que los resultados fueron perfectos porque, visualmente, entregó un texto de aspecto seguro:
Pero después de la revisión, me di cuenta de que simplemente no incluía las partes que no reconocía, a veces varias palabras seguidas.
Precios
Es de uso gratuito.
Premiere Pro no es exactamente una “herramienta de transcripción”, sino más bien un software de edición de video. Lo incluyo porque asumo que algunas empresas ya pueden tenerlo en su arsenal (como nosotros).
Para acceder a la función de transcripción en Premiere Pro, simplemente vaya al espacio de trabajo "Subtítulos y gráficos" y haga clic en "Crear transcripción".
Las características únicas
Si aquí solo tenemos en cuenta el reconocimiento de voz, lo que hace bien es crear marcas de tiempo precisas, etiquetar automáticamente a los oradores y, si es necesario, agregar automáticamente una pista de subtítulos editables a un proyecto de video.
Calidad de la transcripción
Seamos directos: encontré que la ruidosa transcripción del audio fue un fracaso. No podía comprender de qué hablaba la gente en primer lugar.
Aún así, creo que esta función puede ser realmente útil si está creando subtítulos a partir de audio de alta calidad. Yo mismo lo usé varias veces y no tuve nada de qué quejarme cuando la calidad de grabación era buena.
Precios
Necesitas una Adobe Creative Cloud suscripción para usar Premiere Pro.
Si bien registrarse y cargar archivos es bastante sencillo, debe dedicar un tiempo a responder preguntas sobre usted y su empresa antes de que finalmente pueda acceder a la herramienta. Y no, no puede omitir escribir el nombre de su empresa, su función y el tamaño de su empresa.
Pero una vez que superas esto, la interfaz es limpia e intuitiva.
Las características únicas
Puede generar una transcripción o subtítulos para video o audio. También hay una opción para solicitar una revisión manual de la transcripción. Alternativamente, puede generar subtítulos en un idioma diferente, por lo que tiene transcripción y traducción en un solo clic.
Calidad de la transcripción
Happy Scribe hizo un muy buen trabajo al transcribir el audio. No tuvo problema con palabras como “SEO” y “SaaS” (obviamente el punto más débil de muchas herramientas). También podría etiquetar automáticamente los altavoces, lo que podría ser útil en ciertas situaciones.
Precios
Podría probar un archivo gratis. Después de eso, necesitaría comprar créditos para usar por cada minuto de video o audio transcrito.
Sonix es una herramienta para transcripciones automáticas, traducciones e integración con aplicaciones de reuniones.
Las características únicas
Además de la integración de reuniones, que es casi un hecho para la mayoría de las herramientas, la generación de resúmenes de IA es una característica interesante (en versión beta a partir de abril de 2023). Pero ya obtuve resultados impresionantes.
También obtiene algunas herramientas adicionales para trabajar con subtítulos de video: una vista de línea de tiempo y una opción para dividir los subtítulos en varias líneas. También puede importar una transcripción existente y Sonix la sincronizará con el audio.
Calidad de la transcripción
Sonix tiene una función de vocabulario personalizado. Descubrí que ayudó un poco con nombres como "Tim Soulo" y "Ahrefs", pero no funcionó el 100% del tiempo. En su mayoría lo hizo bien. Pero a veces, confundió SEO con CEO y devolvió la palabra "Excel" aparentemente de la nada.
La transcripción tenía sentido en general, pero requería bastantes ediciones para ser perfecta.
Precios
Sonix tiene una prueba gratuita de 25 minutos de transcripciones. Después de eso, debe comprar créditos de pago por uso u obtener una suscripción.
Notta es otro servicio de transcripción que funciona tanto para reuniones en tiempo real como para grabaciones existentes.
Las características únicas
Además de la transcripción, Notta se enfoca en optimizar ciertos flujos de trabajo y ofrece funciones como sincronización de calendario y programador (en versión beta a partir de abril de 2023).
Calidad de la transcripción
El ruido de fondo y la mala calidad del audio no fueron un factor decisivo para Notta. Los resultados de la transcripción fueron en su mayoría correctos, pero todavía tenían algunos problemas.
La estructura de las oraciones a veces era un poco extraña, faltaban ciertas palabras y mi parte favorita de "aprendizaje de todos los oficios" no fue tan buena esta vez.
Otra cosa que vale la pena señalar es que, por alguna razón, no reconoció a dos oradores y toda la entrevista se etiquetó como "Orador 1".
Precios
Puede comenzar con una suscripción básica gratuita y probar una prueba de tres días del plan pago, Notta Pro.
Reflexiones finales
Como puede ver, hay muchas herramientas para elegir. Aún así, parece que OpenAI agitó un poco las cosas al lanzar un sistema ASR (reconocimiento automático de voz) gratuito, que me pareció considerablemente más capaz que otros.
Pero la calidad pura del reconocimiento de voz es solo un factor. Tal vez necesite grabar sus reuniones de Zoom (Otter), trabajar con subtítulos en un gran proyecto de video (Premiere Pro) o crear rápidamente un video estilo Canva (Descript).
Además, debo enfatizar que estaba tratando de llevar estas herramientas al límite dándoles la grabación del peor de los casos. Para usos más naturales, las diferencias en el resultado pueden ser mucho menos notorias.
Es genial ver que hay tantas opciones, y espero que esta revisión te ayude un poco a encontrar la que sea perfecta para ti.
¿Tienes preguntas? hazme ping en Twitter.
- Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
- PlatoAiStream. Inteligencia de datos Web3. Conocimiento amplificado. Accede Aquí.
- Acuñando el futuro con Adryenn Ashley. Accede Aquí.
- Compra y Vende Acciones en Empresas PRE-IPO con PREIPO®. Accede Aquí.
- Fuente: https://ahrefs.com/blog/best-speech-to-text-apps/