Logotipo de Zephyrnet

Etiqueta: recientemente

KuCoin vs Bybit 2023: ¿Cuál es el intercambio de cifrado TOP para el comercio libre de KYC?

Bienvenido criptonauta, a otro artículo de nuestra serie versus donde comparamos algunos de los principales intercambios para ayudar...

Pregúntele a un experto en tecnología: ¿Cómo convierte Lens las imágenes en texto?Pregunte a un experto en tecnología: ¿Cómo convierte Lens las imágenes en texto?Contribuidor de palabras clave

Hace poco, cuando estaba de vacaciones, quería tomar notas de un libro electrónico que estaba leyendo. Pero en lugar de tomar notas de audio o escribir cosas en un cuaderno, usé Lens para seleccionar una sección del libro, copiarla y pegarla en un documento. Eso me despertó la curiosidad: ¿cómo sucedió todo eso en mi teléfono? ¿Cómo reconoce una cámara las palabras en todas sus fuentes e idiomas?

Decidí llegar a la raíz de la pregunta y hablar con Ana Manasovska, una ingeniera de software con sede en Zúrich que es una de las Googlers en la primera línea para convertir una imagen en texto.

Ana, cuéntanos sobre tu trabajo en Lens.

Estoy involucrado con el aspecto del texto, así que me aseguro de que la aplicación pueda discernir el texto y copiarlo para una búsqueda o traducirlo, sin necesidad de escribir. Por ejemplo, si apunta la cámara de su teléfono a un cartel en un idioma extranjero, la aplicación puede traducir el texto en él. Y para las personas ciegas o con baja visión, puede leer el texto en voz alta. Es bastante impresionante.

Entonces, parte de lo que hace mi equipo es lograr que Lens reconozca no solo el texto, sino también la estructura del texto. Los humanos entendemos automáticamente la escritura que está separada en oraciones y párrafos, o bloques y columnas, y sabemos lo que va junto. Sin embargo, es muy difícil para una máquina distinguir eso.

¿Esto es aprendizaje automático?

Sí. En otras palabras, utiliza sistemas (los llamamos modelos) que hemos entrenado para discernir los caracteres y la estructura de las imágenes. Un sistema informático tradicional tendría solo una capacidad limitada para hacer esto. Pero nuestro modelo de aprendizaje automático se ha creado para "aprender por sí mismo" en enormes conjuntos de datos y está aprendiendo a distinguir estructuras de texto de la misma manera que lo haría un ser humano.

¿El sistema puede funcionar con diferentes idiomas?

Sí, puede reconocer 30 alfabetos, incluidos cirílico, devanagari, chino y árabe. Es más preciso en los idiomas con alfabeto latino en este momento, pero incluso allí, los diferentes tipos de fuentes presentan desafíos. El japonés y el chino son complicados porque tienen muchos matices en los caracteres. Lo que parece una pequeña variación para el ojo inexperto puede cambiar completamente el significado.

¿Cuál es la parte más desafiante de su trabajo?

Hay mucha complejidad y ambigüedad, que son un desafío, así que tuve que aprender a navegar por eso. Y tiene un ritmo muy rápido; las cosas se mueven constantemente y tienes que hacer muchas preguntas y hablar con mucha gente para obtener las respuestas que necesitas.

Cuando se trata de codificación real, ¿qué implica eso?

Principalmente utilizo un lenguaje de programación llamado C++, que le permite ejecutar los pasos de procesamiento necesarios para pasar de una imagen a una representación de palabras y estructura.

Hmmm, en cierto modo lo entiendo. Cómo se ve?

Una captura de pantalla de algún código C++ contra un fondo blanco.

Así es como se ve C++.

El código anterior muestra el proceso para extraer solo el alemán de una sección de texto. Entonces, digamos que la imagen mostraba alemán, francés e italiano: solo se extraería el alemán para traducirlo. ¿Tiene sentido?

¡Mas o menos! Dime lo que te gusta de tu trabajo.

Todo se reduce a mi amor de toda la vida por resolver problemas. Pero también me gusta mucho que estoy construyendo algo que puedo usar en mi vida diaria. Vivo en Zúrich pero no hablo bien alemán, así que uso Lens para traducir al inglés todos los días.

Descifrando lo que hacen los codificadores: Ana trabaja en Lens, enfocándose en el reconocimiento de texto. Pero, ¿qué implica eso realmente?

10 estafas comunes de Zelle y cómo evitarlas

Los estafadores usan varias tácticas para separar a las personas del dinero que tanto les costó ganar en Zelle. Aquí le mostramos cómo mantener su dinero seguro mientras usa el...

Binance vs Bybit 2023: ¿Qué intercambio es MEJOR para el comercio de criptomonedas?

Bienvenido criptonauta, a otro artículo de nuestra serie versus donde comparamos algunos de los principales intercambios para ayudar...

Problemas a tener en cuenta mientras el regulador de publicidad nigeriano aborda Meta

La industria de la publicidad y el marketing de Nigeria, respecto de la cual ha habido durante mucho tiempo una protesta por el exceso de regulación, ahora se ha visto agobiada por aún más regulaciones. Los...

Bitget vs Bybit 2023: ¡Intercambios criptográficos comparados!

Con tantos intercambios de criptomonedas para elegir, encontrar el correcto no siempre es una tarea fácil. Muchas cripto...

Explicación del costo de la energía

¿Por qué ha subido tanto el coste de la energía de nuestros hogares? ¿Por qué un aumento en el precio del gas natural ha afectado el costo de la electricidad? ¡Bienvenido al maravilloso mundo de la economía energética, explicado de la manera más sencilla posible!

El Grupo Consultivo y de Estrategia de Disuasión Ampliada Corea-EE.UU.: Evaluación y Problemas

El 16 de septiembre, se llevó a cabo la reunión del Grupo de Consulta y Estrategia de Disuasión Extendida (EDSCG, por sus siglas en inglés) de EE. UU. y Corea del Sur en el Departamento de Estado de EE. UU....

Abordar el problema de la confianza en la gestión de la cadena de suministro

Nota del autor: El siguiente es un extracto de la presentación que di recientemente en el Simposio sobre artículos peligrosos de LabelMaster de 2022 titulado "Abordar el problema de la confianza...

The Purple Reign: Dulce sabor de alivio para Cadbury en el Tribunal Superior

La disputa en curso, instigada originalmente por Nestlé, en torno a las solicitudes de marca comercial de Cadbury para el color púrpura ha vuelto a comenzar. Sr. Juez Meade de la Alta...

15 herramientas de marketing digital para usar en 2022: un mejor puesto de limonada

Encontrar las mejores herramientas de marketing digital puede permitirle llevar su negocio al siguiente nivel. Ya sea que esté buscando herramientas para el correo electrónico...

Análisis regulatorio y legislativo #5

30 de septiembre de 2022Robert TrianoAnálisis Normativo y Legislativo – Estados UnidosVarios informes emitidos en respuesta a la Orden Ejecutiva de marzo de 2022 de desarrollo responsable de...

Información más reciente

punto_img
punto_img