Logotipo de Zephyrnet

Apple presume de que ReALM comprende el contexto de la pantalla

Fecha:

Los investigadores de Apple han revelado su nuevo producto conocido como ReALM AI, que, según afirman, puede comprender lo que hay en la pantalla de un usuario y, por lo tanto, responde a las solicitudes en consecuencia.

Según los investigadores, el modelo también supera al GPT-4 en varias tareas, aunque tiene menos parámetros. Esto se produce antes del lanzamiento oficial de iOS 18 en el WWDC 2024 en junio, con un gran impulso esperado detrás del nuevo Siri 2.0. Sin embargo, aún no está claro si Apple integrará el nuevo ReALM en Siri a tiempo para la WWDC 2024.

Lea también: Nicki Minaj, Kate Perry y otros 200 artistas critican a los desarrolladores de inteligencia artificial por 'devaluar' la música

Comprendiendo en pantalla

Apple ha estado tratando de ponerse al día en el campo de la IA, haciendo anuncios relacionados con la IA. Ahora, los investigadores del fabricante del iPhone han logrado un gran avance al lanzar un nuevo modelo de inteligencia artificial: ReALM, que puede "comprender lo que hay en su pantalla".

Esto ocurre apenas un mes después de la adquisición de una startup de IA. DarwinAI. Según los investigadores, el modelo convierte la información de la pantalla del usuario en texto. Esto le permite funcionar en dispositivos “sin requerir un reconocimiento de imágenes voluminoso”.

El modelo, que como se indica en el trabajo de investigación superó significativamente a GPT-4, aunque tiene menos parámetros, considera lo que hay en la pantalla y las tareas que se ejecutan en segundo plano.

Por ejemplo, cuando un usuario navega por una página web y encuentra una empresa a la que quiere llamar, simplemente puede pedirle a Siri "que llame a esta empresa". Ahora, al usar ReALM, el modelo permitirá a Siri "ver" los detalles del contacto e "iniciar la llamada directamente".

Esto ilustra cómo el modelo comprende el contexto de la pantalla y ayuda a mejorar la experiencia del usuario.

Según un usuario de MSPower reporte, integrar el nuevo modelo en futuras actualizaciones de Siri ayuda a Apple a crear una "experiencia de usuario manos libres" más fluida. También se espera que esto le dé a Siri más habilidades conversacionales pero sin implementar un modelo de lenguaje grande como Gemini.

El informe señala además que el fabricante de iPhone También está trabajando en MM1, que puede reducir la necesidad de múltiples indicaciones para obtener los resultados necesarios, y en un manipulador de imágenes de IA.

Competencia superior

Según el artículo de investigación, ReALM eclipsó a sus pares y modelos anteriores en varios conjuntos de datos. Estos incluían conjuntos de datos conversacionales sintéticos, conversacionales y no vistos.

El artículo de investigación también destaca específicamente cómo ReALM se desempeñó completamente con GPT-4 de OpenAI en la información en pantalla. Durante el ejercicio, ReALM se basó únicamente en codificación textual, mientras que GPT-4 tuvo acceso a capturas de pantalla.

Tanto GPT-4 como ReALM mostraron resultados idénticos cuando los investigadores evaluaron su desempeño.

"Sin embargo, ReALM superó a GPT-4 en lo que respecta a consultas específicas de dominio debido a que se ajustó a las solicitudes de los usuarios", según MSPowerUser.

Los investigadores explicaron que: "Deseamos destacar especialmente las ganancias en los conjuntos de datos en pantalla y descubrir que nuestro modelo con el enfoque de codificación textual puede funcionar casi tan bien como GPT-4, a pesar de que este último cuenta con capturas de pantalla".

Esto, según los investigadores, permite a ReALM captar los "matices de la intención del usuario y responder en consecuencia".

La otra cara del modelo

La investigación destaca cómo ReALM utiliza LLM para la resolución de referencia. Según MSPowerUser, el modelo puede comprender la pantalla de un usuario, así como sus solicitudes, “convirtiendo entidades en pantalla en texto en lenguaje natural, incluso sin dejar de ser eficiente para aplicaciones en el dispositivo.

Sin embargo, si bien el modelo codifica la posición de las entidades en pantalla, es posible que no capture todos los detalles de "consultas complejas de los usuarios que requieren una comprensión compleja de las relaciones espaciales".

Según la La guía de Tom, esta no es la primera incursión de Apple en el espacio de la IA en los últimos meses. La empresa ha estado trabajando en una combinación de herramientas para mejorar la eficiencia de los dispositivos, mostrando su compromiso de hacer de la IA el centro de su negocio.

Ahora, ReALM es lo último del fabricante de iPhone que se centra específicamente en mejorar los modelos existentes, haciéndolos más rápidos y eficientes.

punto_img

Información más reciente

café vc

vidacienciav

punto_img

café vc

café vc

vidacienciav

vidacienciav