Logotipo de Zephyrnet

Los investigadores advierten que podríamos quedarnos sin datos para entrenar la IA para 2026. ¿Y luego qué?

Fecha:

As inteligencia artificial Alcanza el pico de su popularidadinvestigadores ha advertido Es posible que la industria se esté quedando sin datos de capacitación, el combustible que hace funcionar los potentes sistemas de inteligencia artificial. Esto podría frenar el crecimiento de los modelos de IA, especialmente los modelos de lenguajes grandes, e incluso podría alterar la trayectoria de la revolución de la IA.

Pero, ¿por qué es un problema la posible falta de datos, considerando cuántos hay en la web? ¿Y hay alguna manera de abordar el riesgo?

Por qué los datos de alta calidad son importantes para la IA

Necesitamos un montón de datos para entrenar algoritmos de IA potentes, precisos y de alta calidad. Por ejemplo, el algoritmo que impulsa ChatGPT se entrenó originalmente en 570 gigabytes de datos de texto, o aproximadamente 300 mil millones de palabras.

De manera similar, el algoritmo de Difusión Estable (que está detrás de muchos Aplicaciones de generación de imágenes con IA) fue entrenado en el Conjunto de datos LAION-5B compuesto por 5.8 millones de pares imagen-texto. Si un algoritmo se entrena con una cantidad insuficiente de datos, producirá resultados inexactos o de baja calidad.

La calidad de los datos de entrenamiento también es importante. Los datos de baja calidad, como publicaciones en redes sociales o fotografías borrosas, son fáciles de obtener, pero no son suficientes para entrenar modelos de IA de alto rendimiento.

El texto tomado de las plataformas de redes sociales puede ser sesgado o prejuicioso, o puede incluir desinformación o contenido ilegal que el modelo podría replicar. Por ejemplo, cuando Microsoft intentó entrenar su robot de inteligencia artificial utilizando contenido de Twitter, aprendió a producir producciones racistas y misóginas.

Es por eso que los desarrolladores de IA buscan contenido de alta calidad, como textos de libros, artículos en línea, artículos científicos, Wikipedia y cierto contenido web filtrado. El Asistente de Google fue entrenado sobre 11,000 novelas románticas extraídas de sitio de autoedición Smashwords para hacerlo más conversacional.

¿Tenemos suficientes datos?

La industria de la IA ha estado entrenando sistemas de IA en conjuntos de datos cada vez más grandes, razón por la cual ahora tenemos modelos de alto rendimiento como ChatGPT o DALL-E 3. Al mismo tiempo, las investigaciones muestran que las reservas de datos en línea están creciendo mucho más lentamente que los conjuntos de datos. utilizado para entrenar IA.

En un artículo publicado el año pasado, un grupo de investigadores predijo que nos quedaremos sin datos de texto de alta calidad antes de 2026 si continúan las tendencias actuales de entrenamiento de IA. También estimaron que los datos lingüísticos de baja calidad se agotarán en algún momento entre 2030 y 2050, y los datos de imágenes de baja calidad entre 2030 y 2060.

AI podría contribuir hasta 15.7 billones de dólares a la economía mundial para 2030, según el grupo de contabilidad y consultoría PwC. Pero quedarse sin datos utilizables podría ralentizar su desarrollo.

¿Deberíamos estar preocupados?

Si bien los puntos anteriores pueden alarmar a algunos fanáticos de la IA, es posible que la situación no sea tan mala como parece. Hay muchas incógnitas sobre cómo se desarrollarán los modelos de IA en el futuro, así como algunas formas de abordar el riesgo de escasez de datos.

Una oportunidad para los desarrolladores de IA es mejorar los algoritmos para utilizar los datos que ya tienen de manera más eficiente.

Es probable que en los próximos años puedan entrenar sistemas de IA de alto rendimiento utilizando menos datos y posiblemente menos potencia computacional. Esto también ayudaría a reducir la IA. la huella de carbono de este pack fue reducida un.

Otra opción es utilizar IA para crear datos sintéticos para entrenar sistemas. En otras palabras, los desarrolladores pueden simplemente generar los datos que necesitan, seleccionados para adaptarse a su modelo de IA particular.

Varios proyectos ya utilizan contenido sintético, a menudo procedente de servicios de generación de datos como Mayormente IA. Esta voluntad hacerse más común en el futuro.

Los desarrolladores también buscan contenido fuera del espacio gratuito en línea, como el que tienen los grandes editores y repositorios fuera de línea. Pensemos en los millones de textos publicados antes de Internet. Disponibles digitalmente, podrían proporcionar una nueva fuente de datos para proyectos de IA.

News Corp, uno de los propietarios de contenido de noticias más grandes del mundo (que tiene gran parte de su contenido detrás de un muro de pago) dijo recientemente que estaba negociación El contenido trata con desarrolladores de IA. Tales acuerdos obligarían a las empresas de inteligencia artificial a pagar por los datos de capacitación, mientras que hasta ahora en su mayoría los han obtenido de Internet de forma gratuita.

Los creadores de contenido han protestado contra el uso no autorizado de su contenido para entrenar modelos de IA, y algunos han demandado a empresas como Microsoft, OpenAIy Estabilidad IA. Ser remunerado por su trabajo puede ayudar a restablecer parte del desequilibrio de poder que existe entre los creativos y las empresas de IA.

Este artículo se republica de La conversación bajo una licencia Creative Commons. Leer el articulo original.

Crédito de la imagen: Emil Widlund / Unsplash

punto_img

Información más reciente

punto_img