Investigadores y emprendedores buscan maneras de superar los altos costos y requisitos energéticos de la GenAI. Dos enfoques parecen ser los más prometedores.

Irving Wladawsky-Berger. 9 de diciembre de 2024. Iniciativa del MIT sobre la Economía Digital.
AUn número reciente de The Economist presentó un enfoque tecnológico sobre » Las necesidades revolucionarias de la IA » con ocho artículos sobre el tema. «Dos años después de que ChatGPT arrasara en el mundo, la inteligencia artificial generativa parece haber…chocar con un obstáculo”, decía el artículo principal de la edición .
«Elcostos de energíaLos avances en la construcción y el uso de modelos cada vez más grandes están en aumento y los avances se están volviendo más difíciles.
Afortunadamente, investigadores y emprendedores buscan soluciones para sortear las limitaciones. Su ingenio no solo transformará la IA, sino que también determinará qué empresas prevalecen, si los inversores ganan y qué país domina la tecnología.
Esto es aterrador parainversoresQuienes han apostado fuerte por la IA, pero no hay razón para el pánico, decía el artículo. «Muchas otras tecnologías se han enfrentado a limitaciones y han prosperado gracias al ingenio humano», añadía.
“Los avances en IA ya están mostrando cómo las limitaciones pueden estimular la creatividad”.
En particular, The Economist menciona dos de esas innovaciones importantes: el desarrollo dechips con arquitecturas de propósito especial necesarias para entrenar y ejecutar modelos de IAlo más rápido y energéticamente eficiente posible, y el desarrollo demodelos específicos de dominio más pequeños y especializadosque consumen mucha menos energía que los modelos muy grandes que dependen del poder computacional de fuerza bruta.
Permítanme analizar cada una de estas dos innovaciones.
Arquitecturas de chips para propósitos especiales
“ Un momento cámbrico ”, uno de los artículos de The Economist , explica los avances clave en las arquitecturas de chips durante las últimas dos décadas. La IA ha impulsado las arquitecturas de chips hacia la especialización y una conexión más estrecha con el software que están diseñadas para ejecutar. El artículo utiliza el período geológico Cámbrico , cuando la vida en la Tierra atravesó un notable período de diversificación, como metáfora de la diversificación que han experimentado los chips. Al final del período geológico Cámbrico , la diversidad y complejidad de la vida comenzaron a asemejarse a las de la actualidad.
Una especie de explosión cámbrica se ha estado produciendo en el mundo de las TI durante las últimas décadas. Durante los últimos 50 a 60 años…Hemos estado perfeccionando nuestros microprocesadores, chips de memoria y otros componentes digitales basados en nuestra capacidad de meter más transistores en un circuito integrado, lo que ha llevado a un aumento significativo en el rendimiento de la informática.
Lecciones de la Ley de Moore
En su legendario artículo de 1965 , el cofundador de Intel, Gordon Moore, articuló por primera vez lo que se conoce como la Ley de Moore , la observación empírica de que el número de componentes en circuitos integrados se había duplicado cada año desde su invención en 1958. Moore predijo que la tendencia continuaría durante al menos diez años, una predicción que posteriormente cambió a una duplicación cada dos años.

Durante décadas, las unidades centrales de procesamiento (CPU) se convirtieron en los componentes básicos de las computadoras de propósito general, capaces de ejecutar cualquier software, desde sistemas operativos hasta middleware como compiladores, sistemas de bases de datos y navegadores, y una amplia variedad de aplicaciones. Hasta aproximadamente la década del 2000, las empresas de hardware y software de TI se conformaban con las mejoras exponenciales de procesamiento que los fabricantes de chips aportaban a las CPU cada pocos años. La Ley de Moore ha tenido una trayectoria impresionante, pero…
Como todas las cosas buenas, especialmente aquellas basadas en mejoras exponenciales, la tan esperada desaceleración de los avances en semiconductores finalmente llegó en la década de 2000.
Casi al mismo tiempo, las aplicaciones de IA basadas en modelos de aprendizaje automático comenzaron a despegar. Los algoritmos de aprendizaje automático se basan en redes neuronales artificiales —una arquitectura altamente especializada inspirada en la estructura del cerebro humano— compuesta por capas simuladas de nodos o neuronas artificiales que realizan sumas y multiplicaciones en paralelo en un gran número de nodos.
Las CPU de propósito general no fueron diseñadas para soportar el procesamiento paralelo a gran escala.de las operaciones aritméticas simples que utilizan las redes neuronales. EspecializadasAceleradores de IASe requerían procesadores con múltiples núcleos para procesar grandes algoritmos de redes neuronales en paralelo. Las unidades de procesamiento gráfico (GPU), diseñadas originalmente para acelerar los exigentes gráficos del procesamiento de imágenes y los videojuegos, resultaron ser idóneas para procesar redes neuronales, superando con creces a las CPU de propósito general.
La década de 2010 fue testigo del desarrollo de aplicaciones de IA cada vez más impactantes basadas en redes neuronales de aprendizaje profundo multicapa , donde el resultado de una capa se transmite a la siguiente si supera un umbral determinado. Las redes neuronales de aprendizaje profundo pueden tener varias capas o más de 100.
A finales de la década de 2010, las aplicaciones de inteligencia artificial de vanguardia requerían mucha más potencia de procesamiento que las aplicaciones anteriores apenas unos años antes.
Drenajes de recursos
Las GPU se han vuelto necesarias, pero no suficientes. Más recientemente, los modelos de base y las aplicaciones de IA generativa se han vuelto mucho más grandes, y el volumen de datos que procesan ha aumentado exponencialmente, dando lugar a…cuello de botella de acceso a la memoriaPara abordar estos cuellos de botella de memoria fue necesario llevar el enfoque paralelo de las GPU un paso más allá, lo que Google hizo al crear un chip diseñado específicamente para redes neuronales grandes: la unidad de procesamiento tensorial .
ElTPUContiene miles de unidades de multiplicación y suma conectadas directamente en una red gigante. La TPU carga los datos de la memoria externa en su red, donde fluyen en ondas regulares, de forma similar a cómo un corazón bombea sangre. Tras cada multiplicación, los resultados se pasan a la siguiente unidad. Al reutilizar los datos de pasos anteriores, la TPU reduce la necesidad de acceder a la memoria externa. Las TPU son un tipo de procesadores «específicos de dominio» (DSA), diseñados para un propósito específico.
Los DSA diseñados para algoritmos de IA suelen ser más rápidos y más eficientes energéticamente que las CPU generalistas o incluso las GPU”.
Modelos de IA más pequeños y energéticamente eficientes
Durante gran parte de la historia del transistor, los chips no solo se volvieron más rápidos, sino que consumieron menos energía. «Pero esa era ha terminado», señala » La implacable máquina de innovación «, otro artículo en el número de The Economist . «Los procesadores de IA de vanguardia incorporan más transistores en un solo chip o apilan múltiples ‘chiplets’ en un solo paquete para aumentar la potencia informática. Pero las mejoras de rendimiento han tenido un costo:La energía consumida por un chip se ha disparado.» Blackwell ,de NvidiaEl último superchip, “funciona cinco veces más rápido que su predecesor, pero utiliza un 70% más de energía en el proceso”.
Los centros de datos conectan cientos o miles de estos chips de alto consumo de energía para ejecutar grandes modelos de inteligencia artificial (IA). Según algunas estimaciones, OpenAI, fabricante deChatGPT consumió más de 50 gigavatios-hora de electricidad para entrenar a su último modelo.
La Agencia Internacional de la Energía calcula que, en 2022, los centros de datos consumieron 460 teravatios-hora, lo que equivale a casi el 2 % de la demanda mundial de electricidad. La agencia prevé que esta cifra se duplique para 2026.
Las GPU, TPU y otros chips de IA altamente especializados mejorarán la eficiencia energética de los sistemas de IA, así como su rendimiento.El siguiente paso importante será identificar el próximo conjunto de funciones de IA cuyo rendimiento y eficiencia energética se pueden mejorar significativamente con el uso dearquitecturas específicas del dominio(DSAs).
¿Un mundo pequeño (con chips)?
Con el tiempo, los modelos de IA muy grandes que dependen del poder computacional de fuerza bruta podrían dar paso a sistemas, funciones y chips de IA más pequeños optimizados para dominios específicos.
Una vez más, podemos inspirarnos en la evolución. Nuestros cerebros son órganos con una eficiencia energética asombrosa . El cerebro humano contiene aproximadamente 100 mil millones de neuronas y consume hasta el 20 % de la energía que utiliza nuestro cuerpo, más que cualquier otro órgano. En términos computacionales, puede realizar el equivalente a un exaflop (mil millones de millones de operaciones matemáticas por segundo, un 1 seguido de 18 ceros) con tan solo 20 vatios de potencia. En comparación, una de las supercomputadoras más potentes del mundo, la Oak Ridge Frontier, ha demostrado recientemente la computación a exaflop. Pero necesita un millón de veces más potencia (20 megavatios) para lograr esta hazaña.
¿Cómo llegó el cerebro humano a ser tan eficiente? Mediante herramientas de escaneo cerebral como la resonancia magnética funcional , científicos cognitivos y neurocientíficos han demostrado que las funciones cerebrales, como las implicadas en el procesamiento del lenguaje, el razonamiento y la resolución de problemas, se concentran en regiones cerebrales muy específicas . A lo largo de decenas de millones de años , desde los primeros primates, nuestros cerebros han evolucionado como un sistema complejo de funciones especializadas que han colaborado para permitirnos sobrevivir y reproducirnos, según lo exige la selección natural .
Al final, impulsar la IA más allá de sus límites actuales mediante el ingenio en lugar de la fuerza bruta es realmente el avance que la IA necesita .
La era de la IA aún está en sus inicios y aún hay mucha incertidumbre. Las próximas décadas prometen ser muy emocionantes y desafiantes.
Este blog apareció por primera vez el 28 de noviembre aquí .