Comprender la arquitectura LLaMA-2 y su enorme impacto en GenAI

Un resumen «humano» del documento LLaMA-2 de 77 páginas de Meta y lo que necesita saber para ajustarlo en su conjunto de datos.

Kunal Sawarkar Hacia la IA generativa Medium. https://medium.com/towards-generative-ai/understanding-llama-2-architecture-its-ginormous-impact-on-genai-e278cb81bd5c

29 de julio 2023

Lo mejor desde que apareció el pan de molde la semana pasada en forma de Llama-2. Meta lo lanzó con una licencia abierta para fines comerciales y de investigación. Una mirada más cercana a los términos de la licencia muestra que no es exactamente “código abierto”, sino más bien innovación abierta. Es alentador ver que Meta (alguna vez odiada por sus prácticas de IA) sea ahora el mayor contribuyente a la innovación abierta en IA en comparación con la empresa cuyo nombre dice «Open»; pero sus modelos de IA en realidad están cerrados.

Arquitectura LLAMA2 (Crédito-Meta)

¿Por qué es el mayor avance en IA desde el legendario artículo de AlexNet sobre reconocimiento de imágenes o el artículo “ La atención es todo lo que necesitas ” sobre Transformer?

  • El artículo de LLaMA-2 describe la arquitectura con buen detalle para ayudar a los científicos de datos a recrear y ajustar los modelos. (a diferencia de los artículos de OpenAI donde hay que deducirlo indirectamente).
  • Está entrenado con 2 billones de tokens, supera todos los puntos de referencia de código abierto por un amplio margen y es comparable a GPT3.5 en términos de rendimiento en evaluación humana.
  • La mayor novedad es la mejora con respecto a la arquitectura OpenAI, en el modelo de seguridad versus utilidad, donde el rendimiento de los modelos no se degrada a medida que se vuelve más seguro. Proporciona abundantes detalles sobre la alineación con la evaluación humana; que es la parte más cara del proceso de LLM. Es un enorme paso adelante para hacer que los LLM sean más seguros para la adopción empresarial.
  • Nuevos avances en LLM como atención de consultas de mero, atención de fantasmas, reescalado de temperatura en contexto y percepción temporal.
  • Está disponible en HuggingFace, WatsonX y Azure, lo que alivia el costo de adopción. Ahora, incluso puedes ajustar un LLM de 70B en una sola GPU (algo impensable hace apenas 6 meses).

Aquí hay una revisión detallada del artículo de 77 páginas de LLaMA-2, que describe cómo se entrena, afina y refina el modelo utilizando RLHF con resultados que lo comparan con modelos de código abierto.

¿Qué modelos se lanzan?

Meta está lanzando LLaMA-2 con parámetros 7B, 13B y 70B . También está lanzando la versión optimizada con instrucciones del mismo LLaMA-Chat en las mismas 3 variedades.

La diferencia clave entre los modelos Llama-1 anteriores son los términos de la licencia: el tamaño del corpus de preentrenamiento aumentó en un 40 %, duplicó la longitud del contexto del modelo a 4K y adoptó atención de consultas agrupadas para su variante 70B. La parte más impactante que sentí fue el nuevo enfoque de seguridad con dos modelos de recompensas por Seguridad y Utilidad que superan a la mayoría de los otros modelos en los puntos de referencia de evaluación humana, como se ve a continuación.

La versión ajustada a las instrucciones de Lama-2 Chat es claramente mejor que ChatGPT en los puntos de referencia anteriores y otros modelos de código abierto por un enorme margen de alrededor del 60% al 75%. Por lo tanto, es muy importante abrir la innovación.

Detalles previos al entrenamiento

Está entrenado con 2 billones de tokens de datos. El tokenizador utiliza un algoritmo de codificación de par de bytes (BPE). Utiliza la arquitectura de transformador estándar, aplica prenormalización usando RMSNorm, usa la función de activación SwiGLU yincrustación posicional rotativa. La diferencia clave incluye una mayor longitud del contexto.
Hiperparámetros: optimizador AdamW, utiliza un programa de tasa de aprendizaje de coseno, con un calentamiento de 2000 pasos, y reduce la tasa de aprendizaje final al 10% de la tasa de aprendizaje máxima. Utiliza una caída de peso de 0,1 y recorte de gradiente. Funcionó bien en diversas tareas, como codificación, preguntas y respuestas en contexto, razonamiento de sentido común y puntos de referencia de conocimientos. Detalles abajo.

Sintonia FINA

El enfoque para el ajuste fino se muestra en el diagrama de arquitectura anterior con la parte de Ajuste fino supervisado (SFT) y Aprendizaje reforzado con retroalimentación humana (RLHF).

Detalles de SFT (ajuste fino supervisado)

Meta utiliza un enfoque novedoso aquí al segmentar según las líneas de indicaciones de ayuda y seguridad como parte del conjunto.

Para iniciar el proceso, comenzaron la etapa SFT utilizando datos de ajuste de instrucciones disponibles públicamente (Chung et al., 2022) y anotando meticulosamente aproximadamente 27 540 instancias, con un fuerte énfasis en la calidad de los datos. Para la fase de ajuste fino supervisada, emplearon un programa de tasa de aprendizaje de coseno con una tasa de aprendizaje inicial de 2*10–5, una caída de peso de 0,1, un tamaño de lote de 64 y una longitud de secuencia de 4096 tokens. Estos hiperparámetros se ajustaron en el transcurso de 2 épocas. El objetivo de capacitación siguió un enfoque autorregresivo, en el que la pérdida de tokens del mensaje del usuario se puso a cero y la propagación hacia atrás solo se realizó en los tokens de respuesta.

Recopilación de datos humanos de RLHF

Meta ordenó a los anotadores que siguieran un proceso específico: primero, tenían que crear un mensaje y luego se les presentaban dos respuestas generadas por el modelo, que debían evaluar según criterios determinados. Para garantizar una mayor diversidad, las dos respuestas a cada mensaje se tomaron muestras de dos variantes de modelo distintas, utilizando diferentes hiperparámetros de temperatura. Como se describió anteriormente, los datos recopilados se clasificaron según las dimensiones de seguridad y utilidad. Estos datos recopilados sirvieron de base para el modelo de recompensa.

Modelo de recompensa

El modelo de recompensa está diseñado para tomar tanto una respuesta generada por el modelo como su mensaje correspondiente (incluido el contexto previo) como entradas y luego producir una puntuación escalar, que indica la calidad del resultado generado, como su utilidad y seguridad. El avance más significativo introducido por LLAMA2 es superar el equilibrio comúnmente observado entre seguridad y utilidad, logrando un desempeño superior en ambos criterios.

Para lograr esto, Meta entrenó dos modelos de recompensa distintos: uno optimizado para la utilidad, denominado RM de utilidad, y otro para la seguridad, denominado RM de seguridad. La arquitectura del modelo y los hiperparámetros siguen siendo los mismos que los de los modelos de lenguaje previamente entrenados, excepto por el cabezal de clasificación para la predicción del siguiente token, que se reemplaza por un cabezal de regresión para generar la recompensa escalar.

Para entrenar el modelo de recompensa, los datos de preferencias humanas se estructuraron en un formato de etiqueta de clasificación binaria, con las respuestas categorizadas como elegidas y rechazadas. Se aseguró que la respuesta elegida siempre recibiera una puntuación más alta que su contraparte. Meta llevó a cabo una extensa mezcla de datos, combinando los datos de Utilidad con otros conjuntos de datos de código abierto, logrando finalmente una composición del 90% al 10%. El modelo de recompensa se entrenó durante una época, empleando una tasa de aprendizaje de 1*10x-5.

El modelo de recompensas general supera todos los puntos de referencia, incluido GPT4, y no se satura en sus propios conjuntos de datos de dominio.

RLHF IFT (Ajuste fino iterativo)

Meta creó varias versiones de RLHF desde V1 a V5 usando IFT con dos algoritmos.
• Optimización de políticas próximas (PPO) : igual que el enfoque OpenAI, que utiliza el modelo de recompensa como una estimación de la verdadera función de recompensa (preferencia humana) y el modelo de lenguaje previamente entrenado como la política a optimizar.
• Ajuste fino del muestreo de rechazo . Pruebe K resultados del modelo y seleccione el mejor candidato con una recompensa, y utilice los resultados seleccionados para una actualización de gradiente. La puntuación de recompensa más alta se considera el nuevo estándar de oro y luego ajustamos nuestro modelo en el nuevo conjunto de muestras clasificadas, reforzando la recompensa.

Personalmente, encontré este enfoque de muestreo de rechazo bastante intuitivo y más fácil de interpretar para el aprendizaje. Esto se realiza en el modelo 70B y todos los modelos más pequeños se destilan de él. El resultado final es que la brecha entre la mediana y el máximo sigue creciendo; mostrando ganancia neta.

Se entrenaron dos modelos distintos, a saber, el modelo de recompensa por seguridad (R_s) y el modelo de recompensa por ayuda (R_h). Para garantizar la seguridad, Meta identificó indicaciones en el conjunto de datos que podrían provocar respuestas inseguras y priorizó las puntuaciones generadas por el modelo de seguridad. Se eligió un umbral de 0,15 para filtrar las respuestas inseguras, lo que dio como resultado una precisión de 0,89 y una recuperación de 0,55, según lo evaluado en el conjunto de pruebas Meta Safety.

Para el proceso de entrenamiento, se empleó el optimizador AdamW con una caída de peso de 0,1 y se aplicó un recorte de gradiente de 1,0. Durante el entrenamiento se utilizó una tasa de aprendizaje constante de 10*-6. Cada iteración de optimización de política proximal (PPO) utilizó un tamaño de lote de 512, un umbral de recorte de PPO de 0,2 y un tamaño de minilote de 64. Además, se tomó un paso de gradiente por minilote.

Atención fantasma (GAtt)

Se ha reconocido que la pérdida de contexto en conversaciones de varios turnos es un problema conocido. Para solucionar esto, Meta implementó un método GAtt (GHost Attention) al concatenar artificialmente la instrucción a todos los mensajes del usuario dentro de la conversación. Posteriormente, tomaron muestras de este conjunto de datos aumentado utilizando el último modelo RLHF (Aprendizaje por refuerzo con retroalimentación humana). Como resultado, obtuvieron un diálogo rico en contexto y una muestra correspondiente, que utilizaron para ajustar el modelo, similar al proceso de muestreo de rechazo. El resultado general mostró una mejor atención en comparación con el modelo existente. Sin embargo, es importante señalar que este enfoque se evaluó exclusivamente en los modelos 70B.

Resultados del modelo

Meta pidió a tres anotadores que juzgaran la calidad de las respuestas basándose en una escala Likert de 7 puntos (cuanto más alta, mejor) y calculó la TIR (confiabilidad entre evaluadores) para garantizar la coherencia en la calidad.

LLAMA-2 Chat supera a los modelos de código abierto por un
margen significativo (60–75%) tanto en indicaciones de un solo giro como de múltiples giros y es comparable a ChatGPT.

Modelo de seguridad

Meta limpió los datos en busca de sesgos como personas como hombres o normas de orientación sexual y equilibró el conjunto de datos de entrenamiento y eliminó la toxicidad. Utilizó puntos de referencia como TruthfulQA para la integridad de los hechos, ToxicGen para contenido de odio y BOLD para prejuicios sociales.

Siguieron un proceso similar al de ajuste general, que abarcó tres pasos principales:

  1. Ajuste de seguridad supervisado : inicialmente, iniciaron el proceso recopilando indicaciones contradictorias y demostraciones de seguridad, que luego se incorporaron al procedimiento general de ajuste supervisado. Este paso garantizó que el modelo cumpliera con sus pautas de seguridad incluso antes del RLHF (aprendizaje reforzado con retroalimentación humana) y sentó las bases para obtener anotaciones de datos de preferencia humana de alta calidad.
  2. Seguridad RLHF: Luego del ajuste de seguridad supervisado, se procedió a integrar la seguridad al ducto general RLHF. Esto implicó entrenar un modelo de recompensa específico para la seguridad y adquirir indicaciones adversas más desafiantes para el proceso de ajuste utilizando el ajuste fino del estilo de muestreo de rechazo y la optimización de la política proximal (PPO).
  3. Destilación de contexto de seguridad: finalmente, refinaron el oleoducto RLHF empleando destilación de contexto para mayor seguridad. Este paso implicó generar respuestas modelo más seguras agregando una indicación previa de seguridad, como «Eres un asistente seguro y responsable», a las indicaciones. Luego, el modelo se ajustó en función de las respuestas más seguras sin la indicación previa, esencialmente destilando la indicación previa de seguridad (contexto) en el modelo. Se utilizó un enfoque específico que permitió que el modelo de recompensa de seguridad decidiera si utilizar la destilación de contexto para cada muestra.

Por supuesto, la seguridad es un problema difícil de resolver, ya que no se pueden prever todos los casos extremos. El resultado más interesante es su impacto en la alineación de la utilidad.

La puntuación media de utilidad se mantiene constante, lo que supone un gran avance para hacer que los LLM sean más seguros. Como cualquier modelo de ML, existe el riesgo de un falso negativo o un falso rechazo si hacemos que el modelo sea demasiado seguro. Meta también lo midió y encontró que era solo del 0,05%.

Meta también realizó Red Teaming con equipos de más de 350 personas, incluidos expertos en ciberseguridad, fraude electoral, desinformación en redes sociales, asuntos legales, políticos, derechos civiles, ética, ingeniería de software, aprendizaje automático, inteligencia artificial responsable y escritura creativa.

En general, el modelo se desempeña muy bien en los puntos de referencia de seguridad en comparación con todos los demás LLM.

Nuevos hallazgos

Meta también compartió algunos aprendizajes interesantes de su investigación para la comunidad de IA.

  1. Es posible que los datos supervisados ​​ya no sean el estándar de oro. El rendimiento del modelo está limitado por las habilidades de escritura del anotador más hábil. Una retroalimentación quizás sea más adecuada.
  2. Cambio de escala de temperatura en contexto: donde se reduce la diversidad de respuestas. Pero no sucede de manera uniforme y sucede más con estímulos creativos que con estímulos fácticos.

Al aumentar la temperatura, el modelo aprende a proporcionar consistentemente la misma respuesta a indicaciones objetivas.

3. Percepción temporal: quizás el aspecto más fascinante es la capacidad de LLM para comprender la naturaleza temporal de las preguntas. Este fue el problema de mayor duración en los modelos de lenguaje.

La observación sugiere que los LLM han internalizado el concepto de tiempo en mayor medida de lo que se suponía anteriormente, a pesar de que su capacitación se basa únicamente en la predicción del siguiente token y en datos que se mezclan aleatoriamente sin tener en cuenta
su contexto cronológico.

¿Por qué LLAMA-2 es un cambio sísmico?

  • El enfoque y la escala que requiere superan todo lo que ha llegado hasta ahora en innovación abierta, como FALCON o VACUNA.
  • Meta también adopta un enfoque dedicado a la evaluación humana comparable a OpenAI. Para comparar los modelos, recopiló un conjunto diverso de más de 4000 indicaciones de uno y varios turnos que abarcan las siguientes categorías: preguntas objetivas, redacción y creación de contenido, asistencia lingüística, recomendaciones y diálogo.
  • La tensión entre seguridad y utilidad en el modelado de recompensas finalmente se aborda de frente con datos, capacitación y un modelo dedicado y, con mucho gusto, se resuelve hasta un grado aceptable de adopción. También utilizaron un enfoque de escalamiento de la seguridad que, en mi opinión, tendrá un impacto mucho mayor en la dirección futura de la investigación.
  • El apéndice del documento detalla suficientes detalles técnicos sobre la evaluación y el ajuste para avanzar en el estado de los LLM. Esto es cierto en el espíritu de la “ Innovación Abierta ” .

Meta frente a OpenAI

Meta y OpenAI tomaron dos caminos diferentes. Al principio, OpenAI estaba entusiasmado con la ética y tenía ideas ambiciosas para cambiar el mundo. Sin embargo, con el tiempo se volvieron demasiado confiados en sí mismos y cerraron la puerta a la innovación abierta. Cambiaron hacia un enfoque cerrado, lo que generó críticas y desaprobación por parte de muchos debido a su rígido estilo de IA. Por otro lado, Meta comenzó con un enfoque cerrado y no fue muy apreciado por sus restrictivos métodos de IA. Sorprendentemente, la estrategia de Meta ha tenido un impacto significativo en el campo de la IA, especialmente con sus contribuciones al desarrollo de PyTorch.

Si bien una semana es mucho tiempo en GenAI, creo que este artículo seguirá siendo considerado el más influyente en el avance de GenAI dentro de unos años.

Citación

Enlace al artículo original: https://arxiv.org/abs/2307.09288

Todas las imágenes se atribuyen a Meta AI.

Comparte en tus perfiles

Facebook
Twitter
LinkedIn

Artículos Relacionados:

¿Para quién son las calles?

Más del 80% del espacio vial de Toronto está destinado de forma inequitativa a los vehículos motorizados. ¿Cómo se puede rediseñar esto de forma justa? Por Jeff Allen , Lanrick Bennett Jr. y Mia Wang ~ Septiembre de 2025 Jeff Allen dirigió el análisis y la visualización de datos para este proyecto, y apoyó la redacción; Lanrick Bennett Jr. dirigió la

Seguir leyendo »

AGROBIOTECNOLOGÍA

Argentina marca un récord histórico: 11 cultivos transgénicos aprobados en 2025 El agro argentino suma nuevas herramientas para ganar eficiencia y enfrentar plagas. La Secretaría de Agricultura, Ganadería y Pesca autorizó en los últimos días dos nuevos eventos biotecnológicos -uno de maíz y otro de soya que elevan a 11 el total de aprobaciones en

Seguir leyendo »

IA física: impulsando la nueva era de las operaciones industriales

Teresa Wolf yAndrea Willige. 9 de septiembre de 2025. WORLD ECONOMIC FORUM. Las operaciones industriales se encuentran en un momento crucial, condicionadas por la creciente complejidad y la escasez de mano de obra, y agravadas por la incertidumbre global. Este informe técnico, « IA física: Impulsando la nueva era de las operaciones industriales », explora cómo los

Seguir leyendo »