El MIT y MIT-IBM Watson AI Lab crean un método de calibración de modelos lingüísticos de gran tamaño

CASADOMO, 06/08/2024

Los modelos lingüísticos de gran tamaño a veces generan respuestas inexactas, al tiempo que pueden tener demasiada confianza en las respuestas incorrectas o poca confianza en las correctas, lo que hace que sea difícil para un usuario saber cuándo se puede confiar en un modelo. Los investigadores del Instituto Tecnológico de Massachussets (MIT) y del MIT-IBM Watson AI Lab han presentado un método de calibración adaptado a modelos lingüísticos de gran tamaño.

Los investigadores han descubierto que si se entrena un modelo de Thermometer para un LLM más pequeño se puede aplicar directamente para calibrar un LLM más grande.

Su método, llamado Thermometer, implica la construcción de un modelo auxiliar más pequeño que se ejecuta sobre un modelo lingüístico de gran tamaño para calibrarlo. El Thermometer es más eficiente que otros métodos, ya que requiere menos computación que consume mucha energía, al tiempo que preserva la precisión del modelo y le permite producir respuestas mejor calibradas en tareas que no ha visto antes.

Al permitir una calibración eficiente de un modelo de lenguaje grande (LLM) para una variedad de tareas, Thermometer podría ayudar a los usuarios a identificar situaciones en las que un modelo confía demasiado en predicciones falsas, lo que en última instancia les impide implementar ese modelo en una situación en la que pueda fallar.

Calibración de los modelos LLM

La calibración de un modelo LLM suele implicar tomar muestras del modelo varias veces para obtener diferentes predicciones y luego agregarlas para obtener una mayor fiabilidad. Sin embargo, como estos modelos tienen miles de millones de parámetros, los costos computacionales de estos enfoques aumentan rápidamente.

Con Thermometer, los investigadores desarrollaron una técnica versátil que aprovecha un método de calibración clásico llamado escala de temperatura para calibrar eficientemente un LLM para una nueva tarea. En este contexto, una temperatura es un parámetro de escala que se utiliza para ajustar la confianza de un modelo para que esté en consonancia con la precisión de su predicción. Tradicionalmente, se determina la temperatura correcta utilizando un conjunto de datos de validación etiquetados de ejemplos específicos de la tarea.

Dado que los LLM suelen aplicarse a nuevas tareas, los conjuntos de datos etiquetados pueden resultar casi imposibles de adquirir. En lugar de utilizar un conjunto de datos etiquetado, los investigadores entrenan un modelo auxiliar que se ejecuta sobre un LLM para predecir automáticamente la temperatura necesaria para calibrarlo para esta nueva tarea.

Utilizan conjuntos de datos etiquetados de algunas tareas representativas para entrenar el modelo del Thermometer. Una vez entrenado puede generalizarse a nuevas tareas en una categoría similar sin la necesidad de datos etiquetados adicionales.

El modelo del Thermometer solo necesita acceder a una pequeña parte del funcionamiento interno del LLM para predecir la temperatura correcta que calibrará su predicción para los puntos de datos de una tarea específica.

Entrenamiento de un LLM pequeño para un LLM más grande

Es importante destacar que la técnica no requiere múltiples ejecuciones de entrenamiento y solo reduce ligeramente la velocidad de respuesta. Además, dado que el escalamiento de temperatura no altera las predicciones de un modelo, Thermometer conserva su precisión.

Cuando compararon el Thermometer con varias líneas de base en múltiples tareas, produjo consistentemente medidas de incertidumbre mejor calibradas y requirió mucho menos cálculo. Los investigadores también descubrieron que, si entrenan un modelo de Thermometer para un LLM más pequeño, se puede aplicar directamente para calibrar un LLM más grande dentro de la misma familia.

En el futuro, quieren adaptar Thermometer para tareas de generación de texto más complejas y aplicar la técnica a LLM aún más grandes. Los investigadores también esperan cuantificar la diversidad y la cantidad de conjuntos de datos etiquetados que se necesitarían para entrenar un modelo Thermometer para que pueda generalizarse a una nueva tarea.

Comparte en tus perfiles

Artículos Relacionados:

Se publica el Informe sobre Desarrollo Humano 2025

8 de mayo de 2025

La inteligencia artificial (IA) ha despegado vertiginosamente. Si bien sus logros acaparan titulares, privilegian la tecnología en un vacío imaginario, eclipsando lo que realmente importa: las decisiones de las personas. Las opciones que las personas tienen y pueden realizar, dentro de unas libertades cada vez mayores, son esenciales para el desarrollo humano, cuyo objetivo es

Seguir leyendo »

Bienestar y felicidad.

8 de mayo de 2025

Jancee Dunn, 3 de mayo de 2025. The Times. Este fin de semana, mis colegas de The New York Times Magazine publican un número especial dedicado a la felicidad : cómo definirla, descubrirla y aumentarla. En particular, me encantó un cuestionario llamado “ ¿Qué te hace feliz? ”. Me divertí respondiendo a las preguntas, pero también me hizo pensar.

Seguir leyendo »

El curriculum y la persona.

8 de mayo de 2025

¿y si tu CV realmente hablara por ti? Imagínalo diciendo con claridad quién eres, lo que sabes hacer y por qué deberías contratarte. Hoy en día, no basta con tener experiencia o formación: necesitas mostrar tu perfil de forma clara, potente y alineada con lo que buscan las empresas. Puedes lograrlo con ayuda de la

Seguir leyendo »