El MIT y MIT-IBM Watson AI Lab crean un método de calibración de modelos lingüísticos de gran tamaño

CASADOMO, 06/08/2024

Los modelos lingüísticos de gran tamaño a veces generan respuestas inexactas, al tiempo que pueden tener demasiada confianza en las respuestas incorrectas o poca confianza en las correctas, lo que hace que sea difícil para un usuario saber cuándo se puede confiar en un modelo. Los investigadores del Instituto Tecnológico de Massachussets (MIT) y del MIT-IBM Watson AI Lab han presentado un método de calibración adaptado a modelos lingüísticos de gran tamaño.

Los investigadores han descubierto que si se entrena un modelo de Thermometer para un LLM más pequeño se puede aplicar directamente para calibrar un LLM más grande.

Su método, llamado Thermometer, implica la construcción de un modelo auxiliar más pequeño que se ejecuta sobre un modelo lingüístico de gran tamaño para calibrarlo. El Thermometer es más eficiente que otros métodos, ya que requiere menos computación que consume mucha energía, al tiempo que preserva la precisión del modelo y le permite producir respuestas mejor calibradas en tareas que no ha visto antes.

Al permitir una calibración eficiente de un modelo de lenguaje grande (LLM) para una variedad de tareas, Thermometer podría ayudar a los usuarios a identificar situaciones en las que un modelo confía demasiado en predicciones falsas, lo que en última instancia les impide implementar ese modelo en una situación en la que pueda fallar.

Calibración de los modelos LLM

La calibración de un modelo LLM suele implicar tomar muestras del modelo varias veces para obtener diferentes predicciones y luego agregarlas para obtener una mayor fiabilidad. Sin embargo, como estos modelos tienen miles de millones de parámetros, los costos computacionales de estos enfoques aumentan rápidamente.

Con Thermometer, los investigadores desarrollaron una técnica versátil que aprovecha un método de calibración clásico llamado escala de temperatura para calibrar eficientemente un LLM para una nueva tarea. En este contexto, una temperatura es un parámetro de escala que se utiliza para ajustar la confianza de un modelo para que esté en consonancia con la precisión de su predicción. Tradicionalmente, se determina la temperatura correcta utilizando un conjunto de datos de validación etiquetados de ejemplos específicos de la tarea.

Dado que los LLM suelen aplicarse a nuevas tareas, los conjuntos de datos etiquetados pueden resultar casi imposibles de adquirir. En lugar de utilizar un conjunto de datos etiquetado, los investigadores entrenan un modelo auxiliar que se ejecuta sobre un LLM para predecir automáticamente la temperatura necesaria para calibrarlo para esta nueva tarea.

Utilizan conjuntos de datos etiquetados de algunas tareas representativas para entrenar el modelo del Thermometer. Una vez entrenado puede generalizarse a nuevas tareas en una categoría similar sin la necesidad de datos etiquetados adicionales.

El modelo del Thermometer solo necesita acceder a una pequeña parte del funcionamiento interno del LLM para predecir la temperatura correcta que calibrará su predicción para los puntos de datos de una tarea específica.

Entrenamiento de un LLM pequeño para un LLM más grande

Es importante destacar que la técnica no requiere múltiples ejecuciones de entrenamiento y solo reduce ligeramente la velocidad de respuesta. Además, dado que el escalamiento de temperatura no altera las predicciones de un modelo, Thermometer conserva su precisión.

Cuando compararon el Thermometer con varias líneas de base en múltiples tareas, produjo consistentemente medidas de incertidumbre mejor calibradas y requirió mucho menos cálculo. Los investigadores también descubrieron que, si entrenan un modelo de Thermometer para un LLM más pequeño, se puede aplicar directamente para calibrar un LLM más grande dentro de la misma familia.

En el futuro, quieren adaptar Thermometer para tareas de generación de texto más complejas y aplicar la técnica a LLM aún más grandes. Los investigadores también esperan cuantificar la diversidad y la cantidad de conjuntos de datos etiquetados que se necesitarían para entrenar un modelo Thermometer para que pueda generalizarse a una nueva tarea.

Comparte en tus perfiles

Facebook
Twitter
LinkedIn

Artículos Relacionados:

El proyecto europeo Treeads valida tecnologías avanzadas para prevenir, detectar y gestionar incendios forestales

ESMARTCITY. 24/09/2025 En un contexto en el que el cambio climático y las condiciones meteorológicas extremas están provocando cada vez más incendios forestales, el proyecto europeo Treeads (A Holistic Fire Management Ecosystem for Prevention, Detection and Restoration of Environmental Disasters) ha creado un ecosistema holístico de gestión de incendios para la prevención, detección y restauración de desastres ambientales,

Seguir leyendo »

Agricultura regenerativa y agroecología: semillas de esperanza entre Cataluña y Mérida

Por Ambiente: situación y retos. Pablo Kaplun. 22 de septiembre de 2025. Ambiente: situación y retos. El Nacional. En un momento en que la sostenibilidad es más urgente que nunca, llegan noticias y ejemplos que alimentan la esperanza. Uno de ellos proviene de Cataluña: un estudio reciente del proyecto Regenera.cat, promovido por el CREAF —Centro de Investigación

Seguir leyendo »

la transformación digital de la agricultura

Jaime Moreno. 22 de septiembre de 2025. BID INVEST ¡Hola! El cambio de estación ya se siente en Washington D. C. El aire es más fresco, las hojas comienzan a mostrar sus colores otoñales y la noche llega más temprano. En este periodo tan estimulante me siento afortunado de iniciar mi camino en el Grupo

Seguir leyendo »