Si bien la realidad física existe independientemente de los observadores, los modelos físicos —junto con sus matemáticas, causas y efectos— dependen enteramente de los observadores, de sus capacidades cognitivas, de su capacidad de hacer una determinada pregunta y no otra, y también de sus límites cognitivos.

Francisco De Bernardis–La revista Quantastic
The Quantastic Journal, Número febrero 2025, ISSN 3035–8000
Publicado en MEDIUM
Debemos advertir desde el principio que la principal enfermedad profesional de este campo es la persistente incapacidad de distinguir entre la entropía de la información, que es una propiedad de cualquier distribución de probabilidad, y la entropía experimental de la termodinámica, que es en cambio una propiedad de un estado termodinámico […] Nunca debieron haber sido llamadas con el mismo nombre; la entropía experimental no hace referencia a ninguna distribución de probabilidad, y la entropía de la información no hace referencia a la termodinámica.
—ET Jaynes, Teoría de la probabilidad, la lógica de la ciencia
Tres de mis gatos tienen comederos automáticos. Estos comederos son máquinas que se pueden emparejar con un microchip específico. Cuando detectan el microchip, abren una puerta para que el gato pueda comer su comida. Cada comedero está emparejado con solo uno de los tres gatos. Cuando se acerca el gato correcto, el comedero detecta el microchip implantado debajo de la piel del gato, las corrientes eléctricas hacen su trabajo y la puerta del comedero se abre para que el gato pueda comer. Ninguno de los gatos sabe sobre corrientes, electromagnetismo y leyes de Maxwell. Sin embargo, entienden que deben acercarse al comedero correcto. A ninguno de los tres comederos. Cada gato sabe qué comedero se abrirá para él; ni siquiera prueba los otros. También hay un cuarto gato que no tiene comedero; se alimenta de la manera tradicional. Este cuarto gato ni siquiera intenta acercarse a ningún comedero porque entiende que no se abrirán para él. El conocimiento de la física tal como la conocemos es completamente irrelevante para estos gatos. Sin embargo, esta falta de conocimiento no les impide comprender lo que deben hacer para acceder a los alimentos.
Aunque no puedo estar seguro de esto, es posible que ninguno de los gatos se pregunte sobre el funcionamiento del comedero, sea lo que sea lo que signifique preguntarse a nivel cognitivo. Después de todo, no necesitan saber para lograr su objetivo. Sin embargo, si los gatos quisieran construir un modelo físico, podrían idear una ley en la que la fuerza de apertura de la puerta del comedero dependa de la distancia adecuada del gato. Si pudieran hacer cálculos de manera similar a los humanos, este modelo podría implicar un delta de Kronecker, dependiente del par gato-comedero. La casa es todo su universo; estos comederos son todo lo que conocen, y este modelo físico funcionaría perfectamente.

Si bien la realidad física existe independientemente de los observadores, los modelos físicos —junto con sus matemáticas, causas y efectos— dependen enteramente de los observadores, de sus capacidades cognitivas, de su capacidad de hacer una determinada pregunta y no otra, y también de sus límites cognitivos.
Esto debería hacernos preguntarnos:
¿Existe algún aspecto del mundo que nuestras capacidades cognitivas nunca podrán captar correctamente? No sólo es posible que no sepamos qué pregunta hacer, sino que incluso tal vez no seamos capaces de formularla. ¿Somos los gatos de algún comedero?
Cerebros y Física
Con suerte, después de la introducción anterior, todos podemos estar de acuerdo en algo: el cerebro no necesita saber física para hacer su trabajo. Por saber física me refiero a ser consciente de las leyes físicas formales. Aprendemos que los objetos caen al suelo cuando somos niños, sin conocer las teorías de Newton y Einstein. Históricamente, la humanidad ha sabido que los objetos que caen desde diferentes alturas llegan al suelo a diferentes velocidades, sin saber nada sobre la energía potencial y cinética. En otras palabras,
Los cerebros no necesitan conocer leyes físicas para observar y hacer predicciones para el futuro basándose en observaciones pasadas.
Al mismo tiempo, los procesos físicos cuantitativos que gobiernan la naturaleza también están presentes en el cerebro y hacen que éste funcione exactamente como lo hace. Algunos mecanismos físicos cuantitativos deben ocurrir dentro del cerebro sin que nos demos cuenta. Aunque no nos demos cuenta de que nuestras neuronas se están activando para producir conexiones y pensamiento, sin duda hay mucha física dentro de nuestro cerebro cuando vemos objetos caer al suelo. Esto es cierto para cualquier individuo, independientemente de sus conocimientos o interés en física y matemáticas.
La descripción detallada del funcionamiento de miles de millones de neuronas y cómo esto conduce al aprendizaje y la comprensión está lejos de ser completamente entendida. El Principio de Energía Libre (PEL) [1] parece prometedor en este sentido. El PEL fue desarrollado por el neurocientífico Karl Friston y propone que todos los sistemas biológicos minimicen una cantidad llamada energía libre para reducir la incertidumbre sobre su entorno. Según el PEL, los organismos actúan de manera que sus entradas sensoriales sean predecibles, actualizando sus modelos internos del mundo y tomando acciones que hacen que el mundo se alinee con sus expectativas. Aquí, quiero mantener una visión de nivel superior, inspirada por el PEL, pero menos centrada en los procesos neuronales, e intentar extraer algunos principios generales que gobiernan la forma en que los cerebros usan la información que llega del mundo externo a través de los sentidos para hacer inferencias y crear un modelo interno del mundo. Es probable que se trate de un proceso recursivo, en el que el cerebro actualiza constantemente su conocimiento e inferencia a medida que se procesa nueva información.
Mi intento fusiona aspectos de dos enfoques diferentes. Uno es el FEP mencionado anteriormente y el otro es conocido como el principio de Información Física Extrema (EPI) [2], introducido por el físico Roy Frieden. Estos dos enfoques tratan cuestiones aparentemente diferentes: el primero con cerebros y sistemas biológicos, el segundo con leyes físicas formales. Creo que existe una conexión interesante entre estos dos, que aún no se ha explorado en detalle.
Revisaré brevemente ambos enfoques y luego mostraré la conexión.
Principio de energía libre
Para cualquier cerebro, no necesariamente el humano, es vital hacer predicciones precisas sobre el mundo exterior y sobre lo que sucederá a continuación . Hacer una predicción correcta o incorrecta podría marcar la diferencia entre la supervivencia y la muerte de un organismo biológico.
El concepto fundamental del Principio de la Energía Libre es que el cerebro intenta minimizar la diferencia entre su modelo interno de la realidad y el modelo que le impone la información sensorial . El objetivo es minimizar la sorpresa , que, en este contexto, correspondería a haber hecho una predicción errónea.
Si queremos traducir este proceso a un lenguaje formal, necesitamos entrar en el campo de la estadística y la teoría de la información. Hacer predicciones significa estimar el evento más probable después de todo. Siguiendo a Friston, llamaré θ a cualquier parámetro que describa el mundo externo e y a las variables de entrada sensorial. Las causas ambientales ocultas θ generan observaciones sensoriales y , pero como el cerebro no puede acceder directamente a θ , mantiene una creencia interna sobre estas causas, representada por los estados cerebrales μ . Estos estados son la forma en que las neuronas codifican la creencia sobre la realidad física basada en la entrada sensorial. Al minimizar la energía libre, el cerebro produce su PDF posterior interna (función de densidad de probabilidad) de las causas ambientales, q ( θ).
El cerebro decide entonces qué acción realizar en función del modelo interno del mundo. Esta acción da lugar a una nueva percepción sensorial y el proceso continúa de forma recursiva.

Está claro que el cerebro debe tener un modelo interno de cómo las variables del mundo influyen en la información sensorial. Este modelo podría representarse mediante una probabilidad condicional p ( y|θ) . Si suponemos que el cerebro tiene algún conocimiento previo del mundo, p ( θ), podemos entonces crear una probabilidad conjunta de la variable del mundo y la información sensorial:

Este proceso continuaría recursivamente hasta que, con suerte, exista un acuerdo entre p ( y, θ ) y q . Para formalizar este proceso, necesitamos una forma cuantitativa de comparar p ( y, θ ) y q . La divergencia de Kullback-Leibler (KL) es una excelente opción:

Esta divergencia es siempre no negativa, siendo nula solo cuando p ( y, θ ) = q ( θ ). Este es el núcleo del principio: los cerebros intentan minimizar la divergencia KL entre su modelo interno del mundo y la probabilidad conjunta de las variables del mundo y la entrada sensorial p ( y, θ ). Esta relación se llama principio de energía libre porque, al dividir la probabilidad conjunta en la condicional y la previa, la divergencia KL negativa anterior asume una forma similar a la energía libre en termodinámica:

El objetivo del cerebro es minimizar esta energía libre. El segundo término del lado derecho de la ecuación es una divergencia entre q y el anterior p ( θ ). Por el contrario, el primer término es la expectativa del logaritmo de la probabilidad condicional de la entrada sensorial bajo el modelo interno del mundo q ( θ ). Como dijimos, la KL siempre es positiva, por lo que minimizar el término KL significa tener q=p . Esto tiene sentido: idealmente, después de suficientes iteraciones, el anterior debería alinearse con el modelo interno del mundo del cerebro.
El otro término:

es más difícil de interpretar. Minimizar este término depende de la forma funcional exacta p ( y|θ) , y Friston analiza algunas formas funcionales entrando en los detalles de la actividad neuronal, lo cual está más allá del alcance de esta publicación. La conclusión es que este término se minimiza cuando hay coherencia entre la entrada sensorial y y el modelo del mundo q ( θ ). Para entender mejor por qué, consulte las notas al final de la publicación [Nota-1].
Principio de información física extrema
El principio de información física extrema (EPI) es un concepto de B. Roy Frieden. Este principio no aborda explícitamente los cerebros o los sistemas biológicos, ya que se centra en la construcción de un marco general para derivar leyes físicas. Sin embargo, es fácil detectar algunas similitudes en los detalles. La cantidad central del principio EPI es la información de Fisher 𝕀, que nos dice cuánta información contiene una variable aleatoria observable sobre un parámetro desconocido. El parámetro representa algún aspecto de la ley física que estamos tratando de determinar. Podría ser, por ejemplo, la energía promedio de un sistema.
La otra cantidad fundamental de este principio es la información intrínseca del sistema físico, θ. La idea detrás del principio EPI es que θ representa la información obtenida por el observador a través de un proceso de observación ruidoso, mientras que θ es la información total disponible en el sistema físico. Frieden demuestra que las leyes físicas se pueden derivar extremando la diferencia entre estos términos:

𝕀 tiene una forma estándar fija, la información de Fisher. Para una densidad de probabilidad unidimensional p , sería:

donde el punto representa la derivada con respecto al parámetro de la distribución. De ello se deduce que la cantidad clave es 𝕁 , que tendrá una forma funcional diferente dependiendo del sistema físico, y representa las restricciones físicas que debemos tener en cuenta al derivar p ( x ). Frieden muestra que se pueden derivar varias leyes físicas con este marco, con la elección adecuada de 𝕁 (ver [2]) .

Es fácil ver la similitud con la minimización de la energía libre. No se trata de una simple similitud cualitativa relacionada con la extremeización de algunas cantidades. La conexión está precisamente en la divergencia de Kullback-Leibler, que aparece directamente en la relación de Energía Libre utilizada por Friston. La divergencia de KL también está directamente relacionada con la información de Fisher, que es el punto de partida fundamental para el principio EPI, a través de una simple expansión de Taylor de segundo orden.
Esta observación indica una conexión entre el esfuerzo del cerebro para interpretar el mundo y las leyes de la física formal.
Conectando los principios FEP y EPI
En las siguientes secciones, relacionaré la FEP y la EPI y mostraré cómo un cerebro podría inferir el comportamiento esperado de las leyes físicas sin hacer referencia a los principios de la física formal. A continuación, se presentan los supuestos y las preguntas clave que se deben considerar para este escenario:
- Un cerebro está cerca de minimizar la energía libre F.
- El cerebro ve una respuesta sensorial específica .
- ¿Cuál es la ley física q ( θ ) que crea el cerebro?
El punto de partida es reconocer que un término similar a la información de Fisher se puede derivar fácilmente de una expansión de segundo orden de la divergencia KL que aparece en la energía libre F introducida anteriormente.
Si estamos cerca de minimizar F , deberíamos tener p ( θ)≃q ( θ ) porque la actualización bayesiana recursiva de la p anterior debería alinear el modelo interno y la anterior con el tiempo. En este caso, podemos expandir el logaritmo:

Sustituyendo en el segundo término de la expresión de energía libre:

Podemos ver que el segundo término de Taylor, dependiente de δp , es nulo bajo integración sobre θ debido a las condiciones de contorno. Además, si nos acercamos al escenario p≃q , y considerando que δp=dp/dθ Δθ , tenemos:

donde c=Δθ²/2 y:

El segundo término en el lado derecho de la energía libre:

es un término de tipo información de Fisher (ver también [Nota-2] al final de la publicación).
Algunas cosas interesantes a tener en cuenta: minimizar F requiere minimizar una divergencia KL, lo que significa minimizar la información de Fisher de q ( θ ). Este hecho es consistente con la afirmación de Friston de que el cerebro está tratando de crear un modelo del mundo que minimice la sorpresa. El cerebro busca el q ( θ ) más conservador y menos informativo. Un q ( θ ) alto de información sería muy riesgoso: si el modelo está equivocado, la sorpresa sería alta, lo que podría significar el fin de un sistema biológico.
El término restante –∫q ( θ) ln p ( y|θ)dθ depende de la entrada sensorial y . Si consideramos la energía libre como una función de q ( θ) , F=F [ q ], podemos resolver esta relación buscando la q ( θ) que minimiza F . El ingrediente clave es la respuesta sensorial y y cómo la interpreta el cerebro en relación con las variables del mundo θ .
Hasta este punto, a excepción de la introducción de la información de Fisher, la discusión no fue muy diferente de la típica FEP. Friston adopta un enfoque de neurociencia basado en la arquitectura neuronal del cerebro y en cómo ésta podría codificar las diversas densidades de probabilidad.
Aquí, quiero adoptar un punto de vista diferente que conduce a leyes físicas sin entrar en los detalles de cómo funcionan las neuronas e interactúan entre sí. Supongamos que una configuración particular del mundo físico θ creó una respuesta sensorial específica en el cerebro y . Por ejemplo, tocar un cuerpo a una determinada temperatura produciría respuestas sensoriales específicas (caliente, frío, tibio, etc.). La forma en que una determinada y es generada por una determinada θ es un proceso altamente complejo, pero todo lo que nos importa para el resto de la discusión es que una variable particular θ se asigna a alguna otra variable y .

Este mapeo podría ser perfecto si tuviéramos sentidos poderosos. Sabemos que la temperatura es una propiedad emergente de un cuerpo debido al movimiento de muchas moléculas. Imaginemos por un momento que tuviéramos sentidos especiales, capaces de percibir el movimiento de cada una de estas moléculas. Si pudiéramos hacer eso, no existiría el concepto de temperatura. No habría sensación de calor o frío, al menos no en el sentido que le damos a la palabra. Nuestra percepción sensorial sería una molécula moviéndose a una velocidad determinada y otra molécula moviéndose a una velocidad diferente, y así sucesivamente. Con estos sentidos poderosos, si θ fuera la configuración del mundo con moléculas moviéndose a una velocidad determinada, entonces la respuesta sensorial sería un mapeo perfecto de esta configuración. Desafortunadamente, nuestros sentidos son imperfectos y también tenemos todas las fuentes de ruido. El mapeo será probabilístico, algo así como la figura siguiente, donde diferentes configuraciones del mundo corresponden a una respuesta sensorial específica con diferentes probabilidades:

Leyes físicas: distribución de Boltzmann-Gibbs en el cerebro
Volviendo a la pregunta del punto 3 de la sección anterior, si tenemos una respuesta sensorial específica y y una relación funcional particular p ( y|θ ), ¿cuál es la q ( θ ) que minimiza la energía libre?
Los casos extremos siempre son instructivos. Para simplificar, podemos trabajar en una dimensión; es decir, suponemos que θ representa una entidad cuantificable del mundo físico específico que siempre es positiva, θ>0 . Supongamos también que el cerebro es tal que su modelo interno que relaciona θ con la percepción sensorial y proporciona una p ( y|θ ) constante para cada θ . Este modelo del mundo sensorial significa que tenemos una respuesta y , y la p ( y|θ ) condicional no depende de θ . Existe la misma probabilidad de que diferentes valores de θ produzcan la misma percepción sensorial:

donde k es una constante que garantiza la normalización. Esta no es una situación ideal ni un cerebro potente, al menos no para investigar esta variable mundial específica. ¿Qué podemos decir sobre q en este caso menos que ideal?
Reescribiendo la energía libre ahora tenemos:

donde q es una función de θ , y es la función que queremos determinar. Todas las derivadas son con respecto a θ . Podemos introducir un cambio conveniente de función en este punto, siguiendo una técnica similar a la adoptada por Frieden. Podemos definir a² ( θ ) = q ( θ ) (ver [Nota-3]) y reescribir la relación anterior como:

Para encontrar la a ( θ) que minimiza este funcional, todo lo que tenemos que hacer es resolver las ecuaciones de Euler-Lagrange:

Sin embargo, existe una restricción. No queremos ningún q ( θ ) porque necesitamos encontrar una función de densidad de probabilidad válida. Tenemos que introducir una restricción con un multiplicador lagrangiano μ para asegurarnos de que q esté correctamente normalizado. Nuestro lagrangiano completo será:

Después de reorganizar las constantes, la ecuación de Euler-Lagrange conduce a:

donde por conveniencia he fijado λ= ( μ–k)/4c . Esta ecuación tiene soluciones de la forma a ( θ)=A exp( –bθ) , con A y b constantes por determinar. Sustituyendo en la ecuación diferencial, encontramos b=√(λ/ 4). A partir de la condición de normalización, teniendo en cuenta que θ>0 , y que necesitamos normalizar q ( θ ) =a ²( θ ) =A ²exp( – √ λ θ ), es fácil demostrar que A ² =√λ , de modo que podemos escribir la solución como:

El paso final es encontrar A . Como el cerebro construye recursivamente una estimación de q ( θ) , es razonable suponer que también tendría una estimación de algún valor promedio ⟨ θ ⟩. Usando esta información encontramos A ²=1/⟨ θ ⟩, de modo que finalmente tenemos:

Esta es una distribución muy conocida en física: la distribución de Boltzmann o de Gibbs. En física, esta distribución describe la probabilidad de encontrar un sistema en un determinado estado de energía. Sin embargo, en la discusión anterior, podemos observar dos cosas:
- Para derivar esta distribución no hemos recurrido a la física y he tenido cuidado de no dar ningún significado físico específico a θ . En física, esta misma distribución se derivaría introduciendo el concepto de equilibrio térmico y entropía termodinámica. La distribución de Boltzmann-Gibbs surgiría para un sistema en equilibrio si todo lo que conocemos es el promedio de una variable θ , suponiendo un conjunto canónico. Aun así, desde el punto de vista de un cerebro que observa la realidad, no hay necesidad de introducir ninguna física. La distribución de Boltzmann-Gibbs surge de forma natural si el cerebro no tiene información sobre la probabilidad de la respuesta sensorial para una configuración del mundo dada (es decir, p ( y|θ ) es independiente de θ ).
- Es bien sabido que la distribución de Gibbs-Boltzmann representa la distribución que maximiza la entropía de la información. Proporciona la menor cantidad de información si todo lo que conocemos es la media de la variable (véase, por ejemplo, [3–4]). No es sorprendente que esta distribución poco informativa surja cuando p ( y|θ ) es constante, porque un sistema de este tipo no tendría información alguna sobre qué θ está causando la respuesta sensorial. Como dijimos anteriormente, el cerebro necesita minimizar la sorpresa. Los cerebros podrían haber evolucionado para hacer la suposición más conservadora, y por lo tanto menos informativa, sobre la probabilidad de la configuración del mundo precisamente porque es la suposición que implica menos riesgo y menos sorpresa.
Esta derivación representa perfectamente la cita de Jaynes al comienzo de este artículo cuando habla de la necesidad de distinguir entre la información y la entropía termodinámica. La entropía de la información es un efecto dependiente observado que surge mientras el observador desconoce la entropía termodinámica y la física.
Generalizando
Siguiendo el PEF, si queremos escribir una p general ( y|θ ), debemos introducir las variables de estado cerebral μ . Estas variables representan la codificación neuronal de las creencias sobre la realidad externa. El mundo físico produce entradas sensoriales ( y ), pero el cerebro no accede directamente a las causas de estas entradas ( θ ). En cambio, construye un modelo interno de estas causas utilizando la actividad neuronal (el estado cerebral μ ). La relación entre y y μ viene dada por lo que se llama el modelo generativo:

donde g es una función compleja y jerárquica del estado neuronal del cerebro, parametrizada por la variable mundial θ , y n es un término de ruido. Friston a menudo se refiere a la aproximación de Laplace y supone una forma normal para p ( y|θ ).
Esta suposición hace que el problema sea computacionalmente más manejable, aunque puede tener limitaciones para sistemas muy complejos. Si quisiéramos mantener un enfoque más general, desviándonos del FEP, podríamos suponer que una forma posible para p ( y|θ ) sería:

con f una función genérica. Independientemente de la forma precisa de p ( y | θ ), en el límite g ( y ) ≃θ , siempre podemos escribir el logaritmo que aparece en la energía libre como:

Hay dos cosas que destacar:
- el primer término ln( K f ( 0 )) es una constante. Este término siempre está ahí. Si la función f ( y–g ( μ;θ)) fuera constante en θ para un valor fijo de y , todas las derivadas en la expresión anterior serían nulas y encontraríamos la distribución de Boltzmann-Gibbs como hemos visto.
- Si las derivadas no son nulas, entonces tenemos términos adicionales en la energía libre, que dependen de la integral de q ( θ )( y–g ( μ;θ )) ⁿ . Estos términos son esencialmente los momentos de la distribución. Minimizar la energía libre significa minimizar la información de Fisher teniendo en cuenta los momentos observados del modelo mundial actual (su promedio, varianza, etc.).
El cerebro comienza con una suposición de q ( θ ) y opera recursivamente utilizando la respuesta sensorial que recibe. El objetivo es minimizar el contenido de información de q ( θ ) para reducir la sorpresa mientras se considera la discrepancia entre los sentidos y la variable del mundo ( y–g(μ;θ )).
La cantidad p ( y|θ ) juega un papel similar al de la función 𝕁 en el principio EPI. Allí, 𝕁 es el contenido de información del sistema físico que estudiamos. Si quisiéramos derivar leyes físicas formales, como en el principio EPI, tendríamos que especificar una 𝕁 apropiada, que sería una función de q y θ . En el FEP, sin embargo, todo lo que el cerebro conoce es la respuesta sensorial y su modelo interno que la relaciona con el mundo, p ( y|θ ). El FEP, en este sentido, puede considerarse un principio dual con el EPI, siendo el punto de contacto la información de Fisher. Ambos principios tienen como objetivo minimizar la información. El FEP conduce a modelos cerebrales del mundo. El EPI a leyes físicas formales.

Cuando aplicamos las ecuaciones de Euler-Lagrange a la relación de energía libre con la sustitución de amplitud q=a ² y con la aplicación de un multiplicador lagrangiano de normalización μ , tenemos la siguiente ecuación:

Si estamos cerca del equilibrio, entonces podemos utilizar esta ecuación como ecuación cerebro-Euler-Lagrangiana que permite al cerebro calcular a y, por lo tanto, las leyes físicas q, si conocemos la forma funcional de p ( y|θ ). Recuperamos la distribución de Boltzmann-Gibbs si fijamos p ( y|θ ) = constante como hicimos anteriormente.
¿Qué sucede para un valor p ( y|θ ) diferente? En la siguiente sección podemos considerar un caso ilustrativo simplificado.
Más física: mecánica clásica
En el caso de un modelo generativo complejo, la p asociada ( y|θ ) dará lugar a una ecuación diferencial que, en la mayoría de los casos, no tiene solución analítica. Existen casos en los que sí la tiene; el caso de Boltzmann-Gibbs es un ejemplo sencillo.
Si introducimos algunas simplificaciones significativas, podemos encontrar otras soluciones analíticas. Consideremos este sistema de procesamiento visual ideal, aunque poco realista:
- La visión detecta la posición de un objeto y la respuesta sensorial y refleja directamente la posición θ . El modelo generativo introduce un ruido gaussiano σ².
- No existe dinámica ni relaciones jerárquicas entre las entradas sensoriales y las causas ocultas, ya que toda la información está en la entrada sensorial.
Si la entrada sensorial y captura por completo toda la información relevante sobre el mundo externo ( θ ), entonces el estado cerebral μ sería redundante para la inferencia. Esta situación pasaría por alto la variable de estados cerebrales y proporcionaría una relación directa entre θ e y. Es justo enfatizar que esta suposición es poco realista y solo un caso límite especial de FEP, donde, en cambio, los modelos generativos jerárquicos y los estados cerebrales juegan un papel fundamental. Sin embargo, ayuda a evitar toda la complejidad de modelar los estados internos jerárquicos del cerebro, y podemos explorar a dónde nos llevaría solo con fines ilustrativos.
En este escenario, y y θ son cantidades escalares relacionadas linealmente. Omitiré los posibles factores de proporcionalidad para simplificar. Supongamos que la p condicional tiene forma gaussiana:

Este caso correspondería a un modelo interno del cerebro donde la respuesta sensorial alcanza su pico alrededor de y≃θ , con cierta dispersión σ debido a cualquier forma relevante de ruido. Si sustituimos en la ecuación de Euler-Lagrange del cerebro, obtenemos:

con μ₁=μ/ 4 c . Buscando soluciones del tipo a≃ exp[ f ( θ )], podemos ver que debemos tener lo siguiente:

También debemos tener una q ( θ ) = a ²( θ ) normalizada, por lo que debemos seleccionar la solución con el signo negativo de ahora en adelante, para evitar divergencias. Integrando, encontramos:

Por lo tanto, la q ( θ ) que buscamos también será una normal:

Recordemos que c tiene las dimensiones de θ² , por lo que se conserva la noción adimensional de la fracción. Es tranquilizador que una ley común como la de una distribución normal se pueda derivar analíticamente a partir del supuesto de otra distribución normal para p .
¿Qué podría representar este caso desde el punto de vista de un cerebro? Podría haber muchos ejemplos. Un supertenista, equipado con el sistema visual simplificado anterior, quiere predecir la siguiente posición de la pelota θ.
Es poco probable que todos los jugadores de tenis estén familiarizados con la física y realicen un cálculo rápido en sus cabezas sobre la velocidad y la trayectoria de la pelota. En cambio, lo que este resultado nos dice es que sus cerebros adivinan la posición futura de la pelota basándose en una observación de la trayectoria inmediatamente anterior y la velocidad estimada. Supongamos que el cerebro de un jugador de tenis estuviera observando la pelota y quisiera construir un modelo para la probabilidad de observar la pelota en una posición específica θ . Podríamos imaginar que el cerebro tomara muestras de las posiciones de la pelota en ciertos intervalos de tiempo.
Después de haber observado una respuesta sensorial específica en varios momentos ( y ( t ₀) ,…, y ( t ᵢ)), el cerebro construye iterativamente un modelo para y ( t ) y p ( y|θ ), que podríamos asumir que tiene precisamente la forma gaussiana que escribimos antes, pero esta vez con la adición de un parámetro de tiempo:

Como hemos visto, la probabilidad resultante de observar la pelota de tenis en una posición específica θ sería:


La trayectoria esperada viene dada por la forma en que la respuesta sensorial cambió a lo largo del tiempo:

El cerebro también podría intentar estimar las velocidades y aceleraciones esperadas y, a partir de ellas, adivinar la posición futura de la pelota en un momento futuro:

Cada uno de ellos tendría una incertidumbre asociada.
Hay tres puntos para resumir este modelo simple:
- La trayectoria de la pelota y su velocidad y aceleración estimadas por el cerebro dependerían de la explicación que éste dé de cómo evolucionó la respuesta sensorial en el tiempo durante la observación, y ( t ) .
- La estimación del cerebro sobre la posición de la partícula en un momento dado sería una PDF normal con una cierta dispersión.
- Una situación ideal libre de ruido, ( σ→0 ), reduce q ( θ ) a un delta de Dirac, es decir, δ ( y ( t ) –θ ). El cerebro no tendría ninguna incertidumbre sobre la trayectoria y la posición de la pelota en un momento dado.
Con y( t ) y sus derivadas temporales, el cerebro ha construido esencialmente un modelo interno de mecánica clásica.
Conclusiones y límites
En este artículo se muestra cómo el cerebro puede producir modelos físicos del mundo mediante el procesamiento de respuestas sensoriales. En el marco del FEP, estos modelos internos pueden parecerse a leyes físicas formales, en algunos casos bastante, como en el ejemplo de Boltzmann-Gibbs.
No se entiende del todo cómo el cerebro codifica estas leyes. Una limitación de la discusión anterior es que considera casos bastante simples, mientras que la realidad física puede ser muy compleja e involucrar muchas variables, lo que también daría como resultado una respuesta sensorial muy compleja.
El análisis anterior combina elementos de los principios FEP y EPI. Ambos enfoques tienen límites, y es justo mencionar los más relevantes. Ambos principios han recibido críticas por ser prácticamente difíciles de usar. El FEP ha sido criticado por no ser un modelo comprobable. El principio EPI requiere la elección correcta de 𝕁, que parece ser algo ad hoc y útil solo para derivar leyes físicas retroactivamente, pero no para derivar leyes físicas desconocidas.
Todas estas afirmaciones son ciertas; sin embargo, no parecen disminuir el valor de la hipótesis FEP de que los cerebros buscan formas de minimizar la sorpresa o la idea EPI de que las leyes físicas se pueden derivar a través de un enfoque variacional basado puramente en la información. Ambas parecen más un cambio filosófico que estrictamente científico, pero la historia de la ciencia nos enseña que los cambios filosóficos pueden ser el síntoma de una realidad física más fundamental que podría no reconocerse durante mucho tiempo. Por ejemplo, se necesitaron un par de siglos para encontrar una explicación física fundamental para el cambio heliocéntrico de Copérnico. El modelo geocéntrico ptolemaico era excepcionalmente funcional y, en algunos casos, sorprendentemente más preciso [5]. Un hecho que habría sido una razón científica válida para rechazar el modelo de Copérnico en ese entonces.
La cita de Jayne al comienzo de este artículo resume perfectamente todo este debate. Las distribuciones de probabilidad y sus incertidumbres y entropías asociadas dependen del observador. El principio FEP muestra cómo podrían surgir de los sistemas de procesamiento de información y su intento de minimizar la sorpresa. Este modelo probabilístico del mundo es lo que los humanos observamos como una ley física . Esta ley proviene de nuestro procesamiento interno de la información recopilada de una manera determinada en lugar de otra. Un cerebro completamente diferente podría producir una ley completamente diferente para la misma realidad física.
En este sentido, estoy de acuerdo con la cita de Jaynes cuando dice que debemos tener cuidado de no confundir el contenido de información de una distribución de probabilidad, en este caso, nuestra ley física probabilística generada por el cerebro, con el estado físico de un sistema. A Jaynes le preocupaba no confundir la información y la entropía termodinámica. Aun así, podríamos extender la cita a otros escenarios físicos, aunque muchos científicos no están de acuerdo con una separación tan clara entre las dos formas de entropía. Después de todo, la concepción original de la entropía de Boltzmann ya era probabilística, lo que hacía que la conexión con la teoría de la información fuera más natural de lo que sugería Jaynes. Este es un debate en curso y fascinante, que va más allá del alcance de este artículo.
Una pregunta muy interesante se refiere al límite de un cerebro que funciona según estos principios. Como hemos visto, toda la capacidad del cerebro para reconstruir una poderosa ley física depende de su capacidad para relacionar la percepción sensorial con algún parámetro físico. No hay garantía de que este proceso sea eficiente en todos los casos. Sabemos que no lo es. Los físicos optimistas argumentarán que donde los sentidos fallan, tenemos un nivel más alto de abstracción, nuestras matemáticas, que nos permiten hacer inferencias sobre lo que está más allá de nuestros sentidos. Ese ha sido el caso del mundo microscópico de los átomos y las moléculas, por ejemplo, o del mundo macroscópico del Universo. Hay dos objeciones a este optimismo: una es que el poder de abstracción de nuestras matemáticas depende del poder de nuestro cerebro, por lo que también podría haber un límite. La segunda es que, para crear tales inferencias abstractas, necesitamos construir instrumentos para sondear el entorno físico más allá de nuestros sentidos. Pero construir un instrumento significa modificar algún aspecto del mundo que nos rodea, lo que nos lleva de nuevo a crear un modelo interno preciso del mundo físico. Cuando este modelo interno falla debido a sus límites, ya no podemos construir los instrumentos científicos para investigar la realidad física.
Es peor de lo que parece: no se trataría de una simple falta de habilidades para construir estas herramientas. Ni siquiera seríamos capaces de imaginar qué tipos de instrumentos necesitaríamos y qué tipos de instrumentos podríamos fabricar. Para nuestro cerebro, ese sería el límite cognitivo final. No sabemos a qué distancia estamos de ese límite, pero ese sería el fin de cualquier posibilidad de conocimiento, igual que el cerebro de los gatos ni siquiera se pregunta por el funcionamiento de los comederos.
Notas técnicas
[Nota-1]
Para una p ( y|θ) normalizada , el término –∫ q ( θ) ln p ( y|θ)dθ también es siempre positivo, por lo que también querríamos que fuera lo más cercano posible a 0. Podemos considerar algunos escenarios. Supongamos que tenemos una determinada entrada sensorial y y que:
- para un θ₀ dado , encontramos q ( θ₀)→ 1 y también p ( y|θ₀)→ 1. En este caso, el integrando es 0, lo que tiene sentido. La representación interna del mundo dice que θ₀ es muy probable, y el modelo sensorial interno dice que la entrada sensorial que recibe el cerebro es muy probable para un estado del mundo representado por θ₀ . Hay una alta consistencia entre la representación del mundo y la entrada sensorial. Nótese también que este caso implica que para cualquier otro θ≠θ₀ tendríamos q ( θ ) → 0 y también p ( y|θ ) → 0. Estos términos también proporcionarían una contribución de ∼0 a la integral, bajo el supuesto razonable de que, para todos estos valores de θ , q tiende a cero más rápido que el logaritmo de p ( y|θ ) divergiendo a infinito negativo.
- Supongamos, en cambio, que encontramos q ( θ₀ ) → 0 y p ( y|θ₀ ) → 1: este caso es menos obvio porque parecería proporcionar una contribución cero a la integral, ayudando a minimizar la energía libre, mientras que la entrada sensorial entra en conflicto con la representación del mundo. Sin embargo, tenga en cuenta que este caso también implica que para algún otro valor de θ , tenemos p ( y|θ ) → 0 y q ( θ ) >0, de modo que hay una contribución distinta de cero a la integral que termina penalizando este escenario, especialmente si q ( θ ) alcanza un pico pronunciado alrededor de algún otro valor de θ .
- Supongamos que q ( θ₀ ) → 1 y p ( y|θ₀ ) → 0. El término en la integral diverge. El modelo del mundo interno otorga una alta probabilidad a θ₀ , pero el modelo sensorial dice que, para ese θ₀ dado , no esperaríamos observar la respuesta sensorial que estamos viendo. Por lo tanto, este caso se ve penalizado con una gran contribución a la energía libre.
[Nota-2]
Técnicamente, la información de Fisher contiene una derivada no con respecto a la variable PDF, sino con respecto al parámetro de la PDF. Para ver por qué este término puede considerarse un término de Fisher, podríamos imaginar que la PDF q ( θ ) pertenece a una cierta familia de PDF parametrizadas por un parámetro λ . Este parámetro podría ser la media de una PDF normal, por ejemplo. Cada medición del mundo, θ , proporcionaría alguna fluctuación con respecto al valor real del parámetro. Para visualizar esto, podríamos pensar en λ como la temperatura media de un cuerpo, y θ como la medición de esa temperatura con la adición del ruido inevitable xₙ=θ–λ . Una distribución normal dependería de ( θ — λ ), es decir, de la fluctuación xₙ . Para una medición dada θ , la derivada con respecto a λ sería equivalente a una derivada con respecto a xₙ , con signo opuesto:

La información de Fisher quedaría entonces así:

Esta ecuación tiene la misma forma que la que se escribió anteriormente, con la derivada con respecto a la nueva variable xₙ , que también es la variable de integración. Nótese que esto funciona para una familia de distribuciones normal y cualquier familia de distribuciones invariante al desplazamiento, que depende únicamente de la diferencia ( θ–λ ). Esta transformación es el enfoque seguido por Frieden para el principio EPI.
[Nota-3]
A la función a se la denomina a veces amplitud en analogía con la mecánica cuántica. Además de la fórmula más sencilla, la introducción de estas amplitudes está motivada por la geometría estadística como un cambio conveniente de coordenadas en el espacio de probabilidades. La explicación está fuera del alcance de esta publicación, pero los lectores interesados pueden consultar el Capítulo 2 de [7].
Referencias
[1] Un principio de energía libre para el cerebro , Karl Friston, James Kilner, Lee Harrison
[3] Teoría de la probabilidad, La lógica de la ciencia , ET Jaynes
[4] Probabilidad e información: un enfoque integrado , David Applebaum
[5] Estimación de leyes de distribución y leyes físicas mediante un principio de información física extremizada , B. Roy Frieden
[6] Ptolomeo contra Copérnico , Frank Tipler, Wesley Bollinger
[7] Geometría de estados cuánticos, una introducción al entrelazamiento cuántico , Ingemar Bengtsson, Karol Zyczkowski
Citación
Todo está en tu cabeza: leyes físicas y el principio de la energía libre
Francesco De Bernardis
The Quantastic Journal
Número febrero 2025
ISSN 3035–8000