Los LLM hacen obsoleto el famoso experimento mental de Searle

Paul Siemers. 25 de julio de 2025. MEDIUM.
La Habitación China de John Searle ha protagonizado debates sobre inteligencia artificial durante más de cuarenta años. Un experimento mental simple y vívido, pareció trascender la jerga técnica y asestar un golpe devastador a la idea de que las computadoras pudieran realmente «entender» algo.
Sin embargo, la aparición de grandes modelos de lenguaje, como GPT-4, no sólo ha cambiado el panorama de la IA, sino que también ha sacado la Habitación China del ámbito de la especulación filosófica al de la realidad comprobable.
Lo que una vez fue una intuición filosófica convincente ha desaparecido. Al entrar en la sala, por así decirlo, nos damos cuenta de que el argumento de Searle ya no evoca la intuición para la que fue concebido.
La habitación china
El escenario de Searle es bastante simple. Imaginemos a una persona encerrada en una habitación, recibiendo preguntas escritas en chino. No habla chino, pero tiene un manual de instrucciones enorme que le permite relacionar los símbolos de entrada con los símbolos de salida apropiados, simplemente por la forma. Desde fuera, parece que entiende chino. Pero en su interior, solo sigue reglas; no comprende, no entiende.
El punto de Searle es que esto es todo lo que hace una computadora digital. Manipula símbolos, pero no los comprende. El experimento mental pretendía demostrar, de forma concluyente e intuitiva, que, por muy sofisticado que fuera el programa, la comprensión genuina no podía surgir únicamente de la sintaxis.
Durante mucho tiempo, a mucha gente le pareció convincente. La imagen era tan accesible, el simbolismo tan nítido, la conclusión tan intuitiva.
Experimentos mentales y bombas de intuición
El filósofo Daniel Dennett utiliza un término para argumentos como el de Searle: bombas de intuición. Se trata de experimentos mentales diseñados no tanto para comprobar una conclusión, sino para hacerla parecer obvia. Una buena bomba de intuición lo hace con claridad, ayudándonos a comprender problemas complejos mediante casos simplificados. Una mala, en cambio, introduce sus propias suposiciones y espera que no las examinemos con demasiado detenimiento.
La Habitación China de Searle es, en este sentido, un ejemplo clásico de una bomba de intuición. Su objetivo no es poner a prueba nuestras intuiciones, sino generarlas.
Los experimentos mentales pueden anticipar realidades que posteriormente se materializan. Galileo, por ejemplo, imaginó la caída de dos objetos de diferentes masas y concluyó, en contra de Aristóteles, que caerían a la misma velocidad. Esta conclusión, a la que llegó sin la ayuda de aparatos, puso en entredicho casi dos mil años de sabiduría heredada. Puede que la haya comprobado desde la Torre Inclinada de Pisa. La prueba definitiva llegó en 1971, cuando el astronauta del Apolo 15, David Scott, dejó caer un martillo y una pluma sobre la superficie lunar. Sin la intervención del aire, cayeron juntos. Un experimento mental renacentista se había convertido en una demostración lunar.
Los LLM han hecho que la Sala China sea susceptible a pruebas en el mundo real. Pero al situar el escenario de Searle en la era de ChatGPT, descubrimos que pierde su poder de persuasión.
La sala ChatGPT: Versión 1
Actualicemos la Sala China. La configuración es la misma: una persona que no habla chino, dentro de una cámara sellada. Solo que ahora, en lugar de un manual de instrucciones, tiene acceso a GPT-4.
Se recibe una pregunta. La persona la escribe en ChatGPT. Aparece una respuesta en chino fluido. La persona la copia y la vuelve a insertar en la ranura.
Desde fuera, todo parece igual. La sala se comporta como si entendiera chino. Pero dentro, el humano no hace casi nada. ChatGPT hace todo el trabajo.
Entonces, ¿se está produciendo comprensión?
Claramente, la persona no entiende chino. Cualquier comprensión debe tener lugar dentro de ChatGPT. Así que ahora nos enfrentamos a la pregunta de si la IA «realmente» entiende algo. Pero esta era precisamente la pregunta que el experimento mental pretendía responder. La bomba de intuición ha fallado. Estamos tan perplejos como antes.
La sala ChatGPT: versión 2
Consideremos ahora una segunda versión. Esta sigue el escenario de Searle con mayor fidelidad, pero añade algunos detalles de implementación.
Supongamos que una persona está encerrada en una habitación. Se le proporciona un bolígrafo, una enorme pila de papel y una copia impresa completa de las reglas exactas que utiliza GPT-4 para responder preguntas en chino. Las reglas son instrucciones de manipulación de símbolos derivadas de una vasta matriz de pesos y probabilidades, organizadas en capas de transformadores y mapas de atención. La persona comienza a seguir estas reglas, línea por línea, para generar una respuesta.
No hay ninguna IA en la sala, solo un humano usando lápiz y papel.
Finalmente, después de lo que podrían ser miles de años de cálculo, la persona completa una respuesta perfectamente fluida en chino y la desliza por la ranura.
Ahora preguntemos nuevamente: ¿se ha producido la comprensión?
Aquí, nuestras intuiciones fallan por completo. No porque el escenario sea incierto, sino porque opera en una escala temporal tan extraña que nuestras formas habituales de razonamiento se desmoronan..
No sabemos qué significa que una conversación dure diez mil años. Carecemos de intuiciones sobre los procesos cognitivos que se desarrollan a lo largo de cientos de generaciones. La persona que inició el cálculo falleció hace mucho tiempo; la respuesta la completan descendientes que han olvidado por qué comenzaron. La respuesta es correcta, pero ¿qué tipo de mente, si es que hay alguna, está involucrada?
Searle imaginó que al ralentizar la máquina y reemplazarla por un humano, podríamos revelar la ausencia de comprensión. Pero en esta versión, ralentizarla hace que la cuestión sea inintuitiva.
En una ocasión, Dennett desafió a Searle preguntándole qué ocurriría si la persona memorizara todas las reglas e internalizara el sistema. Searle insistió en que esto no cambiaría nada. Sin embargo, a la luz del GPT-4, esa respuesta parece inverosímil. Una persona capaz de internalizar la estructura de un modelo lingüístico de un billón de fichas y simularlo mentalmente sería enormemente sobrehumana. Afirmar que tal ser no entiende chino roza el absurdo.
Lo que esta versión de la Habitación China revela no es la ausencia de comprensión, sino la ausencia de intuición relevante. Nos lleva tan lejos de la experiencia humana normal que el argumento original simplemente se desvanece.
Conclusión
La Habitación China nunca fue una prueba lógica. Fue una historia.— una narrativa vívida que busca persuadir mediante la intuición. Pero las intuiciones se nutren de la experiencia, y la experiencia real de los LLM debilita el impacto intuitivo de la Habitación China.
En particular, los LLM ponen de manifiesto una debilidad conocida del experimento de Searle: el reglamento y los documentos que permiten generar respuestas en chino. Se ha argumentado durante mucho tiempo que este sistema de libros y documentos tendría que ser muy complejo. Los LLM nos proporcionan una comprensión concreta de su complejidad.
La exposición de esta debilidad da lugar a dos nuevas conclusiones. En primer lugar, si un sistema es lo suficientemente complejo como para responder preguntas en chino, no es intuitivamente obvio que no lo entienda. Su complejidad dificulta su comprensión intuitiva. En segundo lugar, la idea de que una persona emule un sistema así, y mucho menos lo memorice, escapa a cualquier intuición útil.
Este artículo no prueba que ChatGPT entienda el lenguaje. Simplemente demuestra que El argumento de Searle ya no nos da una razón convincente. Pensar que no. Y si una bomba de intuición ya no bombea intuiciones, ¿de qué sirve?
Escrito por Paul Siemers, PhD, Publicado en AI Advances
Me apasiona revelar cómo funciona realmente la tecnología. Tengo más de 30 años de experiencia en estrategia tecnológica y un doctorado en Filosofía de la Tecnología.