
E. Samuel. La revista Quantastic. MEDIUM 2 de enero 2025
¿Pueden ser completamente falsas las conclusiones científicas que acaba de leer en un artículo de una revista?
Un reciente informe periodístico publicado en Science esta semana ha revelado que para muchos de los artículos que aparecen en algunas de las revistas médicas, la respuesta es un sí inequívoco. El informe , de Frederik Joelving de una iniciativa llamada Retraction Watch que rastrea e informa sobre la mala conducta en las publicaciones científicas, incluida la manipulación de datos, describe cómo numerosos artículos de opinión que llegaron a revistas médicas legítimas no fueron escritos por un investigador, sino por IA.
Un correo electrónico de un escritor anónimo ha revelado a los autores del informe el hecho de que tres escritores han publicado en una sola revista en ocho semanas 69 comentarios, que parecen ser confabulaciones falsas creadas por IA. Retraction Watch informa haber descubierto que de todos los envíos a una revista específica, la mitad son ahora comentarios, en lugar de un estudio empírico o un artículo de revisión. En otra revista, estos textos comprendían el 70% de los envíos. El envío de estos textos se hizo tan generalizado que una revista, Neurosurgical Review, anunció a la comunidad de investigación que suspende por completo cualquier aceptación de cartas al editor y comentarios.
Parece claro que la IA no puede escribir artículos científicos, al menos por ahora. Pero, ¿quizás podría al menos leerlos? ¿Y de esta manera ayudar a los editores del mundo a identificar escritos y pensamientos auténticos y originales?
Por supuesto, la primera pregunta que hay que hacerse es quién lee y revisa estos textos, y cómo pudieron los manuscritos generados por IA pasar la prueba de los editores en primer lugar. La respuesta no es que la IA se haya vuelto tan buena que ahora engañe a un científico experimentado. Los textos artificiales podrían identificarse, como lo atestigua el correo electrónico que los informó. Como escritor científico, puedo agregar que los lectores experimentados de textos científicos notan rápidamente las partes de IA que fueron copiadas de la IA. Más bien, dado que los comentarios no son revisados por pares, la evidencia del nuevo informe revela una realidad en la que algunos editores aparentemente no leen en su totalidad algunos de los textos que publican (y en la que no muchos científicos, si es que hay alguno, se molestan en leer los comentarios). Antes de incriminar a los editores, deberíamos considerar la cantidad de comentarios con los que se ven inundados. Algunos pueden decidir leer hasta llegar a una pieza interesante e ignorar el resto (un enfoque aceptable), mientras que otros pueden sentirse obligados a al menos desplazarse por todos los envíos por respeto a los escritores y sus esfuerzos, y probablemente sean estos los que corren mayor riesgo de caer en la trampa de la IA.
Bueno, parece claro ahora que la IA no puede escribir artículos científicos, al menos por ahora. Pero, ¿quizás podría al menos leerlos? ¿Y de esta manera ayudar a los editores del mundo a identificar escritos y pensamientos auténticos y originales? Noticias publicadas en Nature en la misma semana en que apareció el informe Science and Retraction Watch revelan aspiraciones que definitivamente pueden llevar a tales intentos. Como se informó en Nature , una empresa suiza llamada DeSci labs (el nombre que fusiona las palabras descentralizado y ciencia) ha creado un sistema para asignar una puntuación de novedad a los manuscritos enviados a revistas, que ofrece a los editores. Según los desarrolladores citados en Nature, «esta puntuación podría ayudar a los editores de revistas a decidir qué estudios publicar», «utilizando un algoritmo que compara las combinaciones de palabras clave y revistas citadas en un manuscrito científico». El citado algoritmo, revela Nature, apareció por primera vez en un artículo archivado en arXiv en septiembre de 2023, y desde entonces se han calificado 50 millones de manuscritos. Sin embargo, no es del todo obvio que los editores puedan de hecho aplicar el nuevo método para identificar novedad y originalidad y así descalificar el texto escrito con IA, ni que el problema pueda ser abordado mediante soluciones tecnológicas.
Para la ciencia, el problema puede ser más profundo que una barrera técnica que con el tiempo se podría resolver con suficiente informática.
Una demostración dramática de las limitaciones de la IA y los algoritmos a la hora de interpretar textos científicos se registró en 2023, cuando un fracaso colosal de uno de los intentos más elaborados y costosos hasta la fecha para permitir que la IA lea y analice textos naturales, en concreto textos científicos, y califique su innovación, tomó a Europa por sorpresa. En abril de 2021, el mayor financiador de investigación y desarrollo de Europa, el programa Horizonte Europa de la UE, ha trasladado a la IA todo el proceso de revisión de su popular subvención para nuevas tecnologías, llamada Accelerator. Las declaraciones de la UE sobre las capacidades astronómicas de la IA que permitirían sopesar una idea frente al tamaño titánico del conocimiento existente, para cuantificar la innovación de cualquier idea propuesta, eran vertiginosas. Cualquier investigación propuesta debía perfilarse “frente a 180 millones de publicaciones científicas” y “120 millones de documentos de patentes”, se le dijo a la comunidad científica y tecnológica en los sitios web de la UE. Pero las cosas no iban tan bien. Después de solo dos años de utilizar el sistema de IA para calificar las propuestas de investigación por su innovación, el 2 de junio de 2023, con una semana de antelación a la fecha límite de la prestigiosa subvención, la UE anunció a los miles de científicos y desarrolladores que estaban corriendo contra el reloj para preparar su propuesta de investigación en un formato compatible con IA, que estaba desmantelando todo el sistema de IA de inmediato y volviendo a una narrativa fluida normal leída por pares humanos.
El fracaso no fue en realidad una gran sorpresa. De hecho, la disposición de una organización tan grande como la UE a ignorar los problemas obvios fue mucho más desconcertante para algunos de los desarrolladores y científicos que tuvieron que describir sus novedosas ideas científicas y tecnológicas al sistema de IA. Por un lado, basándose en la información que un científico proporcionaría, la IA generó una larga sinopsis de la investigación propuesta, y este texto escrito por la IA era, por decirlo suavemente, un completo disparate. Este resultado sin sentido se proporcionó a las personas que tenían que decidir a quién financiar.
Igual de revelador fue el proceso por el que tuvo que pasar el solicitante. La supuesta capacidad de leer un texto científico se basaba en exigir a los proponentes que descompusieran su narrativa fluida en oraciones, que debían pegarse en cientos de campos de texto distintos. Como si eso no fuera suficiente para levantar la sospecha de que la IA tenía dificultades, la secuencia de esos campos de texto confundiría incluso al científico y tecnólogo más experimentado. Parecían invitar a repeticiones circulares: un tema se describía hasta en sus más mínimos detalles en docenas de campos, pero luego tenía que describirse de nuevo, con alguna ligera modificación. Cualquiera con algo de experiencia en programación podría ver a través de esta confusa «escritura» y entender muy claramente por qué se produce esta ridícula circularidad. La disposición de los campos de texto simplemente tenía la estructura familiar de bucles anidados en funciones «si», que tendría un código de programación. Al parecer, la IA era tan buena leyendo textos científicos que la forma de hacerla funcionar era obligar a los científicos a escribir como si fueran un ordenador, es decir, a dividir su narrativa en cientos de frases y reorganizarlas en la estructura de bucles lógicos anidados bajo funciones «si», que pudieran ser introducidas en una máquina… (¡eso sí que es lectura de lenguaje natural por parte de una máquina !, dijo el administrador de la UE al final del sermón de la gente de la IA sobre el nuevo Dios, cuando terminó la presentación en PowerPoint). Por desgracia, ni siquiera este procedimiento de escritura no humano (y algunos dirían que inhumano) pudo ayudar a la costosa máquina a dar sentido a una idea científica innovadora.
¿Tal vez la incapacidad de la IA para leer el lenguaje científico natural e interpretarlo de manera sensata sea lo que podría salvar a los editores y a los lectores?
Una parte interesante de la fachada es que hasta el día de hoy, según mi conocimiento, la UE nunca ha admitido el fracaso de su intento de permitir que el código leyera textos científicos y calificara sus innovaciones, ni ha explicado cómo sus administradores fueron engañados en primer lugar para ignorar la evidente incapacidad de la máquina para leer con sensatez. El impulso cultural a creer que las máquinas piensan o incluso entienden es extremadamente fuerte. Tal vez se deba a que perdimos la esperanza de encontrar inteligencia en el espacio exterior, por lo que tratamos de tener la esperanza de que podamos crearla aquí por nosotros mismos. Tal vez se deba básicamente a la eterna soledad fundamental de la humanidad, de sentirnos la única parte de un universo frío e indiferente que se conoce a sí mismo. Queremos tanto que algo nos conozca, que probamos con dioses y extraterrestres y cuando ambos nos dejaron de lado, miramos a nuestras máquinas con una nueva y triste esperanza en nuestros ojos.
Para la ciencia, el problema puede ser más profundo que una barrera técnica que con el tiempo se resolvería con la suficiente computación. La IA se entrena con ejemplos existentes y los absorbe, de forma muy similar a como un juguete de presión de alfileres absorbe la forma de tu mano o tu nariz cuando las colocas sobre los alfileres, solo que con alfileres digitales. Capas sobre capas de esos alfileres digitales pueden tomar la forma de miles y miles de ejemplos, lo que permite encontrar conexiones entre ellos, o promediar los ejemplos e imitarlos, para la “escritura de IA”, o encontrar patrones repetitivos en los ejemplos presionados, como se intenta en las ciencias médicas actuales para predecir la progresión de enfermedades o diagnosticar a los pacientes con mayor precisión. En cierto sentido, la IA es fundamentalmente una esponja, huelga decir una esponja sofisticada, que absorbe ejemplos y toma su forma en su micromatriz. Pero la esencia misma del concepto de innovación es no tener ejemplos previos.
Ojalá los editores pudieran utilizar la IA para filtrar los textos y dejar solo los verdaderos para leer. El problema es que, a pesar del valiente intento que se menciona en Nature, como ha demostrado el colosal fracaso de la UE, la IA es muy mala para leer un texto científico real y un algoritmo para cuantificar el concepto humano de innovación podría ser una demostración icariana de la línea que separa la conciencia humana de las máquinas. Pero, ¿quizás la incapacidad de la IA para leer el lenguaje científico natural e interpretarlo de manera sensata sea lo que podría salvar a los editores y a los lectores? Sería interesante averiguar si la IA entiende mejor un texto generado por ella que un texto natural. ¿Calificaría la IA un texto generado por ella como más lógico, considerando que una máquina creó ese texto? En ese caso, solo necesitamos invertir nuestra escala: los textos que la IA prefiera para su consideración deberían ser marcados. E incluso si una máquina no puede mostrar un sesgo lo suficientemente sistemático a favor de las contribuciones hechas por sus compañeras, el sinsentido podría ser mucho más fácil de detectar que la razón. Al menos los seres humanos somos mucho mejores a la hora de detectar tonterías que a la hora de reconocer la razón. ¿Cuántos de los presentes en un público aleatorio se reirían de un sketch de Monty Python y cuántos de los presentes se quedarían boquiabiertos ante una nueva prueba matemática? Pocos pueden detectar la razón, pero la mayoría puede apreciar las tonterías. En lugar de evaluar la innovación, tal vez debamos considerar evaluar la ignorancia. ¿Quizá el futuro de la ciencia y más allá no sea la lectura por parte de las máquinas, sino la percepción de tonterías?
·