Inicio / UGRDivulga

La investigadora de la UGR María Cruz Boscá participa en el ‘Humanity’s Last Exam’, la evaluación a la IA en la frontera del conocimiento humano, publicada por la revista ‘Nature’ 

1.100 científicos de todos los ámbitos de la ciencia y las humanidades someten a la IA a un gran ‘examen’ para valorar su réplica a preguntas de respuesta inequívoca y verificable pero que requieren más que una búsqueda en Internet

El resultado es que, a día de hoy, incluso los modelos más avanzados de IA tropiezan con conceptos científicos profundos y heredan errores de los manuales clásicos

La revista Nature ha publicado recientemente el artículo A benchmark of expert-level academic questions to assess AI capabilities – Una base de referencia de preguntas académicas de nivel experto para evaluar las capacidades de la IA, en español–, un gran examen final a la Inteligencia Artificial en la que más de 1.100 científicos de todo el mundo y todos los ámbitos de la ciencia han sometido a la IA preguntas en la frontera del conocimiento humano para evaluar la capacidad de respuesta de los modelos LLM. Una de las investigadoras que contribuyó a ese examen es la doctora María Cruz Boscá Díaz-Pintado, profesora del Departamento de Física Atómica, Molecular y Nuclear de la Universidad de Granada.

El estudio nació con el objetivo de determinar si los actuales grandes modelos de lenguaje (LLM o Large Language Model) poseen una amplia y verdadera capacidad de resolución creativa o si, por el contrario, su funcionamiento se limita a una sofisticada gestión de los datos que esos modelos rescatan de la nube. Para ello, la comunidad científica diseñó una batería de preguntas de alta complejidad técnica y conceptual.

La publicación de Nature justifica la necesidad de este estudio/examen al límite a la IA en que las bases de preguntas y tareas de referencia son herramientas importantes para realizar un seguimiento de los rápidos avances en las capacidades de los LLM y, en el momento actual de su desarrollo, las bases ya disponibles no estaban a la altura en cuanto a dificultad. Los LLM habían alcanzado ya más del 90 % de precisión en exámenes de referencia previos a este estudio y muy populares, como, por ejemplo, el Measuring Massive Multitask Language Understanding1 –un examen que incluye algo más de 15.000 preguntas a la IA que evalúa el conocimiento del modelo en 57 materias diferentes, desde matemáticas elementales, historia y derecho, hasta medicina, informática y ética–, lo que limita la medición correcta de las capacidades de vanguardia de los LLM.

En respuesta a ello se ha creado el Humanity’s Last Exam (HLE), diseñado para ser un test marco de referencia o benchamark académico cerrado de nivel experto con una amplia cobertura de temas. HLE consta de dos bases con 2.500 preguntas sobre docenas de temas y y contiene tanto preguntas de opción múltiple como de respuesta corta única, adecuadas para la calificación automatizada. Cada pregunta tiene una solución conocida que es inequívoca y verificable, pero que no puede responderse rápida y fácilmente mediante una búsqueda en Internet. Los principales LLM de última generación han mostrado una baja precisión y calibración en HLE, lo que pone de relieve una marcada diferencia entre las capacidades actuales de los LLM y las de los expertos humanos en las diferentes preguntas académicas planteadas, referentes a diversos campos científicos.

Según explica la profesora Boscá, quien ha puesto a prueba los límites del razonamiento artificial en el ámbito de la física cuántica, su participación y la del resto de firmantes tuvo un enfoque pedagógico específico: hacer preguntas difíciles para analizar sus fallos y contribuir a su mejora. «Para ello hemos redactado una serie de preguntas que, formuladas a distintas AI, han generado respuestas incorrectas. El propósito, por supuesto, no era en ningún caso deslustrar el colosal avance científico que suponen los sistemas de AI, sino analizarlos para conseguir su progresiva optimización», explica la investigadora, que añade: «Cuando me propusieron participar y conocí el sentido de la investigación, no dudé en unirme al proyecto, ya que es un tema apasionante sobre el cual considero que, como científicos y como sociedad, debemos hacer un esfuerzo colectivo para conseguir que el conocimiento generado sea veraz y riguroso».

La contribución de la investigadora granadina consistió en formular preguntas que, lejos de presentar una elevada complejidad matemática —campo al que pertenecen el 41% de las cuestiones de la base—, exigían una profunda comprensión conceptual, más allá de la mera búsqueda bibliográfica. El resultado fue revelador: las inteligencias artificiales no lograron elegir las respuestas correctas. En una de las cuestiones, relacionada con la paradoja Einstein-Podolsky-Rosen, la máquina falló debido a un sesgo interpretativo clásico, asumiendo una realidad objetiva en la medición que contradice los principios cuánticos. En otro caso, relativo al experimento Stern-Gerlach, la IA reprodujo un error factual que se repite en numerosos manuales científicos, demostrando que estos sistemas pueden perpetuar equivocaciones bibliográficas si no se les entrena para discernir la respuesta correcta.

A pesar de estos tropiezos, la profesora de la UGR mantiene una visión optimista sobre la evolución de esta tecnología. La doctora Boscá sostiene que los sistemas actuales de LLM más avanzados han trascendido ya la mera búsqueda de información para comenzar a realizar análisis reflexivos complejos. «Estos LLM de última generación han llegado a un estadio de desarrollo en el que ya no se limitan a explorar inmensas bases de datos en la búsqueda de repuestas, sino que, además, son capaces de realizar análisis reflexivos complejos a partir de los datos disponibles», explica la investigadora, que considera «un hito la derrota de los mejores jugadores profesionales de GO en 2016 (sistema AlphaGo, Google DeepMind)». El hecho de que luego «otros jugadores humanos lograran devolver el golpe, ganando a las AI, no cambió mi opinión: quedó probada la capacidad de aprendizaje autónomo de las AI, esto es, la similitud creciente de cómo funciona la IA con cómo lo hacemos los humanos. Y se demostró con la nueva versión de IA AlphaZero».

La investigadora concluye que «el verdadero hito llegará cuando la IA no solo evite errar en el conocimiento establecido, sino que además sea capaz de plantear nuevas preguntas y ofrecer respuestas a incógnitas científicas que hoy en día los humanos aún no hemos logrado resolver».

Web del Humanity’s Last Exam:

https://lastexam.ai

Publicación en ‘Nature’: 

https://www.nature.com/articles/s41586-025-09962-4#article-info

Contacto: 

María C.Boscá Díaz-Pintado – bosca@ugr.es – www.fisicacuantica.es