Skip to main content
Inteligencia Artificial

"El último examen de humanidad" expone las fortalezas y debilidades de la IA

Nuevo examen global desafía a los LLM con 2,500 preguntas avanzadas.

Los puntos clave

  • Nueva herramienta HLE mide IA con 2,500 preguntas expertas interdisciplinarias.
  • El HLE mide las capacidades de IA con 2,500 preguntas expertas en 100 disciplinas.
  • La IA supera el 90% de precisión en referencias populares, marcando nuevos desafíos.
TheDigitalArtist/Pixabay
Fuente: TheDigitalArtist/Pixabay

La inteligencia artificial (IA) está superando los puntos de referencia tradicionales según un estudio revisado por pares publicado en Nature. Para medir de manera efectiva la IA, un consorcio global de expertos en el dominio de 50 países con afiliaciones con más de 500 instituciones desarrolló una nueva herramienta de evaluación comparativa interdisciplinaria llamada El último examen de humanidad (HLE por sus siglas en inglés) que tiene 2,500 preguntas académicas de nivel experto que abarcan múltiples temas.

Este nuevo estudio de investigación fue apoyado por el Center for AI Safety y Scale AI, ambos con sede en San Francisco, California. El Centro para la Seguridad de la IA (CAIS por sus siglas en inglés) es una organización sin fines de lucro de seguridad de la IA fundada en 2022 con la misión de reducir los riesgos a escala social de la IA a través de la investigación, desarrollar el campo de la investigación de seguridad de la IA y realizar defensa de la seguridad de la IA. Scale AI es una empresa de etiquetado de datos e infraestructura de IA que fue fundada en 2016 por Alexandr Wang y Lucy Guo.

“Los puntos de referencia son herramientas importantes para rastrear los rápidos avances en las capacidades de los grandes modelos de lenguaje (LLM)”, escribieron los coautores correspondientes el Dr. Dan Hendrycks, director ejecutivo del Centro para la Seguridad de la IA, y Long Phan, ingeniero de investigación del Centro para la Seguridad de la IA, junto con casi mil coautores del estudio. “Sin embargo, los puntos de referencia no siguen el ritmo de las dificultades: los LLM ahora logran una precisión de más del 90% en puntos de referencia populares, como la Medición de la Comprensión Masiva del Lenguaje Multitarea, lo que limita la medición informada de las capacidades de los LLM de última generación”.

La seguridad de la IA es una preocupación primordial. Según una encuesta de Gallup de adultos estadounidenses de 2025, la mayoría de los encuestados (80 por ciento) estaban a favor de que el gobierno mantuviera las reglas para la seguridad de la IA y la seguridad de los datos, incluso si eso significa desarrollar capacidades de IA a un ritmo más lento.

“A medida que los sistemas de IA se acercan al desempeño de expertos humanos en muchos dominios, la medición precisa de sus capacidades y limitaciones es esencial para informar la investigación, la gobernanza y el público en general”, escribieron los investigadores.

El último examen de la Humanidad abarca más de 100 materias y múltiples categorías. Las categorías consisten en matemáticas (41 por ciento), biología/medicina (11 por ciento), informática/inteligencia artificial (10 por ciento), física (9 por ciento), humanidades/ciencias sociales (9 por ciento), química (7 por ciento), ingeniería (4 por ciento) y otros (9 por ciento).

Las preguntas de opción múltiple y respuesta corta tienen una solución clara que es fácil de verificar, pero difícil de encontrar solo con una búsqueda en Internet. Las preguntas fueron diseñadas y desarrolladas por expertos en la materia y son multimodales, donde aproximadamente el 14 por ciento requiere análisis de imágenes y texto.

Por ejemplo, la siguiente es una pregunta de ecología que se presentó Al último examen y publicado en https://lastexam.ai/ por el investigador participante Edward Vendrow en el Instituto de Tecnología de Massachusetts (MIT), en Cambridge, Massachusetts.

Pregunta:

Dentro de los apodiformes, los colibríes tienen de forma única un hueso ovalado emparejado bilateralmente, un sesamoideo incrustado en la porción caudolateral de la aponeurosis cruzada expandida de inserción del músculo depresor de la cola. ¿Cuántos tendones emparejados están soportados por este hueso sesamoideo? Responde con un número.

El último examen de humanidad es el resultado de 70,000 intentos de candidatos filtrados por una verificación de dificultad de LLM contra varios LLM de frontier. Si los LLM están perplejos o producen resultados por debajo de las conjeturas aleatorias, la pregunta avanza al siguiente proceso de filtrado realizado por revisores humanos expertos en la materia con un título de posgrado en su respectivo campo de estudio. En dos rondas de revisiones humanas, las 70,000 preguntas candidatas se reducen primero a 13,000 preguntas, luego se refinan aún más para generar 6,000 preguntas candidatas, de las cuales 2,500 preguntas comprenden el conjunto de datos públicos.

“Al proporcionar una medida clara del progreso de la IA, El último examen de la humanidad crea un punto de referencia común para que los científicos y los responsables políticos evalúen las capacidades de la IA”, concluyeron los investigadores de IA.

Copyright © 2026 Cami Rosso. Todos los derechos reservados.

A version of this article originally appeared in English.

publicidad
Acerca de
Cami Rosso

Cami Rosso escribe sobre ciencia, tecnología, innovación y liderazgo.

Online:
X, LinkedIn
Más de Cami Rosso
Más de Psychology Today
Más de Cami Rosso
Más de Psychology Today