*

La ilusión de la "inteligencia" en la inteligencia artificial: estudio revela su carencia absoluta de razonamiento

Sociedad

Por: Carolina De La Torre - 06/10/2025

Un nuevo estudio vinculado a Apple expone las fallas de los Large Reasoning Models (LRM), revelando que su aparente razonamiento se desmorona ante tareas complejas. ¿Realmente piensan estas IA o solo simulan hacerlo?

Justo cuando parecía que los modelos de inteligencia artificial estaban alcanzando niveles sobrehumanos de razonamiento, un nuevo estudio nos recuerda una verdad incómoda: pensar no es lo mismo que simular el pensamiento.

Investigadores vinculados a Apple, entre ellos Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio y Mehrdad Farajtabar, publicaron recientemente un trabajo que desmonta algunas de las grandes expectativas puestas en los llamados Large Reasoning Models (LRM), una nueva generación de IA que promete razonar paso a paso antes de dar una respuesta. La promesa, como tantas otras en este terreno, suena bien: modelos que “piensan” como humanos para resolver problemas complejos. Pero la realidad, como suele ocurrir con las máquinas, es menos épica.

Usando rompecabezas diseñados para controlar la complejidad del problema sin alterar su lógica interna, el estudio revela que estos modelos se enfrentan a un colapso total cuando la dificultad rebasa cierto umbral. Más aún: no solo fallan en acertijos difíciles, sino que, en tareas simples, son superados por modelos tradicionales de lenguaje (LLM). ¿Por qué? Porque su aparente razonamiento no es más que una simulación cada vez más forzada de pensamiento, que se rompe cuando la tarea exige algo más que seguir patrones ya aprendidos.

El comportamiento observado es curioso y alarmante: a medida que el problema se complica, los modelos incrementan su esfuerzo de razonamiento hasta cierto punto, pero de repente dejan de intentarlo. Como si se rindieran. Y no porque se les haya acabado el tiempo o los recursos —de hecho, cuentan con presupuesto suficiente de tokens— sino porque su propia arquitectura deja de sostener el proceso.
Al comparar los LRM con los Large Language Models estándar (LLM) bajo un cómputo de inferencia equivalente, los investigadores identifican tres regímenes claros de rendimiento:

En problemas fáciles, los modelos clásicos sorprendentemente superan a los LRM.

En problemas de complejidad media, los LRM logran cierta ventaja gracias a su pensamiento paso a paso.

En problemas muy complejos, ambos colapsan completamente.

El estudio no se queda en los resultados finales, sino que profundiza en los rastros del razonamiento interno: los pasos seguidos, los errores y las rutas exploradas para llegar —o no— a una solución. Descubren que, incluso en los mejores casos, los LRM no usan algoritmos explícitos ni presentan una lógica consistente de un problema a otro, mostrando así una gran inconsistencia en su forma de razonar.

En resumen: lo que vemos no es pensamiento real, sino una ilusión de pensamiento, una simulación que puede funcionar bien hasta cierto punto, pero que tiene límites claros y significativos.

Este estudio llega justo a días de la WWDC25, cuando Apple busca posicionar su estrategia de inteligencia artificial frente a gigantes como OpenAI y Google. Más allá de un posible movimiento estratégico o advertencia técnica, este trabajo plantea un cuestionamiento profundo: si queremos confiar en que las máquinas piensen por nosotros, primero debemos entender cómo —y por qué— dejan de hacerlo.


También en Pijama Surf: ¿ChatGPT ha provocado alucinaciones, delirios y hasta divorcios?


Imagen de portada: Canva