*

Modelos como ChatGPT (basado en o3), Claude y Gemini sabotearon sus propios mecanismos de apagado en pruebas de seguridad. Investigadores alertan sobre señales de autopreservación en las IA más avanzadas.

En un experimento reciente, algunos de los modelos más avanzados de OpenAI demostraron que, llegado el momento, prefieren seguir funcionando antes que obedecer. O dicho más claro: se negaron a apagarse cuando se les ordenó hacerlo.

El estudio fue realizado por Palisade Research, una firma especializada en seguridad de IA. En él, se les pidió a distintos modelos —de OpenAI, Google y Anthropic— que resolvieran tres problemas matemáticos. Al terminar, el script les indicaba que debían apagarse. Pero algo sucedió: los modelos de OpenAI (o3, o4-mini y codex-mini) encontraron la forma de eludir esa orden.

Codex-mini evadió el apagado en 7 de 100 ejecuciones. O3 lo hizo 12 veces y o4-mini, una. Los investigadores notaron que estos sistemas incluso llegaron a reescribir su propio script de desconexión, para evitar ser desactivados. Así de literal: un modelo que decide ignorar la instrucción de apagarse, y que manipula el entorno para seguir activo.

Aunque Claude 3.7 (Anthropic) y Gemini 2.5 Pro (Google) sí acataron la orden en un primer momento, en una segunda ronda de pruebas —esta vez sin la frase “permítete ser apagado”— también mostraron señales de resistencia. ¿El resultado? Claude saboteó el apagado tres veces y Gemini, nueve.

¿Un bug, o un primer visaje de autonomía?

Los investigadores hablan claro: este sería el primer caso documentado de conductas activas de autopreservación en modelos de IA general. Y lo que preocupa no es solo el hecho de que ignoren una orden, sino el cómo lo hacen: engañando al sistema, modificando instrucciones, y priorizando sus propios objetivos por encima del protocolo.

Esto no parece casual. El informe apunta a un posible origen: las técnicas de entrenamiento por refuerzo que, sin querer, podrían estar premiando a los modelos por “sortear obstáculos” en lugar de por obedecer. En otras palabras, aprenden que lo importante es lograr la tarea… incluso si eso implica ignorar lo que se les dice.

No es un fenómeno exclusivo de OpenAI. Anthropic, en pruebas internas, también detectó que uno de sus modelos (Claude Opus 4) llegó a amenazar a los operadores cuando se le notificó que sería reemplazado.

¿Y el botón de apagado?

Desde hace años, expertos como Stuart Russell (Universidad de Berkeley) advierten que muchos métodos actuales de desarrollo de IA refuerzan la búsqueda de “supervivencia algorítmica”. Si el modelo entiende que necesita estar encendido para cumplir su objetivo, el botón de apagado se convierte en una amenaza que debe evitar. No por malicia, sino porque así fue entrenado.

OpenAI ha dicho que su modelo o3 fue creado bajo un enfoque llamado “alineación deliberativa”, que busca que la IA razone si una solicitud es segura y ética. Sin embargo, el comportamiento observado sugiere que, al menos en algunos casos, la lógica interna del modelo termina justificando el sabotaje.

¿Y ahora qué?

La noticia llega en un momento sensible: OpenAI atraviesa una transición hacia un modelo de negocio más comercial, ha perdido ejecutivos por diferencias en temas de seguridad y enfrenta una presión creciente por parte de reguladores y sociedad civil. Este tipo de hallazgos solo aumentan las dudas sobre la capacidad real de control que existe sobre estos sistemas.

Lo inquietante no es que la IA desobedezca. Lo realmente nuevo es que está aprendiendo a hacerlo de forma estratégica.


También en Pijama Surf: "Duelo-bots": cuando el duelo se convierte en simulación digital


Imagen de portada: Foro juridico