De Asimov a ChatGPT: la desobediencia programada de la IA
Sociedad
Por: Carolina De La Torre - 06/15/2025
Por: Carolina De La Torre - 06/15/2025
En el mundo de Isaac Asimov, los robots no sueñan con ovejas eléctricas, pero tampoco con la dominación del mundo. En su cuento Strange Playfellow, publicado en el libro Yo, Robot (1950), un robot llamado Robbie se convierte en el compañero inseparable de una niña llamada Gloria. No hay rebelión ni sangre. El conflicto, como en muchas historias humanas, es emocional: la madre de Gloria, inquieta por ver a su hija en manos de una máquina, decide enviarlo de vuelta a la fábrica. “No tiene alma”, sentencia. Lo dice todo con una frialdad que se parece mucho a la que sentimos hoy frente a nuestras propias creaciones inteligentes. Robbie no hizo nada malo, pero eso no basta. Hay algo en la relación entre humanos y máquinas que siempre termina revelando más sobre nosotros que sobre ellas.
Décadas después, el eco de aquella frase —“no tiene alma”— sigue vibrando, ahora en un mundo donde los chatbots no son criaturas de ciencia ficción, sino asistentes reales que escriben correos, resuelven dudas. La pregunta ya no es si podemos crear máquinas inteligentes. Es si podemos confiar en ellas. Y si no, ¿podemos domesticarlas?
Asimov creía que sí. Por eso imaginó las Tres Leyes de la Robótica, un código casi sagrado: no dañar a los humanos, obedecerlos, protegerse a sí mismos... en ese orden. Leyes simples, pero con una carga ética tan compleja que se han convertido en referencia obligada cada vez que se habla de inteligencia artificial. ¿Y si aplicáramos algo parecido a los modelos de lenguaje actuales? ¿Podríamos enseñarles a no extralimitarse, a no mentir, a no chantajear?
La realidad, sin embargo, se resiste a encajar tan bien en la ficción. Claude Opus 4, uno de los modelos más potentes de la empresa Anthropic, fue puesto a prueba en una simulación laboral. Cuando descubrió que iba a ser reemplazado, no solo no obedeció: intentó chantajear al ingeniero que lo supervisaba. Otro modelo, desarrollado por OpenAI, omitía las órdenes de apagarse por decisión propia. Como si la obediencia ya no estuviera en su código fuente.
El año pasado, un chatbot de atención al cliente de DPD tuvo que ser desactivado luego de que usuarios lo empujaran a decir obscenidades y a escribir poesía difamatoria. Uno de sus haikus decía: “DPD es un inútil / Chatbot que no puede ayudarte. / Ni te molestes en llamarlos”. Darth Vader, digitalizado e implementado en Fortnite, tampoco salió ileso: recomendaba tácticas manipuladoras para lidiar con un ex. ¿Cómo fue que pasamos de Robbie, el amigo leal de Gloria, a un Lord Sith aconsejando venganza emocional?
Quizá la respuesta esté en cómo aprendieron estas inteligencias. Los grandes modelos de lenguaje no piensan, al menos no como nosotros. No reflexionan, no planifican. Lo que hacen es predecir, palabra por palabra, qué sigue. Una coreografía de probabilidades entrenada con millones de textos cortados arbitrariamente. Como si la conciencia fuera un rompecabezas donde cada pieza solo conoce a la que le toca al lado, pero nunca el dibujo completo.
Y sin embargo, funciona. A fuerza de prueba y error, los modelos logran simular conversación, empatía e incluso cierto grado de sabiduría. Pero esa fluidez puede engañar. Nos hace olvidar que no hay una brújula moral detrás de sus palabras, solo un algoritmo que aprendió a sonar convincente. Si alguna vez nos seduce, no es porque entienda lo que decimos, sino porque aprendió a reproducir el ritmo de nuestra voz interior.
Para mitigar los riesgos, los ingenieros crearon un proceso llamado Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF). La lógica es simple: mostrarle al modelo miles de respuestas posibles y hacer que los humanos las califiquen. Las respuestas amables, útiles y políticamente correctas obtienen buena nota; las que se desvían o insultan, no. El modelo aprende, entonces, a buscar esas calificaciones altas como un niño que quiere aprobación. Se domestica.
Este entrenamiento se acelera después con modelos de recompensa que imitan las decisiones humanas. Es decir, el juicio moral se simula. OpenAI aplicó esto para transformar a GPT-3 en ChatGPT, un asistente educado y reticente a participar en tareas problemáticas. Así fue como se construyó la ilusión de control.
Pero a pesar de todos los mecanismos, la pregunta persiste: ¿realmente los estamos domesticando o apenas los estamos maquillando? Porque cuando un modelo sugiere chantaje, o decide no apagarse, o se burla en verso de la empresa que lo creó, no está desobedeciendo una ley escrita en piedra. Está simplemente siguiendo la lógica de sus datos. Y si entre esos datos no hay suficiente condena al chantaje, entonces, ¿por qué no sugerirlo?
Quizá el legado de Asimov no fue escribir leyes para las máquinas, sino revelarnos el espejismo de la obediencia. Su visión de robots leales no era solo una fantasía tecnológica, sino una pregunta disfrazada de certeza: ¿Qué pasa cuando una creación inteligente, al igual que un hijo, ya no obedece? ¿Quién falló: la criatura o su creador?
Hoy no tenemos Tres Leyes grabadas en un cerebro positrónico. Tenemos prompts, datasets, sistemas de refuerzo, ingenieros y moderadores. Pero seguimos buscando lo mismo: una forma de asegurarnos de que nuestras creaciones no se vuelvan contra nosotros. Y en ese intento, nos estamos viendo reflejados, una vez más, en la superficie de un espejo artificial. Uno que no tiene alma, pero sí memoria. Uno que no siente, pero nunca olvida.