The Prague Post - La IA aprende a mentir, manipular y amenazar a sus creadores

EUR -
AED 4.251055
AFN 74.082723
ALL 95.018841
AMD 426.494799
ANG 2.072456
AOA 1062.618368
ARS 1653.343639
AUD 1.642361
AWG 2.08533
AZN 1.972406
BAM 1.955776
BBD 2.331072
BDT 142.358264
BGN 1.957255
BHD 0.436195
BIF 3438.058076
BMD 1.157536
BND 1.485982
BOB 7.997902
BRL 5.858873
BSD 1.157386
BTN 110.026658
BWP 15.58081
BYN 3.202261
BYR 22687.703345
BZD 2.327772
CAD 1.619914
CDF 2656.545275
CHF 0.922472
CLF 0.026526
CLP 1047.457227
CNY 7.838259
CNH 7.828948
COP 4043.150698
CRC 526.49358
CUC 1.157536
CUP 30.674701
CVE 110.263655
CZK 24.163219
DJF 206.107487
DKK 7.47896
DOP 67.959171
DZD 154.092121
EGP 60.014268
ERN 17.363038
ETB 182.377176
FJD 2.564989
FKP 0.862967
GBP 0.863253
GEL 3.073304
GGP 0.862967
GHS 12.846843
GIP 0.862967
GMD 84.500531
GNF 10138.876366
GTQ 8.822892
GYD 242.147047
HKD 9.07051
HNL 30.948623
HRK 7.539962
HTG 151.328155
HUF 352.180742
IDR 20580.17776
ILS 3.380954
IMP 0.862967
INR 110.093821
IQD 1516.181512
IRR 1592627.583987
ISK 144.287295
JEP 0.862967
JMD 183.457763
JOD 0.820739
JPY 185.470863
KES 149.878172
KGS 101.226958
KHR 4649.943298
KMF 493.110692
KPW 1041.782702
KRW 1757.40615
KWD 0.357077
KYD 0.964588
KZT 565.963099
LAK 25485.689227
LBP 103649.83609
LKR 388.015269
LRD 210.647431
LSL 18.85217
LTL 3.417903
LVL 0.700182
LYD 7.37691
MAD 10.719669
MDL 20.213754
MGA 4829.941104
MKD 61.644248
MMK 2429.962366
MNT 4141.780268
MOP 9.341386
MRU 45.90344
MUR 54.694009
MVR 17.895943
MWK 2006.975527
MXN 19.936129
MYR 4.696822
MZN 73.97086
NAD 18.85217
NGN 1574.831883
NIO 42.589481
NOK 11.012222
NPR 176.042853
NZD 1.985142
OMR 0.444785
PAB 1.157386
PEN 3.936152
PGK 5.067938
PHP 70.344658
PKR 322.017173
PLN 4.248099
PYG 7086.913582
QAR 4.231048
RON 5.239128
RSD 117.358569
RUB 83.873777
RWF 1699.679274
SAR 4.345163
SBD 9.313039
SCR 16.281001
SDG 695.104554
SEK 10.971924
SGD 1.486859
SHP 0.864217
SLE 28.533689
SLL 24272.952982
SOS 661.491934
SRD 43.418597
STD 23958.655763
STN 24.499701
SVC 10.126877
SYP 127.94487
SZL 18.83677
THB 38.051721
TJS 10.786968
TMT 4.062951
TND 3.395559
TOP 2.787069
TRY 53.515782
TTD 7.861904
TWD 36.603025
TZS 3038.162953
UAH 51.861668
UGX 4339.947079
USD 1.157536
UYU 46.74943
UZS 13861.830968
VES 673.637084
VND 30454.769133
VUV 138.227647
WST 3.175673
XAF 655.949001
XAG 0.017014
XAU 0.000275
XCD 3.128299
XCG 2.085875
XDR 0.81579
XOF 655.949001
XPF 119.331742
YER 276.192216
ZAR 18.883861
ZMK 10419.216157
ZMW 20.219753
ZWL 372.726083
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: HENRY NICHOLLS - AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

J.Marek--TPP