The Prague Post - La IA aprende a mentir, manipular y amenazar a sus creadores

EUR -
AED 4.276764
AFN 76.286576
ALL 96.509755
AMD 440.446409
ANG 2.084615
AOA 1066.716604
ARS 1672.276261
AUD 1.732943
AWG 2.096168
AZN 1.984303
BAM 1.955998
BBD 2.342237
BDT 142.244377
BGN 1.95569
BHD 0.438999
BIF 3442.762757
BMD 1.164538
BND 1.494757
BOB 8.064815
BRL 6.253776
BSD 1.162918
BTN 105.62713
BWP 15.582575
BYN 3.347438
BYR 22824.939021
BZD 2.338836
CAD 1.614765
CDF 2532.869198
CHF 0.928463
CLF 0.026183
CLP 1033.865208
CNY 8.115488
CNH 8.100658
COP 4282.296276
CRC 566.757285
CUC 1.164538
CUP 30.860249
CVE 110.27662
CZK 24.299714
DJF 207.080931
DKK 7.470585
DOP 74.00748
DZD 151.521352
EGP 55.221679
ERN 17.468066
ETB 181.479843
FJD 2.646759
FKP 0.871016
GBP 0.867505
GEL 3.132803
GGP 0.871016
GHS 12.56527
GIP 0.871016
GMD 86.1757
GNF 10181.07276
GTQ 8.91694
GYD 243.294591
HKD 9.080273
HNL 30.6691
HRK 7.534671
HTG 152.286046
HUF 385.602916
IDR 19770.240166
ILS 3.674524
IMP 0.871016
INR 105.859098
IQD 1523.453982
IRR 49056.151012
ISK 146.207751
JEP 0.871016
JMD 183.519337
JOD 0.825642
JPY 183.960275
KES 150.015703
KGS 101.839116
KHR 4683.493491
KMF 494.928236
KPW 1048.082882
KRW 1721.770434
KWD 0.358631
KYD 0.969098
KZT 591.53979
LAK 25147.541777
LBP 104138.125716
LKR 360.206408
LRD 210.482178
LSL 19.162337
LTL 3.438577
LVL 0.704417
LYD 6.319639
MAD 10.719683
MDL 19.862008
MGA 5272.532919
MKD 61.556486
MMK 2445.214696
MNT 4150.453063
MOP 9.340144
MRU 46.422692
MUR 53.895038
MVR 18.003479
MWK 2016.503817
MXN 20.482936
MYR 4.720451
MZN 74.413723
NAD 19.162337
NGN 1650.766933
NIO 42.794509
NOK 11.716781
NPR 169.003082
NZD 2.002585
OMR 0.447769
PAB 1.162918
PEN 3.906095
PGK 4.968524
PHP 69.267895
PKR 325.409891
PLN 4.223813
PYG 7752.783609
QAR 4.251448
RON 5.092402
RSD 117.401669
RUB 90.251722
RWF 1696.078713
SAR 4.36686
SBD 9.460251
SCR 15.532969
SDG 700.474256
SEK 10.717421
SGD 1.49692
SHP 0.873705
SLE 28.123104
SLL 24419.772554
SOS 663.469909
SRD 44.591891
STD 24103.579304
STN 24.502582
SVC 10.175028
SYP 12879.291968
SZL 19.155936
THB 36.338817
TJS 10.838342
TMT 4.087527
TND 3.406559
TOP 2.803927
TRY 50.395401
TTD 7.892798
TWD 36.848888
TZS 2940.815227
UAH 50.323986
UGX 4052.409596
USD 1.164538
UYU 44.904732
UZS 13911.465825
VES 397.474538
VND 30586.582826
VUV 140.134808
WST 3.24928
XAF 656.026124
XAG 0.012567
XAU 0.00025
XCD 3.147221
XCG 2.095812
XDR 0.815882
XOF 656.023307
XPF 119.331742
YER 277.713132
ZAR 19.085434
ZMK 10482.236665
ZMW 23.287354
ZWL 374.980666
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: HENRY NICHOLLS - AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

J.Marek--TPP