The Prague Post - La IA aprende a mentir, manipular y amenazar a sus creadores

EUR -
AED 4.288305
AFN 79.883419
ALL 97.223233
AMD 446.346355
ANG 2.089896
AOA 1070.763539
ARS 1590.965613
AUD 1.7858
AWG 2.101826
AZN 1.981851
BAM 1.960444
BBD 2.352573
BDT 142.146729
BGN 1.95722
BHD 0.440168
BIF 3484.600944
BMD 1.167681
BND 1.505557
BOB 8.073788
BRL 6.358374
BSD 1.167982
BTN 102.890736
BWP 16.806589
BYN 3.945146
BYR 22886.549489
BZD 2.349165
CAD 1.611669
CDF 3347.742018
CHF 0.93902
CLF 0.02894
CLP 1135.324431
CNY 8.339226
CNH 8.327931
COP 4655.544531
CRC 590.455737
CUC 1.167681
CUP 30.943549
CVE 110.521295
CZK 24.446799
DJF 207.987557
DKK 7.466164
DOP 74.042458
DZD 151.639932
EGP 56.69617
ERN 17.515216
ETB 167.072613
FJD 2.637149
FKP 0.868253
GBP 0.867178
GEL 3.140555
GGP 0.868253
GHS 14.070513
GIP 0.868253
GMD 84.655335
GNF 10106.280043
GTQ 8.961183
GYD 244.3494
HKD 9.106336
HNL 30.600261
HRK 7.535752
HTG 152.770775
HUF 392.870395
IDR 19194.049942
ILS 3.898204
IMP 0.868253
INR 103.106942
IQD 1530.224919
IRR 49112.667015
ISK 143.21576
JEP 0.868253
JMD 186.999367
JOD 0.82785
JPY 173.005382
KES 150.865517
KGS 102.113692
KHR 4673.645168
KMF 492.761638
KPW 1050.887798
KRW 1624.349451
KWD 0.357112
KYD 0.973406
KZT 630.663967
LAK 25327.003565
LBP 104565.841764
LKR 352.775683
LRD 234.588712
LSL 20.708786
LTL 3.447858
LVL 0.706319
LYD 6.328722
MAD 10.598458
MDL 19.576374
MGA 5211.967125
MKD 61.676103
MMK 2451.421374
MNT 4199.852201
MOP 9.383729
MRU 46.62559
MUR 53.84195
MVR 18.018236
MWK 2028.262246
MXN 21.840774
MYR 4.932048
MZN 74.672782
NAD 20.7146
NGN 1786.365455
NIO 42.978683
NOK 11.741045
NPR 164.612966
NZD 1.989793
OMR 0.448972
PAB 1.168453
PEN 4.113158
PGK 4.949364
PHP 66.5485
PKR 331.300314
PLN 4.251135
PYG 8418.943467
QAR 4.251295
RON 5.076142
RSD 117.179111
RUB 94.928812
RWF 1688.466865
SAR 4.381269
SBD 9.602745
SCR 16.954833
SDG 701.190029
SEK 11.022186
SGD 1.502414
SHP 0.917614
SLE 27.148246
SLL 24485.68638
SOS 667.33215
SRD 45.471886
STD 24168.641156
STN 24.754839
SVC 10.22021
SYP 15182.124611
SZL 20.71449
THB 37.605757
TJS 11.067217
TMT 4.086884
TND 3.398533
TOP 2.734824
TRY 48.143727
TTD 7.921766
TWD 35.681412
TZS 2925.480171
UAH 48.262916
UGX 4110.091465
USD 1.167681
UYU 46.826566
UZS 14454.240361
VES 176.988951
VND 30826.780944
VUV 140.355028
WST 3.2373
XAF 657.4666
XAG 0.028552
XAU 0.000329
XCD 3.155717
XCG 2.105087
XDR 0.817677
XOF 657.4666
XPF 119.331742
YER 280.360842
ZAR 20.695857
ZMK 10510.525554
ZMW 27.79384
ZWL 375.992837
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: HENRY NICHOLLS - AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

J.Marek--TPP