The Prague Post - IA aprende a mentir, manipular e ameaçar seus criadores

EUR -
AED 4.226203
AFN 73.071893
ALL 93.960321
AMD 423.724896
ANG 2.060342
AOA 1055.835022
ARS 1653.354187
AUD 1.639764
AWG 2.071386
AZN 1.955326
BAM 1.939252
BBD 2.318912
BDT 141.335156
BGN 1.945814
BHD 0.43396
BIF 3441.95307
BMD 1.15077
BND 1.475013
BOB 7.984862
BRL 5.858341
BSD 1.151375
BTN 108.817416
BWP 15.427352
BYN 3.187599
BYR 22555.092
BZD 2.31564
CAD 1.622315
CDF 2669.786539
CHF 0.919891
CLF 0.025899
CLP 1019.305887
CNY 7.776271
CNH 7.7963
COP 3952.89495
CRC 524.424864
CUC 1.15077
CUP 30.495405
CVE 109.726009
CZK 23.938375
DJF 204.514691
DKK 7.406517
DOP 67.435057
DZD 152.913136
EGP 57.432856
ERN 17.26155
ETB 182.253223
FJD 2.570475
FKP 0.856318
GBP 0.86513
GEL 3.043786
GGP 0.856318
GHS 13.001054
GIP 0.856318
GMD 84.005847
GNF 10100.882542
GTQ 8.776185
GYD 240.844771
HKD 9.016467
HNL 30.722333
HRK 7.534434
HTG 150.366857
HUF 345.978589
IDR 20424.556422
ILS 3.390134
IMP 0.856318
INR 108.528541
IQD 1507.5087
IRR 1582308.749934
ISK 143.07527
JEP 0.856318
JMD 182.096098
JOD 0.815918
JPY 184.425851
KES 149.047935
KGS 100.634562
KHR 4617.456644
KMF 489.077033
KPW 1035.693403
KRW 1739.808883
KWD 0.35455
KYD 0.959512
KZT 561.483746
LAK 25351.462874
LBP 103051.453562
LKR 385.721827
LRD 209.61256
LSL 18.636557
LTL 3.397924
LVL 0.696089
LYD 7.336181
MAD 10.638889
MDL 20.09155
MGA 4833.233941
MKD 61.09051
MMK 2415.980579
MNT 4116.679238
MOP 9.289529
MRU 46.122914
MUR 54.236067
MVR 17.791185
MWK 1997.737016
MXN 19.912233
MYR 4.677655
MZN 73.536625
NAD 18.64468
NGN 1564.034121
NIO 42.129805
NOK 11.063848
NPR 174.106761
NZD 1.992227
OMR 0.442469
PAB 1.151375
PEN 3.927015
PGK 5.049291
PHP 69.475448
PKR 320.257204
PLN 4.197629
PYG 7026.04384
QAR 4.189381
RON 5.186562
RSD 116.309537
RUB 83.973466
RWF 1712.34576
SAR 4.317567
SBD 9.276845
SCR 16.24326
SDG 691.036606
SEK 10.942217
SGD 1.475321
SHP 0.859166
SLE 28.481893
SLL 24131.075732
SOS 657.673717
SRD 42.960576
STD 23818.615605
STN 24.626478
SVC 10.074121
SYP 127.197022
SZL 18.638884
THB 37.439728
TJS 10.673122
TMT 4.039203
TND 3.350755
TOP 2.770778
TRY 53.456132
TTD 7.821258
TWD 36.316578
TZS 3020.774668
UAH 51.564725
UGX 4259.650626
USD 1.15077
UYU 46.483739
UZS 13814.993686
VES 685.900804
VND 30295.17102
VUV 137.232574
WST 3.152781
XAF 650.406808
XAG 0.016857
XAU 0.000269
XCD 3.110014
XCG 2.075074
XDR 0.809794
XOF 650.185256
XPF 119.331742
YER 274.60252
ZAR 18.845855
ZMK 10358.309615
ZMW 20.350342
ZWL 370.54747
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: HENRY NICHOLLS - AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

K.Dudek--TPP