The Prague Post - IA aprende a mentir, manipular e ameaçar seus criadores

EUR -
AED 4.215497
AFN 73.462725
ALL 95.928008
AMD 435.38919
ANG 2.054756
AOA 1052.582784
ARS 1600.600423
AUD 1.630858
AWG 2.066139
AZN 1.945141
BAM 1.955979
BBD 2.326279
BDT 141.692979
BGN 1.962039
BHD 0.433553
BIF 3424.584958
BMD 1.147855
BND 1.474824
BOB 7.980635
BRL 6.038896
BSD 1.155037
BTN 107.10294
BWP 15.663573
BYN 3.520513
BYR 22497.960723
BZD 2.322978
CAD 1.576946
CDF 2605.631197
CHF 0.911885
CLF 0.02664
CLP 1051.929343
CNY 7.889266
CNH 7.920711
COP 4256.327205
CRC 539.455155
CUC 1.147855
CUP 30.418161
CVE 110.287592
CZK 24.507399
DJF 205.680052
DKK 7.471418
DOP 69.830084
DZD 151.950765
EGP 59.967169
ERN 17.217827
ETB 180.34737
FJD 2.546861
FKP 0.861664
GBP 0.862998
GEL 3.116388
GGP 0.861664
GHS 12.590579
GIP 0.861664
GMD 84.940928
GNF 10122.911489
GTQ 8.846812
GYD 241.629498
HKD 8.990386
HNL 30.569792
HRK 7.539054
HTG 151.373537
HUF 392.265145
IDR 19474.510287
ILS 3.585463
IMP 0.861664
INR 107.020733
IQD 1512.909921
IRR 1509429.508194
ISK 143.4018
JEP 0.861664
JMD 181.352159
JOD 0.81381
JPY 182.55142
KES 148.475308
KGS 100.377518
KHR 4625.330309
KMF 491.281897
KPW 1033.055826
KRW 1721.811368
KWD 0.352093
KYD 0.962447
KZT 557.17297
LAK 24783.804292
LBP 103445.652394
LKR 359.638737
LRD 211.353296
LSL 19.279293
LTL 3.389317
LVL 0.694327
LYD 7.370152
MAD 10.808114
MDL 20.13788
MGA 4810.404492
MKD 61.670198
MMK 2410.196717
MNT 4116.027501
MOP 9.32411
MRU 46.099259
MUR 53.386504
MVR 17.745724
MWK 2002.784752
MXN 20.448655
MYR 4.521977
MZN 73.357263
NAD 19.279293
NGN 1564.446099
NIO 42.502224
NOK 10.991514
NPR 171.379291
NZD 1.974781
OMR 0.441344
PAB 1.154937
PEN 3.944161
PGK 4.983433
PHP 69.075658
PKR 322.652705
PLN 4.280128
PYG 7465.179606
QAR 4.19976
RON 5.097049
RSD 117.451962
RUB 98.721522
RWF 1685.984912
SAR 4.309636
SBD 9.23477
SCR 15.640114
SDG 689.861145
SEK 10.788909
SGD 1.472715
SHP 0.861189
SLE 28.295101
SLL 24069.960762
SOS 660.089851
SRD 42.901089
STD 23758.283866
STN 24.507049
SVC 10.105422
SYP 126.87101
SZL 19.284631
THB 37.748358
TJS 11.046763
TMT 4.017493
TND 3.398596
TOP 2.763759
TRY 50.873187
TTD 7.829149
TWD 36.694288
TZS 2981.553918
UAH 50.79373
UGX 4344.890054
USD 1.147855
UYU 46.769581
UZS 14083.885094
VES 517.617056
VND 30177.111603
VUV 137.063567
WST 3.136193
XAF 656.145717
XAG 0.016464
XAU 0.000248
XCD 3.102136
XCG 2.081445
XDR 0.816077
XOF 656.148576
XPF 119.331742
YER 273.84957
ZAR 19.355157
ZMK 10332.070799
ZMW 22.586595
ZWL 369.608886
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: HENRY NICHOLLS - AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

K.Dudek--TPP