The Prague Post - IA aprende a mentir, manipular e ameaçar seus criadores

EUR -
AED 4.236704
AFN 77.219534
ALL 96.924305
AMD 442.741339
ANG 2.064976
AOA 1057.877763
ARS 1665.040019
AUD 1.759359
AWG 2.076533
AZN 1.964656
BAM 1.957309
BBD 2.331487
BDT 141.45906
BGN 1.957309
BHD 0.435334
BIF 3396.904181
BMD 1.153629
BND 1.505754
BOB 7.999167
BRL 6.214715
BSD 1.157587
BTN 102.623119
BWP 15.544985
BYN 3.945742
BYR 22611.136456
BZD 2.328195
CAD 1.616333
CDF 2584.129996
CHF 0.927865
CLF 0.027668
CLP 1085.404083
CNY 8.210845
CNH 8.210582
COP 4443.549765
CRC 580.547583
CUC 1.153629
CUP 30.571179
CVE 110.350076
CZK 24.339677
DJF 206.138032
DKK 7.466855
DOP 74.377343
DZD 150.101724
EGP 54.509247
ERN 17.304441
ETB 178.345399
FJD 2.645445
FKP 0.877185
GBP 0.877699
GEL 3.132098
GGP 0.877185
GHS 12.617728
GIP 0.877185
GMD 83.638236
GNF 10047.702906
GTQ 8.873841
GYD 242.186718
HKD 8.966637
HNL 30.447474
HRK 7.534312
HTG 151.416081
HUF 387.672521
IDR 19236.943473
ILS 3.759171
IMP 0.877185
INR 102.435399
IQD 1516.469149
IRR 48538.957866
ISK 144.803822
JEP 0.877185
JMD 185.793241
JOD 0.817861
JPY 177.799671
KES 149.106619
KGS 100.884966
KHR 4641.558374
KMF 491.446171
KPW 1038.265881
KRW 1645.941085
KWD 0.354072
KYD 0.964648
KZT 612.945218
LAK 25027.295237
LBP 103720.264975
LKR 352.431713
LRD 212.133548
LSL 20.075978
LTL 3.406368
LVL 0.697819
LYD 6.314841
MAD 10.721966
MDL 19.708194
MGA 5199.008268
MKD 61.667544
MMK 2422.175306
MNT 4137.199922
MOP 9.266444
MRU 46.37075
MUR 53.009508
MVR 17.651896
MWK 2007.247523
MXN 21.395004
MYR 4.841207
MZN 73.70287
NAD 20.075978
NGN 1676.807296
NIO 42.602661
NOK 11.664982
NPR 164.19659
NZD 2.01386
OMR 0.44407
PAB 1.157793
PEN 3.916219
PGK 4.880763
PHP 67.847285
PKR 327.799902
PLN 4.256939
PYG 8189.278176
QAR 4.21905
RON 5.084392
RSD 117.310443
RUB 93.67508
RWF 1681.396302
SAR 4.326568
SBD 9.502875
SCR 16.956073
SDG 693.905281
SEK 10.943791
SGD 1.501685
SHP 0.865521
SLE 26.72987
SLL 24191.031392
SOS 661.61008
SRD 44.425687
STD 23877.79964
STN 24.518903
SVC 10.128853
SYP 12755.365448
SZL 20.071387
THB 37.354945
TJS 10.66142
TMT 4.037703
TND 3.418636
TOP 2.70192
TRY 48.52749
TTD 7.840044
TWD 35.523136
TZS 2829.994885
UAH 48.517606
UGX 4032.108626
USD 1.153629
UYU 46.1756
UZS 13896.713918
VES 255.492979
VND 30346.221657
VUV 140.270494
WST 3.229673
XAF 656.465959
XAG 0.023582
XAU 0.000288
XCD 3.117741
XCG 2.086318
XDR 0.816429
XOF 656.460264
XPF 119.331742
YER 275.139184
ZAR 19.958274
ZMK 10384.035005
ZMW 25.611746
ZWL 371.4682
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: HENRY NICHOLLS - AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

K.Dudek--TPP