The Prague Post - IA aprende a mentir, manipular e ameaçar seus criadores

EUR -
AED 4.327349
AFN 83.648702
ALL 97.992509
AMD 453.964331
ANG 2.10844
AOA 1080.361606
ARS 1438.578501
AUD 1.79186
AWG 2.120666
AZN 2.000366
BAM 1.951118
BBD 2.379191
BDT 144.612991
BGN 1.958152
BHD 0.444162
BIF 3464.933127
BMD 1.178148
BND 1.497307
BOB 8.141945
BRL 6.439405
BSD 1.178372
BTN 100.72231
BWP 15.586137
BYN 3.856247
BYR 23091.69986
BZD 2.36677
CAD 1.608089
CDF 3390.074499
CHF 0.933682
CLF 0.028501
CLP 1093.73345
CNY 8.441724
CNH 8.437713
COP 4747.865558
CRC 594.772801
CUC 1.178148
CUP 31.220921
CVE 110.80498
CZK 24.685704
DJF 209.38064
DKK 7.461753
DOP 69.922992
DZD 152.326806
EGP 58.269905
ERN 17.672219
ETB 159.46198
FJD 2.632218
FKP 0.858629
GBP 0.857815
GEL 3.204535
GGP 0.858629
GHS 12.193706
GIP 0.858629
GMD 84.233194
GNF 10196.870185
GTQ 9.061257
GYD 246.421374
HKD 9.248403
HNL 30.871223
HRK 7.533907
HTG 154.539173
HUF 399.28026
IDR 19111.916078
ILS 3.985852
IMP 0.858629
INR 100.872442
IQD 1543.373817
IRR 49629.482794
ISK 142.603371
JEP 0.858629
JMD 189.255867
JOD 0.83529
JPY 169.249786
KES 152.565676
KGS 103.029595
KHR 4736.154516
KMF 493.644463
KPW 1060.431945
KRW 1598.876653
KWD 0.359536
KYD 0.981915
KZT 611.72213
LAK 25389.088251
LBP 105562.056017
LKR 353.57158
LRD 236.222384
LSL 20.848685
LTL 3.478764
LVL 0.71265
LYD 6.356109
MAD 10.582715
MDL 19.783939
MGA 5219.195316
MKD 61.519671
MMK 2473.197939
MNT 4222.627315
MOP 9.527455
MRU 46.831616
MUR 53.099902
MVR 18.141978
MWK 2045.893775
MXN 22.111009
MYR 4.945271
MZN 75.3547
NAD 20.865773
NGN 1808.126948
NIO 43.296875
NOK 11.877723
NPR 161.155297
NZD 1.934318
OMR 0.452981
PAB 1.178298
PEN 4.173592
PGK 4.864602
PHP 66.337973
PKR 334.299515
PLN 4.250679
PYG 9399.445377
QAR 4.28917
RON 5.070773
RSD 117.139711
RUB 92.488922
RWF 1689.464163
SAR 4.418374
SBD 9.82213
SCR 17.259451
SDG 707.477617
SEK 11.187074
SGD 1.500177
SHP 0.925839
SLE 26.449369
SLL 24705.177798
SOS 673.313866
SRD 43.897203
STD 24385.283936
SVC 10.31026
SYP 15318.23633
SZL 20.844291
THB 38.254145
TJS 11.635734
TMT 4.135299
TND 3.401903
TOP 2.759345
TRY 46.922104
TTD 7.974898
TWD 34.522095
TZS 3095.114843
UAH 49.307982
UGX 4235.835817
USD 1.178148
UYU 47.077035
UZS 14959.104588
VES 127.30344
VND 30785.005987
VUV 140.822024
WST 3.232242
XAF 654.345198
XAG 0.032589
XAU 0.000353
XCD 3.184004
XDR 0.820209
XOF 657.99454
XPF 119.331742
YER 285.406444
ZAR 20.760086
ZMK 10604.744772
ZMW 28.130708
ZWL 379.36316
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: HENRY NICHOLLS - AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

K.Dudek--TPP