The Prague Post - IA aprende a mentir, manipular e ameaçar seus criadores

EUR -
AED 4.306155
AFN 75.042013
ALL 95.503749
AMD 434.754686
ANG 2.098711
AOA 1076.391259
ARS 1633.24963
AUD 1.628528
AWG 2.110572
AZN 1.994428
BAM 1.957787
BBD 2.362129
BDT 143.900142
BGN 1.955916
BHD 0.44281
BIF 3489.478703
BMD 1.17254
BND 1.496039
BOB 8.103811
BRL 5.808641
BSD 1.172805
BTN 111.252708
BWP 15.93833
BYN 3.309527
BYR 22981.781782
BZD 2.358715
CAD 1.592954
CDF 2720.292089
CHF 0.916051
CLF 0.026783
CLP 1054.113217
CNY 8.006395
CNH 8.009626
COP 4288.447382
CRC 533.195652
CUC 1.17254
CUP 31.072307
CVE 110.747092
CZK 24.365532
DJF 208.384054
DKK 7.468375
DOP 69.761033
DZD 155.366159
EGP 62.89473
ERN 17.588098
ETB 184.088968
FJD 2.570321
FKP 0.863715
GBP 0.862003
GEL 3.142366
GGP 0.863715
GHS 13.150693
GIP 0.863715
GMD 85.595094
GNF 10289.036793
GTQ 8.959971
GYD 245.356773
HKD 9.184384
HNL 31.212658
HRK 7.537044
HTG 153.631627
HUF 364.824037
IDR 20325.216788
ILS 3.451758
IMP 0.863715
INR 111.286347
IQD 1536.027252
IRR 1540717.411483
ISK 143.847284
JEP 0.863715
JMD 183.766485
JOD 0.831335
JPY 183.590446
KES 151.43396
KGS 102.504022
KHR 4704.810187
KMF 492.466903
KPW 1055.285869
KRW 1728.00758
KWD 0.36031
KYD 0.977363
KZT 543.223804
LAK 25772.426433
LBP 105000.946469
LKR 374.827135
LRD 215.600817
LSL 19.534944
LTL 3.462205
LVL 0.709257
LYD 7.445535
MAD 10.84746
MDL 20.206971
MGA 4866.040121
MKD 61.633956
MMK 2461.73592
MNT 4195.172462
MOP 9.463389
MRU 46.866318
MUR 55.144752
MVR 18.121573
MWK 2041.973347
MXN 20.470229
MYR 4.655255
MZN 74.934025
NAD 19.534297
NGN 1613.391652
NIO 43.044434
NOK 10.870379
NPR 177.995773
NZD 1.986851
OMR 0.451129
PAB 1.172775
PEN 4.112686
PGK 5.087357
PHP 71.84734
PKR 326.874774
PLN 4.25386
PYG 7213.027176
QAR 4.272145
RON 5.203851
RSD 117.378966
RUB 87.908347
RWF 1713.667045
SAR 4.397001
SBD 9.429695
SCR 16.118112
SDG 704.106632
SEK 10.846464
SGD 1.493933
SHP 0.875419
SLE 28.813145
SLL 24587.570662
SOS 669.520533
SRD 43.921037
STD 24269.208309
STN 24.869571
SVC 10.262421
SYP 129.594949
SZL 19.534782
THB 38.122751
TJS 11.000561
TMT 4.109752
TND 3.378967
TOP 2.823195
TRY 52.931382
TTD 7.960825
TWD 37.086845
TZS 3054.466613
UAH 51.532349
UGX 4409.907663
USD 1.17254
UYU 46.772051
UZS 14011.851495
VES 573.304883
VND 30903.461258
VUV 137.950946
WST 3.183667
XAF 656.67099
XAG 0.01556
XAU 0.000254
XCD 3.168847
XCG 2.113679
XDR 0.815654
XOF 656.622607
XPF 119.331742
YER 279.763574
ZAR 19.594668
ZMK 10554.258273
ZMW 21.901814
ZWL 377.557365
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: HENRY NICHOLLS - AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

K.Dudek--TPP