The Prague Post - IA aprende a mentir, manipular e ameaçar seus criadores

EUR -
AED 4.358686
AFN 77.145243
ALL 96.636973
AMD 452.900547
ANG 2.124546
AOA 1088.336435
ARS 1725.464149
AUD 1.707235
AWG 2.139287
AZN 2.013799
BAM 1.955354
BBD 2.406161
BDT 145.986713
BGN 1.993151
BHD 0.450405
BIF 3539.352612
BMD 1.186844
BND 1.512981
BOB 8.255118
BRL 6.245411
BSD 1.194492
BTN 109.70591
BWP 15.629658
BYN 3.402638
BYR 23262.149846
BZD 2.402662
CAD 1.618648
CDF 2688.202567
CHF 0.917039
CLF 0.026071
CLP 1029.433075
CNY 8.250645
CNH 8.248248
COP 4355.422163
CRC 591.57508
CUC 1.186844
CUP 31.451376
CVE 110.240328
CZK 24.360569
DJF 212.73239
DKK 7.467503
DOP 75.214117
DZD 154.438388
EGP 55.90725
ERN 17.802666
ETB 185.585211
FJD 2.616576
FKP 0.866911
GBP 0.867168
GEL 3.19856
GGP 0.866911
GHS 13.087071
GIP 0.866911
GMD 86.639448
GNF 10482.786402
GTQ 9.162988
GYD 249.935117
HKD 9.268638
HNL 31.532341
HRK 7.53326
HTG 156.346985
HUF 381.685626
IDR 19929.431485
ILS 3.66783
IMP 0.866911
INR 109.139241
IQD 1565.043144
IRR 49995.819691
ISK 144.996819
JEP 0.866911
JMD 187.210468
JOD 0.841466
JPY 184.045735
KES 154.23072
KGS 103.78971
KHR 4803.985566
KMF 492.540492
KPW 1068.159944
KRW 1728.763412
KWD 0.364266
KYD 0.995565
KZT 600.827939
LAK 25709.354463
LBP 106980.457386
LKR 369.447316
LRD 215.332715
LSL 18.968635
LTL 3.504443
LVL 0.71791
LYD 7.496322
MAD 10.836529
MDL 20.093588
MGA 5338.805156
MKD 61.625948
MMK 2492.763063
MNT 4232.739691
MOP 9.606809
MRU 47.666934
MUR 53.894966
MVR 18.34888
MWK 2071.536383
MXN 20.742444
MYR 4.678488
MZN 75.673253
NAD 18.968315
NGN 1657.879276
NIO 43.960717
NOK 11.448953
NPR 175.530934
NZD 1.971295
OMR 0.457938
PAB 1.194628
PEN 3.994189
PGK 5.113942
PHP 69.865996
PKR 334.192385
PLN 4.215357
PYG 8002.209077
QAR 4.355625
RON 5.095363
RSD 117.373237
RUB 90.539571
RWF 1743.046616
SAR 4.451618
SBD 9.556012
SCR 17.136845
SDG 713.89198
SEK 10.574663
SGD 1.508331
SHP 0.890441
SLE 28.870014
SLL 24887.532355
SOS 682.755826
SRD 45.160023
STD 24565.282435
STN 24.494931
SVC 10.452529
SYP 13125.994308
SZL 18.96052
THB 37.452649
TJS 11.152051
TMT 4.153955
TND 3.432432
TOP 2.857636
TRY 51.635564
TTD 8.111185
TWD 37.507823
TZS 3076.276554
UAH 51.202541
UGX 4271.044125
USD 1.186844
UYU 46.360015
UZS 14604.669895
VES 410.578618
VND 30777.24846
VUV 140.986971
WST 3.217275
XAF 655.824039
XAG 0.014548
XAU 0.000252
XCD 3.207506
XCG 2.153009
XDR 0.815617
XOF 655.810227
XPF 119.331742
YER 282.854672
ZAR 19.202781
ZMK 10683.018904
ZMW 23.444753
ZWL 382.163406
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: HENRY NICHOLLS - AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

K.Dudek--TPP