The Prague Post - IA aprende a mentir, manipular e ameaçar seus criadores

EUR -
AED 4.306273
AFN 77.383663
ALL 96.436312
AMD 447.301136
ANG 2.099207
AOA 1075.161802
ARS 1700.362176
AUD 1.773283
AWG 2.110459
AZN 1.990694
BAM 1.957582
BBD 2.362901
BDT 143.473659
BGN 1.956911
BHD 0.44205
BIF 3476.395101
BMD 1.172477
BND 1.514679
BOB 8.10669
BRL 6.474892
BSD 1.173193
BTN 105.848608
BWP 15.503575
BYN 3.442107
BYR 22980.554465
BZD 2.359538
CAD 1.615773
CDF 2654.488636
CHF 0.930965
CLF 0.02724
CLP 1068.607311
CNY 8.255705
CNH 8.247288
COP 4530.112147
CRC 584.544556
CUC 1.172477
CUP 31.070648
CVE 110.740403
CZK 24.353489
DJF 208.373063
DKK 7.47153
DOP 73.338506
DZD 152.075507
EGP 55.711664
ERN 17.587159
ETB 181.974686
FJD 2.687025
FKP 0.87569
GBP 0.876151
GEL 3.154102
GGP 0.87569
GHS 13.512803
GIP 0.87569
GMD 86.179501
GNF 10182.9649
GTQ 8.985371
GYD 245.452848
HKD 9.122119
HNL 30.695439
HRK 7.534694
HTG 153.653142
HUF 387.792754
IDR 19575.680476
ILS 3.762251
IMP 0.87569
INR 105.780958
IQD 1535.945222
IRR 49390.604928
ISK 148.024999
JEP 0.87569
JMD 187.714873
JOD 0.831253
JPY 182.450942
KES 151.131725
KGS 102.53368
KHR 4701.633502
KMF 493.612554
KPW 1055.222506
KRW 1730.764481
KWD 0.359834
KYD 0.97759
KZT 605.290977
LAK 25391.167702
LBP 104995.339736
LKR 362.980409
LRD 208.009094
LSL 19.621411
LTL 3.46202
LVL 0.70922
LYD 6.354679
MAD 10.757471
MDL 19.78501
MGA 5308.976711
MKD 61.575864
MMK 2462.269149
MNT 4159.48369
MOP 9.40312
MRU 46.617383
MUR 53.980847
MVR 18.126492
MWK 2037.766044
MXN 21.113972
MYR 4.788386
MZN 74.933015
NAD 19.62746
NGN 1709.330645
NIO 43.033988
NOK 11.913536
NPR 169.354158
NZD 2.030616
OMR 0.450719
PAB 1.173213
PEN 3.946589
PGK 4.982149
PHP 68.687224
PKR 328.58638
PLN 4.203801
PYG 7832.296492
QAR 4.269228
RON 5.090774
RSD 117.440326
RUB 93.706781
RWF 1702.436994
SAR 4.397752
SBD 9.544103
SCR 17.352346
SDG 705.247584
SEK 10.880841
SGD 1.512765
SHP 0.879662
SLE 28.25928
SLL 24586.26638
SOS 670.068055
SRD 45.349052
STD 24267.912238
STN 24.856518
SVC 10.265563
SYP 12965.682007
SZL 19.6274
THB 36.827995
TJS 10.834378
TMT 4.115395
TND 3.405454
TOP 2.823044
TRY 50.097258
TTD 7.96045
TWD 36.985761
TZS 2919.468831
UAH 49.551662
UGX 4190.904206
USD 1.172477
UYU 45.972828
UZS 14099.038756
VES 327.371366
VND 30865.464096
VUV 142.306971
WST 3.265015
XAF 656.554641
XAG 0.017948
XAU 0.000271
XCD 3.168678
XCG 2.114325
XDR 0.814801
XOF 654.241743
XPF 119.331742
YER 279.577104
ZAR 19.62289
ZMK 10553.699481
ZMW 26.69032
ZWL 377.537202
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: HENRY NICHOLLS - AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

K.Dudek--TPP