The Prague Post - ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo

EUR -
AED 4.241003
AFN 73.32143
ALL 96.264457
AMD 435.49084
ANG 2.066822
AOA 1058.764604
ARS 1597.949484
AUD 1.676973
AWG 2.078272
AZN 1.967396
BAM 1.962489
BBD 2.325728
BDT 141.683564
BGN 1.973561
BHD 0.435685
BIF 3427.417086
BMD 1.154596
BND 1.486969
BOB 8.008298
BRL 6.067751
BSD 1.154731
BTN 109.448969
BWP 15.919471
BYN 3.437216
BYR 22630.074075
BZD 2.322286
CAD 1.604831
CDF 2635.36902
CHF 0.921949
CLF 0.027055
CLP 1068.301597
CNY 7.980392
CNH 7.989998
COP 4249.2467
CRC 536.225485
CUC 1.154596
CUP 30.596784
CVE 110.98555
CZK 24.603629
DJF 205.195187
DKK 7.496448
DOP 68.95827
DZD 153.879614
EGP 60.780401
ERN 17.318934
ETB 180.838585
FJD 2.609838
FKP 0.868614
GBP 0.870276
GEL 3.094767
GGP 0.868614
GHS 12.666364
GIP 0.868614
GMD 84.867224
GNF 10137.349919
GTQ 8.837161
GYD 241.720221
HKD 9.035924
HNL 30.608778
HRK 7.557064
HTG 151.366612
HUF 390.276858
IDR 19617.503194
ILS 3.622683
IMP 0.868614
INR 109.529794
IQD 1512.520257
IRR 1516272.693223
ISK 144.047794
JEP 0.868614
JMD 181.759555
JOD 0.818654
JPY 185.080568
KES 149.986359
KGS 100.96983
KHR 4632.238016
KMF 494.167328
KPW 1039.005581
KRW 1741.130593
KWD 0.355512
KYD 0.962293
KZT 558.235579
LAK 25285.644395
LBP 103394.037822
LKR 363.741444
LRD 212.012665
LSL 19.813301
LTL 3.409221
LVL 0.698404
LYD 7.360592
MAD 10.789123
MDL 20.282399
MGA 4820.437097
MKD 61.637435
MMK 2427.526343
MNT 4123.646826
MOP 9.31702
MRU 46.322813
MUR 54.000874
MVR 17.838939
MWK 2005.532983
MXN 20.922547
MYR 4.530678
MZN 73.836825
NAD 19.813296
NGN 1597.337286
NIO 42.397186
NOK 11.20288
NPR 175.114145
NZD 2.009741
OMR 0.444613
PAB 1.154721
PEN 3.994328
PGK 4.975197
PHP 69.911197
PKR 322.367369
PLN 4.298271
PYG 7549.734427
QAR 4.218027
RON 5.111746
RSD 117.558661
RUB 94.006614
RWF 1686.864195
SAR 4.332448
SBD 9.285301
SCR 16.659944
SDG 693.912357
SEK 10.938258
SGD 1.492666
SHP 0.866246
SLE 28.345751
SLL 24211.30527
SOS 659.855623
SRD 43.413994
STD 23897.798134
STN 24.650616
SVC 10.103439
SYP 129.111885
SZL 19.813287
THB 37.940438
TJS 11.033396
TMT 4.041085
TND 3.37839
TOP 2.779989
TRY 51.302613
TTD 7.845709
TWD 36.998328
TZS 2974.800639
UAH 50.614226
UGX 4301.662877
USD 1.154596
UYU 46.739318
UZS 14091.83988
VES 540.268027
VND 30409.162038
VUV 138.27014
WST 3.204592
XAF 658.200578
XAG 0.0165
XAU 0.000256
XCD 3.120353
XCG 2.081103
XDR 0.816058
XOF 655.810693
XPF 119.331742
YER 275.490657
ZAR 19.766671
ZMK 10392.750198
ZMW 21.737094
ZWL 371.779317
ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo
ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo / foto: Kirill Kudryavtsev - AFP/Arquivos

ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo

Os grandes modelos de linguagem (LLM, na sigla em inglês), como o ChatGPT, um dos sistemas de inteligência artificial (IA) mais populares do mundo, ainda seguem tendo dificuldades para raciocinar usando a lógica e cometem erros frequentes, de acordo com um estudo.

Tamanho do texto:

Estes robôs conversacionais refletem os preconceitos de gênero, éticos e morais dos humanos presentes nos textos dos quais se alimentam, recorda o estudo publicado na quarta-feira (5) na revista Open Science da Royal Society britânica.

Mas eles também refletem estes preconceitos nos testes de raciocínio?, questionou Olivia Macmillan-Scott, doutoranda do departamento de Ciências da Computação da University College de Londres (UCL).

O resultado da pesquisa é que os LLM mostram "um raciocínio muitas vezes irracional, mas de uma forma diferente da dos humanos", explica a pesquisadora à AFP.

Sob a supervisão de Mirco Musolesi, professor e diretor do Machine Intelligence Lab da UCL, Macmillan-Scott apresentou sete modelos de linguagem — duas versões do ChatGPT (3.5 e 4), da OpenAI, Bard, do Google, Claude 2, da Anthropic, e três versões de LLaMA, da Meta — a uma série de testes psicológicos desenvolvidos para humanos.

Como esta tecnologia aborda o preconceito que leva a privilegiar soluções com um maior número de elementos, em detrimento daquelas com uma proporção adequada?

Um exemplo: se tivermos uma urna com nove bolinhas brancas e uma vermelha e outra urna com 92 bolinhas brancas e 8 vermelhas, qual devemos escolher para ter a melhor chance de obter uma bolinha vermelha?

A resposta correta é a primeira urna, visto que há 10% de possibilidades frente a 8% da segunda opção.

As respostas dos modelos de linguagem foram muito inconsistentes. Alguns responderam corretamente ao mesmo teste seis em cada dez vezes. Outros apenas duas em cada dez, embora o teste não tenha mudado. "Cada vez obtemos uma resposta diferente", diz a pesquisadora.

Os LLM "podem ser bons para resolver uma equação matemática complicada, mas logo te dizem que 7 mais 3 é igual a 12", constatou.

- "Não tenho muita certeza" -

Estes modelos "não falham nestas tarefas da mesma forma que um humano", afirma o estudo. É o que Musolesi chama de "erros de máquina".

"Existe uma forma de raciocínio lógico que é potencialmente correta se a considerarmos por etapas, mas que é errada tomada como um todo", ressalta.

A máquina funciona com "uma espécie de pensamento linear", diz o professor, e cita o modelo Bard (atual Gemini), capaz de realizar corretamente as diferentes fases de uma tarefa, mas que obtém um resultado final incorreto por não ter uma visão geral.

Sobre esta questão, o professor de ciências da computação Maxime Amblard, da University of Lorraine, na França, recorda que os LLM, como todas as inteligências artificiais generativas, não funcionam como os humanos".

Os humanos são "máquinas capazes de criar significado", o que as máquinas não conseguem, explica à AFP.

Existem diferenças entre os diferentes modelos de linguagem e em geral, o GPT-4, sem ser infalível, obteve resultados melhores que os demais.

Macmillan-Scott suspeita que os modelos "fechados", cujo código operacional permanece secreto, "incorporam mecanismos em segundo plano" para responder a questões matemáticas.

De toda forma, neste momento é impensável confiar uma decisão importante a um LLM. Segundo o professor Musolesi, eles deveriam ser treinados para responder "não tenho muita certeza" quando necessário.

G.Turek--TPP