The Prague Post - ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo

EUR -
AED 4.303675
AFN 80.848492
ALL 97.312739
AMD 449.576417
ANG 2.097205
AOA 1074.462655
ARS 1550.139863
AUD 1.789122
AWG 2.110845
AZN 2.027591
BAM 1.957104
BBD 2.367206
BDT 142.454882
BGN 1.957697
BHD 0.44173
BIF 3462.419058
BMD 1.171715
BND 1.500655
BOB 8.101465
BRL 6.317184
BSD 1.172446
BTN 102.526162
BWP 15.647088
BYN 3.876666
BYR 22965.622178
BZD 2.355089
CAD 1.613048
CDF 3386.257874
CHF 0.942264
CLF 0.028527
CLP 1119.152307
CNY 8.41198
CNH 8.40997
COP 4712.428499
CRC 592.977238
CUC 1.171715
CUP 31.050459
CVE 110.338491
CZK 24.454519
DJF 208.774599
DKK 7.462486
DOP 71.637714
DZD 152.079225
EGP 56.614972
ERN 17.575731
ETB 164.209172
FJD 2.633138
FKP 0.867461
GBP 0.863619
GEL 3.15771
GGP 0.867461
GHS 12.457404
GIP 0.867461
GMD 84.949632
GNF 10166.771545
GTQ 8.992721
GYD 245.284998
HKD 9.197878
HNL 30.735471
HRK 7.533657
HTG 153.467632
HUF 395.343224
IDR 18862.157615
ILS 3.960158
IMP 0.867461
INR 102.468564
IQD 1535.922997
IRR 49358.512335
ISK 143.195359
JEP 0.867461
JMD 187.895147
JOD 0.830768
JPY 172.379846
KES 151.479674
KGS 102.349165
KHR 4695.20737
KMF 493.879832
KPW 1054.470683
KRW 1614.787767
KWD 0.357877
KYD 0.97703
KZT 630.935617
LAK 25382.122304
LBP 104960.00405
LKR 352.754951
LRD 235.064527
LSL 20.526772
LTL 3.459771
LVL 0.70876
LYD 6.370243
MAD 10.561234
MDL 19.573619
MGA 5170.487914
MKD 61.579175
MMK 2459.706324
MNT 4213.945705
MOP 9.479428
MRU 46.792166
MUR 53.230828
MVR 18.044918
MWK 2033.045428
MXN 21.818571
MYR 4.92999
MZN 74.942741
NAD 20.526772
NGN 1796.67353
NIO 43.148739
NOK 11.947244
NPR 164.041659
NZD 1.959538
OMR 0.450554
PAB 1.172391
PEN 4.132252
PGK 4.949296
PHP 66.335551
PKR 332.72421
PLN 4.25342
PYG 8781.849122
QAR 4.275548
RON 5.060051
RSD 117.173915
RUB 93.153351
RWF 1696.493747
SAR 4.396763
SBD 9.643912
SCR 16.573885
SDG 703.620657
SEK 11.175904
SGD 1.499591
SHP 0.920784
SLE 27.187579
SLL 24570.286982
SOS 670.057727
SRD 43.843833
STD 24252.143453
STN 24.515596
SVC 10.258833
SYP 15234.585294
SZL 20.521844
THB 37.795434
TJS 10.932508
TMT 4.112721
TND 3.447396
TOP 2.744277
TRY 47.751154
TTD 7.962065
TWD 35.060658
TZS 3052.318817
UAH 48.679423
UGX 4171.653906
USD 1.171715
UYU 46.951272
UZS 14666.768754
VES 155.54821
VND 30804.398319
VUV 140.078676
WST 3.114567
XAF 656.405401
XAG 0.030442
XAU 0.000348
XCD 3.166619
XCG 2.113025
XDR 0.82294
XOF 656.394189
XPF 119.331742
YER 281.533921
ZAR 20.509883
ZMK 10546.845765
ZMW 26.99521
ZWL 377.291886
ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo
ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo / foto: Kirill Kudryavtsev - AFP/Arquivos

ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo

Os grandes modelos de linguagem (LLM, na sigla em inglês), como o ChatGPT, um dos sistemas de inteligência artificial (IA) mais populares do mundo, ainda seguem tendo dificuldades para raciocinar usando a lógica e cometem erros frequentes, de acordo com um estudo.

Tamanho do texto:

Estes robôs conversacionais refletem os preconceitos de gênero, éticos e morais dos humanos presentes nos textos dos quais se alimentam, recorda o estudo publicado na quarta-feira (5) na revista Open Science da Royal Society britânica.

Mas eles também refletem estes preconceitos nos testes de raciocínio?, questionou Olivia Macmillan-Scott, doutoranda do departamento de Ciências da Computação da University College de Londres (UCL).

O resultado da pesquisa é que os LLM mostram "um raciocínio muitas vezes irracional, mas de uma forma diferente da dos humanos", explica a pesquisadora à AFP.

Sob a supervisão de Mirco Musolesi, professor e diretor do Machine Intelligence Lab da UCL, Macmillan-Scott apresentou sete modelos de linguagem — duas versões do ChatGPT (3.5 e 4), da OpenAI, Bard, do Google, Claude 2, da Anthropic, e três versões de LLaMA, da Meta — a uma série de testes psicológicos desenvolvidos para humanos.

Como esta tecnologia aborda o preconceito que leva a privilegiar soluções com um maior número de elementos, em detrimento daquelas com uma proporção adequada?

Um exemplo: se tivermos uma urna com nove bolinhas brancas e uma vermelha e outra urna com 92 bolinhas brancas e 8 vermelhas, qual devemos escolher para ter a melhor chance de obter uma bolinha vermelha?

A resposta correta é a primeira urna, visto que há 10% de possibilidades frente a 8% da segunda opção.

As respostas dos modelos de linguagem foram muito inconsistentes. Alguns responderam corretamente ao mesmo teste seis em cada dez vezes. Outros apenas duas em cada dez, embora o teste não tenha mudado. "Cada vez obtemos uma resposta diferente", diz a pesquisadora.

Os LLM "podem ser bons para resolver uma equação matemática complicada, mas logo te dizem que 7 mais 3 é igual a 12", constatou.

- "Não tenho muita certeza" -

Estes modelos "não falham nestas tarefas da mesma forma que um humano", afirma o estudo. É o que Musolesi chama de "erros de máquina".

"Existe uma forma de raciocínio lógico que é potencialmente correta se a considerarmos por etapas, mas que é errada tomada como um todo", ressalta.

A máquina funciona com "uma espécie de pensamento linear", diz o professor, e cita o modelo Bard (atual Gemini), capaz de realizar corretamente as diferentes fases de uma tarefa, mas que obtém um resultado final incorreto por não ter uma visão geral.

Sobre esta questão, o professor de ciências da computação Maxime Amblard, da University of Lorraine, na França, recorda que os LLM, como todas as inteligências artificiais generativas, não funcionam como os humanos".

Os humanos são "máquinas capazes de criar significado", o que as máquinas não conseguem, explica à AFP.

Existem diferenças entre os diferentes modelos de linguagem e em geral, o GPT-4, sem ser infalível, obteve resultados melhores que os demais.

Macmillan-Scott suspeita que os modelos "fechados", cujo código operacional permanece secreto, "incorporam mecanismos em segundo plano" para responder a questões matemáticas.

De toda forma, neste momento é impensável confiar uma decisão importante a um LLM. Segundo o professor Musolesi, eles deveriam ser treinados para responder "não tenho muita certeza" quando necessário.

G.Turek--TPP