The Prague Post - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

EUR -
AED 4.244736
AFN 76.325491
ALL 96.631264
AMD 442.620629
ANG 2.06889
AOA 1059.883377
ARS 1558.604411
AUD 1.790713
AWG 2.080469
AZN 1.960693
BAM 1.952803
BBD 2.329514
BDT 140.813867
BGN 1.954132
BHD 0.435746
BIF 3408.191898
BMD 1.155816
BND 1.501517
BOB 8.020689
BRL 6.32566
BSD 1.15662
BTN 102.491131
BWP 15.478176
BYN 3.934877
BYR 22653.992759
BZD 2.32612
CAD 1.625222
CDF 2756.620827
CHF 0.928692
CLF 0.028216
CLP 1106.901563
CNY 8.223342
CNH 8.261882
COP 4537.305796
CRC 582.024285
CUC 1.155816
CUP 30.629123
CVE 110.096015
CZK 24.333327
DJF 205.96298
DKK 7.467785
DOP 72.730569
DZD 150.928795
EGP 55.18073
ERN 17.337239
ETB 169.739341
FJD 2.638324
FKP 0.86713
GBP 0.870456
GEL 3.132157
GGP 0.86713
GHS 13.820787
GIP 0.86713
GMD 83.218587
GNF 10036.074807
GTQ 8.859402
GYD 241.978591
HKD 8.986683
HNL 30.377032
HRK 7.537422
HTG 151.329871
HUF 392.717395
IDR 19170.363464
ILS 3.84073
IMP 0.86713
INR 102.617906
IQD 1515.174384
IRR 48616.510036
ISK 141.584113
JEP 0.86713
JMD 185.873901
JOD 0.81943
JPY 175.722185
KES 149.32308
KGS 101.075695
KHR 4649.622003
KMF 491.221816
KPW 1040.244903
KRW 1655.579263
KWD 0.354824
KYD 0.963821
KZT 621.396229
LAK 25103.577528
LBP 103572.875747
LKR 349.952863
LRD 211.656048
LSL 20.027047
LTL 3.412824
LVL 0.699141
LYD 6.287322
MAD 10.594938
MDL 19.575039
MGA 5184.020706
MKD 61.621449
MMK 2426.486023
MNT 4159.146985
MOP 9.26478
MRU 46.195494
MUR 52.554738
MVR 17.694936
MWK 2005.612941
MXN 21.486093
MYR 4.888982
MZN 73.847255
NAD 20.026961
NGN 1689.583301
NIO 42.562462
NOK 11.748586
NPR 163.988843
NZD 2.031722
OMR 0.444417
PAB 1.156625
PEN 3.973601
PGK 4.858711
PHP 67.266149
PKR 327.457374
PLN 4.263181
PYG 8150.454743
QAR 4.228809
RON 5.087674
RSD 117.137338
RUB 91.803433
RWF 1678.815951
SAR 4.334892
SBD 9.512992
SCR 17.172797
SDG 695.223857
SEK 10.994294
SGD 1.503739
SHP 0.867161
SLE 26.821621
SLL 24236.882168
SOS 660.982609
SRD 44.839876
STD 23923.056729
STN 24.463298
SVC 10.120466
SYP 15028.436287
SZL 20.015192
THB 37.842543
TJS 10.623294
TMT 4.045356
TND 3.400581
TOP 2.707041
TRY 48.344938
TTD 7.85095
TWD 35.551763
TZS 2838.578795
UAH 48.149088
UGX 3966.911253
USD 1.155816
UYU 46.34886
UZS 14042.44648
VES 223.13944
VND 30464.996997
VUV 141.103323
WST 3.237553
XAF 654.948896
XAG 0.022313
XAU 0.000279
XCD 3.12365
XCG 2.084501
XDR 0.814546
XOF 654.948896
XPF 119.331742
YER 276.181902
ZAR 20.167515
ZMK 10403.726422
ZMW 26.283544
ZWL 372.172267
  • AEX

    -8.4700

    943.32

    -0.89%

  • BEL20

    -22.3700

    4948.98

    -0.45%

  • PX1

    -96.7900

    7837.2

    -1.22%

  • ISEQ

    -139.5700

    11491.06

    -1.2%

  • OSEBX

    -10.4900

    1628.1

    -0.64%

  • PSI20

    -52.6500

    8173.32

    -0.64%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    88.5400

    3954.85

    +2.29%

  • N150

    -49.2300

    3651.92

    -1.33%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

D.Dvorak--TPP