The Prague Post - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

EUR -
AED 4.302284
AFN 73.79152
ALL 95.519449
AMD 435.016244
ANG 2.096485
AOA 1075.24958
ARS 1645.097597
AUD 1.631275
AWG 2.109797
AZN 1.981892
BAM 1.958678
BBD 2.358646
BDT 144.010393
BGN 1.953842
BHD 0.441885
BIF 3484.606239
BMD 1.171296
BND 1.495285
BOB 8.091856
BRL 5.851328
BSD 1.171011
BTN 110.654662
BWP 15.838139
BYN 3.304027
BYR 22957.405813
BZD 2.355251
CAD 1.602275
CDF 2720.332915
CHF 0.924557
CLF 0.026533
CLP 1044.257244
CNY 8.008679
CNH 8.011319
COP 4228.484753
CRC 532.678221
CUC 1.171296
CUP 31.03935
CVE 110.573169
CZK 24.35898
DJF 208.162768
DKK 7.472794
DOP 69.39913
DZD 155.197898
EGP 61.862878
ERN 17.569443
ETB 184.332752
FJD 2.573804
FKP 0.864375
GBP 0.866536
GEL 3.156613
GGP 0.864375
GHS 13.048374
GIP 0.864375
GMD 86.090628
GNF 10281.049662
GTQ 8.947071
GYD 245.000027
HKD 9.178453
HNL 31.179575
HRK 7.534009
HTG 153.404117
HUF 363.828077
IDR 20206.148134
ILS 3.462301
IMP 0.864375
INR 110.85774
IQD 1534.398042
IRR 1541425.818283
ISK 143.202224
JEP 0.864375
JMD 184.511138
JOD 0.830463
JPY 186.888564
KES 151.212171
KGS 102.405963
KHR 4696.898074
KMF 493.115923
KPW 1054.161689
KRW 1725.788327
KWD 0.360267
KYD 0.975926
KZT 536.774205
LAK 25704.095103
LBP 104948.141179
LKR 373.27534
LRD 215.225644
LSL 19.367393
LTL 3.458533
LVL 0.708505
LYD 7.431886
MAD 10.84181
MDL 20.25359
MGA 4859.707991
MKD 61.630591
MMK 2459.768137
MNT 4212.39697
MOP 9.45265
MRU 46.852263
MUR 54.793673
MVR 18.096215
MWK 2039.226662
MXN 20.366035
MYR 4.629553
MZN 74.8578
NAD 19.385473
NGN 1610.051947
NIO 43.004161
NOK 10.924685
NPR 177.047659
NZD 1.99224
OMR 0.450368
PAB 1.171016
PEN 4.118327
PGK 5.088989
PHP 71.536886
PKR 326.469566
PLN 4.248467
PYG 7340.724493
QAR 4.267324
RON 5.095253
RSD 117.349849
RUB 88.216818
RWF 1710.678122
SAR 4.393361
SBD 9.400748
SCR 16.337831
SDG 703.366245
SEK 10.85663
SGD 1.495983
SHP 0.874491
SLE 28.843226
SLL 24561.491489
SOS 669.395643
SRD 43.882586
STD 24243.466812
STN 24.890045
SVC 10.24697
SYP 129.485942
SZL 19.385253
THB 38.068064
TJS 10.984542
TMT 4.105393
TND 3.377726
TOP 2.8202
TRY 52.783411
TTD 7.962633
TWD 36.927473
TZS 3054.298954
UAH 51.608197
UGX 4356.364467
USD 1.171296
UYU 46.217522
UZS 14137.545157
VES 567.631891
VND 30861.312672
VUV 138.477201
WST 3.195077
XAF 656.916728
XAG 0.016026
XAU 0.000255
XCD 3.165486
XCG 2.110483
XDR 0.817235
XOF 655.342887
XPF 119.331742
YER 279.530362
ZAR 19.373273
ZMK 10543.070433
ZMW 22.218555
ZWL 377.156903
  • AEX

    -7.8700

    1001.01

    -0.78%

  • BEL20

    -20.8900

    5334.76

    -0.39%

  • PX1

    -37.4500

    8104.09

    -0.46%

  • ISEQ

    64.7800

    12286.69

    +0.53%

  • OSEBX

    6.7500

    1993.31

    +0.34%

  • PSI20

    87.1900

    9265.14

    +0.95%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    -55.5400

    3883.5

    -1.41%

  • N150

    0.8200

    4105.76

    +0.02%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

D.Dvorak--TPP