The Prague Post - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

EUR -
AED 4.251688
AFN 74.082723
ALL 94.918369
AMD 426.182029
ANG 2.072456
AOA 1062.618368
ARS 1653.343639
AUD 1.642361
AWG 2.08533
AZN 1.972406
BAM 1.955844
BBD 2.331152
BDT 142.363184
BGN 1.957255
BHD 0.436512
BIF 3462.189832
BMD 1.157536
BND 1.486033
BOB 7.998144
BRL 5.858873
BSD 1.157426
BTN 110.030936
BWP 15.581281
BYN 3.202372
BYR 22687.703345
BZD 2.327842
CAD 1.62003
CDF 2656.545275
CHF 0.922472
CLF 0.026526
CLP 1043.993648
CNY 7.838259
CNH 7.828948
COP 4040.193801
CRC 526.5095
CUC 1.157536
CUP 30.674701
CVE 110.689416
CZK 24.163219
DJF 205.717733
DKK 7.47896
DOP 67.895314
DZD 154.186142
EGP 60.014268
ERN 17.363038
ETB 184.192944
FJD 2.588834
FKP 0.868035
GBP 0.863253
GEL 3.073304
GGP 0.868035
GHS 12.853112
GIP 0.868035
GMD 84.500531
GNF 10160.275685
GTQ 8.823197
GYD 242.154369
HKD 9.07051
HNL 30.935193
HRK 7.539962
HTG 151.333384
HUF 352.180742
IDR 20580.17776
ILS 3.380954
IMP 0.868035
INR 110.165527
IQD 1516.372009
IRR 1592627.583987
ISK 144.287295
JEP 0.868035
JMD 183.464103
JOD 0.820739
JPY 185.487069
KES 149.843465
KGS 101.226958
KHR 4641.719304
KMF 493.110692
KPW 1041.782702
KRW 1756.034072
KWD 0.357077
KYD 0.964617
KZT 565.985101
LAK 25494.72827
LBP 103657.338902
LKR 388.028677
LRD 210.961357
LSL 18.845126
LTL 3.417903
LVL 0.700182
LYD 7.379337
MAD 10.715893
MDL 20.214365
MGA 4861.651118
MKD 61.644248
MMK 2429.493907
MNT 4143.310278
MOP 9.34179
MRU 46.348175
MUR 54.694009
MVR 17.895943
MWK 2009.482696
MXN 19.936129
MYR 4.696822
MZN 73.97086
NAD 18.845121
NGN 1574.831883
NIO 42.394797
NOK 11.012222
NPR 176.048937
NZD 1.985142
OMR 0.444785
PAB 1.157421
PEN 3.936824
PGK 4.978606
PHP 70.344658
PKR 322.146521
PLN 4.248099
PYG 7087.158484
QAR 4.220087
RON 5.239128
RSD 117.417012
RUB 83.873777
RWF 1693.475
SAR 4.344931
SBD 9.313039
SCR 16.946756
SDG 695.104554
SEK 10.971924
SGD 1.486744
SHP 0.864217
SLE 28.533689
SLL 24272.952982
SOS 661.535997
SRD 43.418597
STD 23958.655763
STN 24.713391
SVC 10.127226
SYP 127.94487
SZL 18.845111
THB 37.932878
TJS 10.787295
TMT 4.062951
TND 3.378558
TOP 2.787069
TRY 53.54229
TTD 7.862142
TWD 36.603025
TZS 3035.641375
UAH 51.86346
UGX 4340.097054
USD 1.157536
UYU 46.75044
UZS 13378.225178
VES 673.637084
VND 30454.769133
VUV 138.694739
WST 3.180909
XAF 655.971669
XAG 0.017019
XAU 0.000275
XCD 3.128299
XCG 2.085947
XDR 0.816203
XOF 655.748238
XPF 119.331742
YER 276.192216
ZAR 18.883271
ZMK 10419.216157
ZMW 20.220365
ZWL 372.726083
  • AEX

    18.0700

    1081.18

    +1.7%

  • BEL20

    90.3500

    5737.19

    +1.6%

  • PX1

    150.0700

    8350.87

    +1.83%

  • ISEQ

    304.6100

    13491.29

    +2.31%

  • OSEBX

    -6.6100

    1995.22

    -0.33%

  • PSI20

    68.5900

    9093.82

    +0.76%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    45.9400

    4299.68

    +1.08%

  • N150

    56.8400

    4266.89

    +1.35%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

D.Dvorak--TPP