The Prague Post - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

EUR -
AED 4.303863
AFN 82.246499
ALL 98.021992
AMD 449.671513
ANG 2.097286
AOA 1074.646617
ARS 1391.811212
AUD 1.792193
AWG 2.112377
AZN 1.996908
BAM 1.955241
BBD 2.364524
BDT 143.229075
BGN 1.955241
BHD 0.441774
BIF 3488.003358
BMD 1.171915
BND 1.494273
BOB 8.091688
BRL 6.421514
BSD 1.171065
BTN 100.139387
BWP 15.656526
BYN 3.832405
BYR 22969.536814
BZD 2.352328
CAD 1.606755
CDF 3376.287953
CHF 0.947843
CLF 0.028433
CLP 1091.108233
CNY 8.405566
CNH 8.406054
COP 4731.24812
CRC 590.631236
CUC 1.171915
CUP 31.055751
CVE 110.233503
CZK 24.729407
DJF 208.540413
DKK 7.459948
DOP 69.670093
DZD 151.08583
EGP 58.232361
ERN 17.578727
ETB 158.200997
FJD 2.626555
FKP 0.854054
GBP 0.864978
GEL 3.188067
GGP 0.854054
GHS 12.121536
GIP 0.854054
GMD 83.796446
GNF 10146.100911
GTQ 9.006427
GYD 244.900024
HKD 9.197237
HNL 30.599257
HRK 7.534833
HTG 153.526132
HUF 398.896931
IDR 19027.50725
ILS 3.968937
IMP 0.854054
INR 100.146599
IQD 1534.061666
IRR 49366.925837
ISK 141.989691
JEP 0.854054
JMD 187.676374
JOD 0.830934
JPY 169.511712
KES 151.356752
KGS 102.418398
KHR 4694.658575
KMF 492.794764
KPW 1054.723659
KRW 1598.902875
KWD 0.35836
KYD 0.975921
KZT 609.225923
LAK 25253.784127
LBP 104926.318947
LKR 351.19965
LRD 234.213077
LSL 20.971708
LTL 3.460361
LVL 0.70888
LYD 6.342188
MAD 10.573479
MDL 19.832333
MGA 5148.528888
MKD 61.512424
MMK 2460.630022
MNT 4200.040247
MOP 9.469694
MRU 46.702655
MUR 52.924131
MVR 18.051875
MWK 2030.619782
MXN 22.100021
MYR 4.955448
MZN 74.956135
NAD 20.971708
NGN 1809.132725
NIO 43.097686
NOK 11.809718
NPR 160.223219
NZD 1.935291
OMR 0.448972
PAB 1.171065
PEN 4.156612
PGK 4.83062
PHP 66.342555
PKR 332.139896
PLN 4.240788
PYG 9345.329718
QAR 4.26858
RON 5.081311
RSD 117.146527
RUB 92.123677
RWF 1691.016818
SAR 4.393245
SBD 9.782372
SCR 17.186389
SDG 703.739351
SEK 11.120893
SGD 1.494237
SHP 0.920941
SLE 26.372388
SLL 24574.478898
SOS 669.208784
SRD 44.293749
STD 24256.277385
SVC 10.247072
SYP 15237.070983
SZL 20.967009
THB 38.151742
TJS 11.546601
TMT 4.113422
TND 3.423522
TOP 2.744747
TRY 46.659846
TTD 7.948729
TWD 34.106291
TZS 3085.918247
UAH 48.826249
UGX 4209.797116
USD 1.171915
UYU 47.17652
UZS 14739.788336
VES 124.930261
VND 30581.125672
VUV 139.344264
WST 3.208104
XAF 655.769624
XAG 0.032565
XAU 0.000358
XCD 3.16716
XDR 0.815567
XOF 655.769624
XPF 119.331742
YER 283.896869
ZAR 20.941843
ZMK 10548.646794
ZMW 27.725078
ZWL 377.356198
  • AEX

    9.4700

    920.14

    +1.04%

  • BEL20

    38.0000

    4509.03

    +0.85%

  • PX1

    134.5200

    7691.55

    +1.78%

  • ISEQ

    135.1600

    11398.19

    +1.2%

  • OSEBX

    10.2200

    1607.73

    +0.64%

  • PSI20

    92.1500

    7523.59

    +1.24%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    4.2300

    2493.06

    +0.17%

  • N150

    29.3400

    3607.8

    +0.82%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

D.Dvorak--TPP