-
Birmanie: le nouveau Parlement se réunit à l'ombre de la junte
-
Trump veut enrôler ses alliés et la Chine dans le détroit d'Ormuz
-
Des Sud-Coréens jubilent après les Oscars de "Kpop Demon Hunters"
-
"Une bataille après l'autre" triomphe aux Oscars devant "Sinners"
-
Le Michelin dévoile ses nouvelles étoiles à Monaco
-
Nicolas Sarkozy affronte le procès en appel du financement libyen
-
Pétrole: le Japon débloque ses stocks stratégiques
-
"Une bataille après l'autre" démarre fort aux Oscars, "Sinners" réplique
-
Espagne: Joan Laporta réélu président du FC Barcelone
-
Les Oscars débutent pour un duel serré entre "Une bataille après l'autre" et "Sinners"
-
Italie: l'AC Milan s'incline contre la Lazio et laisse filer l'Inter
-
Milan Cortina referme la page des Jeux d'hiver 2026, la France prend le relais
-
WTA 1000 d'Indian Wells: Sabalenka prend sa revanche sur Rybakina pour un premier titre
-
Fin du vote pour la présidentielle au Congo, timide affluence à Brazzaville
-
Espagne: le Barça s'offre une "manita" et repousse encore le Real
-
Le pape critique ceux qui invoquent la religion pour faire la guerre
-
Pétrole: des stocks stratégiques débloqués "immédiatement" en Asie et en Océanie
-
Paris-Nice: Vingegaard se rappelle au bon souvenir de Pogacar
-
Elections en Hongrie: les partisans d'Orban et Magyar défilent dans un contexte électoral tendu
-
Pétrole: des stocks stratégiques vont être débloqués "immédiatement" en Asie et en Océanie (AIE)
-
L'épave d'un méthanier russe se rapproche de Malte
-
Cyclisme: Jonas Vingegaard remporte Paris-Nice, Lenny Martinez la dernière étape
-
Milan referme la page des Paralympiques, bilan "frustrant" pour les Bleus
-
Le Pakistan affirme avoir frappé des sites militaires en Afghanistan
-
Santiags et chapeau de cowboy: la country plus tendance que jamais chez les jeunes Britanniques
-
Elections en Hongrie: les partisans d'Orban et Magyar défilent dimanche dans un contexte électoral tendu
-
Dubaï polit son image pour tenter de préserver sa réputation de ville sûre malgré la guerre
-
Bruno Salomone, acteur dans "Fais pas ci, fais pas ça", est décédé à 55 ans
-
Vote pour la présidentielle au Congo avec une timide affluence à Brazzaville
-
Ski: Shiffrin remporte le slalom d'Are devant Aicher, suspense pour le gros globe
-
Le pape renouvelle son appel à la paix au Moyen-Orient
-
Premier tour des municipales: timide participation à mi-journée, suspense dans les grandes villes
-
L'Iran met en garde les autres nations contre "toute action" pouvant étendre la guerre
-
XV de France: LBB, Ramos, Meafou... les hommes du titre
-
Zelensky dénonce le "chantage" européen envers Kiev sur la réouverture de l'oléoduc Droujba
-
F1: Antonelli offre la victoire à Mercedes en Chine et décroche son premier succès à 19 ans
-
Six Nations: derrière le titre, des Bleus très contrastés, entre folie offensive et largesse défensive
-
Trump "ne veut pas" d'un accord avec l'Iran, malgré le coût de la guerre
-
Kazakhstan: référendum censé assouplir un système politique à la main du président
-
En Cisjordanie, une vague de violences meurtrières menées par des colons israéliens
-
Covid long: marginale, la piste psychologique reste portée par certains chercheurs
-
Victime d'arnaque aux cryptomonnaies, un Singapourien veut conjurer "la honte"
-
Au Pakistan, les gravures remplacent les photos dans les cimetières chiites
-
L'Iran continue à cibler ses voisins du Golfe, de fortes explosions au Bahreïn
-
Premier tour des municipales, suspense maximum dans les grandes villes
-
NBA: Wembanyama impressionne encore, clame son envie d'être MVP
-
"Une bataille après l'autre" ou "Sinners"? C'est l'heure du verdict aux Oscars
-
Jour de vote pour la présidentielle au Congo-Brazzaville, Sassou Nguesso largement favori
-
Les Vietnamiens fatalistes à l'heure des élections législatives
-
La guerre au Moyen-Orient entraîne l'annulation de Grands Prix de F1 dans le Golfe
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.
Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.
Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.
Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.
o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).
Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.
Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.
"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."
Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.
Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.
Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).
Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.
Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.
- L'IA en justice? -
"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.
Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.
Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.
"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".
Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.
Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.
Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.
Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".
Y.Kobayashi--AMWN