-
Menacée par le manque d'eau, la Grèce annonce un plan de 2,5 milliards d'euros
-
Virgin remporte une étape clé pour concurrencer l'Eurostar sous la Manche
-
A l'Assemblée, le RN obtient une victoire "historique" contre l'accord franco-algérien de 1968
-
Crise USA-Venezuela : le navire de guerre américain a quitté Trinité-et-Tobago
-
La Paris Games Week revisite sa formule pour attirer les fans de pop-culture
-
Découvert bancaire: quels changements en 2026?
-
Inflation maîtrisée mais horizon flou : la BCE conserve le statu quo
-
Musique: un accord inédit entre Universal et Udio marque un tournant dans la création par IA
-
Masters 1000 de Paris: Shelton qualifié pour le Masters, Auger-Aliassime toujours en course
-
Chaos électoral en Tanzanie, internet toujours coupé et de possibles morts
-
Stellantis commence à redresser ses ventes mais la Bourse s'inquiète de charges à venir
-
Les rêves paralympiques de l'équipe de cécifoot du Soudan du Sud
-
Wall Street: Meta plonge de plus de 11% après ses résultats trimestriels
-
Scandale de corruption en Espagne: cinq heures d'interrogatoire tendu au Sénat pour Pedro Sánchez
-
Wall Street hésite, entre résultats de la tech et négociations commerciales
-
Wall Street: Meta plonge de plus de 11% à l'ouverture après ses résultats trimestriels
-
La BCE prolonge la pause sur les taux, sans s'engager pour la suite
-
Foot: l'attaquant du PSG Désiré Doué indisponible "quelques semaines" (club)
-
Coup de tonnerre à l'Assemblée: le RN obtient une victoire "historique" contre l'accord franco-algérien de 1968
-
Ligue 1: le Marseillais Bilal Nadir victime d'un "malaise" mais en bonne santé selon l'OM
-
L'Arabie Saoudite n'organisera pas les premiers JO de l'esport
-
Proton lance un observatoire sur la cybercriminalité sur le dark web
-
Incursion israélienne dans le sud du Liban, un employé municipal tué
-
Dermatose: les exportations de jeunes bovins vont reprendre
-
Élections aux Pays-Bas: duel très serré entre l'extrême droite et le centre
-
Coupes budgétaires à France Télé: une centaine de comédiens défendent la création audiovisuelle
-
"Un pays!": Au Québec, un nouvel élan souverainiste chez les jeunes
-
Un Germano-Russe condamné à six ans de prison pour des projets de sabotage en Allemagne
-
Défié par Poutine, Trump ordonne de refaire des essais d'armes nucléaires
-
Volkswagen replonge dans le rouge pour la première fois depuis la pandémie
-
La fabrication de harpes, nouvelle passion d'un octogénaire irlandais
-
Aux Philippines, un cimetière où tentent de survivre les vivants démunis
-
Entre guerres et droits de douane, une demande d'or inédite au troisième trimestre
-
Corruption en Espagne: extrême tension lors de l'audition du Premier ministre par une commission d'enquête
-
Nouveau coup de filet des enquêteurs lié au cambriolage du Louvre
-
France: la croissance durant l'été surprend positivement malgré l'instabilité politique
-
Transat Café L'Or: Laperche et Cammas, paire d'as en tête de flotte
-
"Nulle part où dormir": après l'ouragan Melissa, les Jamaïcains face aux destructions
-
NBA: Jokic tout feu tout flamme et les Nuggets écrasent les Pelicans
-
Désindustrialisation: la CGT dénombre 444 plans sociaux depuis juin 2024
-
Vol au Louvre: cinq nouvelles interpellations, annonce la procureure de Paris
-
Quatre habitants de la Terre racontent leur déclic climatique
-
France: la croissance accélère durant l'été malgré l'instabilité politique
-
Trump et Xi s'entendent pour apaiser leur conflit commercial
-
Stellantis: chiffre d'affaires en hausse, des "progrès" accomplis
-
Climat: le réchauffement a multiplié par quatre le risque d'un ouragan aussi puissant que Melissa
-
Malgré des revers, la production de l'éolien en mer pourrait tripler entre 2024 et 2030
-
Concerts, esport, stars du web... la Paris Games Week revisite sa formule pour attirer un plus large public
-
Shein et Temu vendent des chargeurs et des jouets dangereux, selon UFC-Que Choisir
-
Trump se félicite d'un "grand succès" après sa rencontre avec Xi
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.
Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.
Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.
Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.
o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).
Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.
Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.
"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."
Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.
Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.
Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).
Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.
Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.
- L'IA en justice? -
"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.
Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.
Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.
"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".
Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.
Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.
Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.
Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".
Y.Kobayashi--AMWN