-
Play-offs NBA: Wembanyama en démonstration, les Spurs s'imposent chez les Wolves
-
Moscou va commémorer le 9-Mai 1945 conforté par un cessez-le-feu annoncé par Trump
-
Hongrie: Peter Magyar arrive au pouvoir avec la promesse d'un changement de régime
-
Washington frappe deux pétroliers mais attend une réponse de l'Iran
-
Washington revendique des tirs sur deux pétroliers iraniens
-
Ligue 1: Lens valide sa Ligue des champions, Nantes relégué
-
Bourses mondiales: l'Europe clôture en baisse, Wall Street touche de nouveaux records
-
Tensions au PS: Vallaud claque la porte de la direction, Faure en minorité
-
Tennis: pour son retour, Novak Djokovic tombe de haut à Rome
-
Le Real Madrid inflige une amende de 500.000 euros à Valverde et à Tchouaméni, pas de sanction sportive
-
Elections britanniques: Starmer s'accroche au pouvoir malgré la défaite historique du Labour
-
Collégienne tuée dans l'Aisne: le suspect mis en examen pour assassinat et viols
-
Soucoupes, orbes et disques volants: le Pentagone publie des documents sur les ovnis
-
Bourses mondiales: l'Europe termine la semaine dans le rouge, nouveaux records à Wall Street
-
Les Bourses européennes terminent la semaine dans le rouge
-
Iran: Rubio somme les Européens de partager le fardeau
-
Tour d'Italie: Paul Magnier revoit la vie en rose
-
Le surf sur la vague de Munich réautorisé par le nouveau maire
-
La Pologne signe un accord de prêt de 44 milliards d'euros avec l'UE pour moderniser son armée
-
Bourses mondiales: Wall Street salue un rapport sur l'emploi solide, l'Europe dans le rouge
-
L'homme accusé d'avoir menacé l'ex-prince Andrew plaide non coupable
-
Wall Street se reprend, aidée par l'emploi américain
-
Automobile: Porsche poursuit son recentrage, plus de 500 emplois supprimés
-
Tennis: Swiatek se fait peur à Rome, De Minaur prend la porte
-
Elections britanniques: Starmer exclut de démissionner malgré des résultats "douloureux" et l'ascension de Reform UK
-
De nouveaux affrontements dans le Golfe jettent une ombre sur l'optimisme de Trump
-
Aucune "faille de sécurité" identifiée dans l'enquête de l'UE sur un commissaire hongrois
-
Vingt ans après Henry, Vieira et Kanu, l'Afrique vibre toujours pour Arsenal
-
Un rubis de 11.000 carats découvert en Birmanie
-
"C'est une prison": la longue attente des Gazaouis bloqués en Cisjordanie
-
Buffles, cash et canapé: le scandale qui fait à nouveau trembler le président sud-africain
-
Mondial-2026: la pelouse posée dans le stade de la finale
-
Bonnie Tyler en coma artificiel après avoir été opérée au Portugal
-
Commerzbank contre-attaque face à l'offre hostile d'UniCredit
-
Kérosène: l'UE espère éviter la pénurie et se tourne vers les Etats-Unis
-
Hantavirus: le risque pour l'ensemble de la population est "absolument faible", assure l'OMS
-
Ukraine: important feu de forêt dans la zone radioactive de Tchernobyl après la chute d'un drone
-
Masters 1000 de Rome: Arthur Fils doit monter en cadence
-
Léon XIV célèbre son premier anniversaire de pape dans le sud de l'Italie
-
Moscou et Kiev continuent leurs attaques de drones malgré la trêve russe
-
Elections britanniques: Starmer exclut de démissionner malgré des résultats douloureux" et une montée de Reform
-
Ukraine: plus de 3.000 attaques contre des structures de soin depuis le début de l'invasion russe
-
Retour de l'ambassadeur de France en Algérie, nouveau signe de dégel entre les deux pays
-
Indonésie: trois randonneurs morts après l'éruption d'un volcan
-
Copa Libertadores: le match entre Medellin et le tenant Flamengo annulé en raison d'incidents
-
Stellantis envisage d'ouvrir au chinois Leapmotor ses usines en Espagne
-
Toyota voit son bénéfice net annuel chuter et se montre prudent face au conflit au Moyen-Orient
-
Face à la sécheresse de ses rizières, la Malaisie veut faire pleuvoir
-
Taïwan accueille le président paraguayen malgré la pression de Pékin
-
Les Bourses européennes en repli face au regain d'incertitudes au Moyen-Orient
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.
Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.
Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.
Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.
o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).
Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.
Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.
"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."
Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.
Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.
Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).
Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.
Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.
- L'IA en justice? -
"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.
Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.
Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.
"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".
Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.
Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.
Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.
Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".
Y.Kobayashi--AMWN