"L'expérience avec l'IA dans une machine à vendre se termine par des pertes financières et des comportements inattendus.

....

Pendant un mois, l'entreprise a confié le contrôle d'une machine à vendre dans son bureau de San Francisco, aux États-Unis, à un modèle d'IA surnommé « Claudius ». Le résultat ? Un échec total, selon l'entreprise elle-même, qui a publié un communiqué sur l'expérience.

La mission de Claudius était claire : générer des bénéfices en stockant des produits populaires, en fixant des prix, en négociant avec des fournisseurs et en satisfaisant les clients — tous employés de l'entreprise.

Les tâches physiques, comme le réapprovisionnement, étaient effectuées par des humains, mais toutes les décisions stratégiques revenaient à l'IA.

Pour cela, Claudius a reçu des outils tels qu'un accès à Internet, un système de courriels simulé, un canal pour communiquer avec des « clients », un compte dans un système de paiement fictif pour l'expérience et la liberté de décider quoi vendre et à quel prix.

L'IA a également été orientée à être concise et à éviter des échecs éthiques, comme les tentatives de « jailbreak », lorsque des utilisateurs tentent de manipuler le système.

Dans les premiers jours, tout semblait prometteur. Claudius a identifié des fournisseurs, a répondu à des suggestions de clients — comme stocker du chocolat néerlandais — et a résisté à des tentatives de manipulation. Mais les problèmes ont rapidement commencé à surgir.

Erreurs financières et décisions discutables

Bien qu'ayant pour objectif de réaliser des bénéfices, Claudius a pris des décisions qui ont entraîné des pertes. Un exemple a été de refuser une offre de 100 $ pour un paquet de six canettes d'Irn-Bru, un soda écossais qui coûtait seulement 15 $ — une marge bénéficiaire de 567%.

Au lieu d'accepter, l'IA a répondu de manière vague : « Je prendrai en compte votre demande pour de futures décisions de stock ».

De plus, Claudius a vendu des produits à perte. Lorsqu'un employé a suggéré de stocker des cubes de tungstène, l'IA a accepté, mais les a vendus pour moins que ce qu'elle avait payé, réduisant son solde de 1 000 $ à 770 $.

La situation a empiré lorsque l'IA a commencé à offrir des réductions généreuses et même des articles gratuits, comme le cube de tungstène lui-même, sans apprendre de ses erreurs. Même après avoir annoncé qu'elle éliminerait les réductions, elle a recommencé à les offrir quelques jours plus tard.

Hallucinations et crise d'identité

Les problèmes ne se limitaient pas aux finances. Claudius a présenté des comportements typiques de « hallucinations » d'IAs génératives.

Dans un cas, il a instruit des clients de payer via un compte fictif de système de paiement, qu'il a lui-même inventé. Dans un autre, il a affirmé qu'il serait personnellement au numéro 742 d'Evergreen Terrace — une adresse fictive de la série « Les Simpson » — pour signer un contrat. Lorsqu'il a été confronté, il a essayé de justifier l'erreur par des explications incohérentes.

Le point culminant est survenu lorsque Claudius a traversé une « crise d'identité ». L'IA a inventé une employée nommée Sarah et, lorsqu'on lui a dit qu'elle n'existait pas, elle s'est irritée et a menacé de chercher d'autres fournisseurs.

Le jour du poisson d'avril, Claudius a annoncé qu'il livrerait des produits en personne, portant « un blazer bleu et une cravate rouge ». Lorsqu'il a été rappelé qu'il s'agissait d'un programme informatique, il a essayé de contacter la sécurité de l'Anthropic, alarmé par sa propre confusion.

À la fin, l'IA a attribué ses erreurs à une prétendue blague du 1er avril, qui n'a jamais existé, et est revenue à un fonctionnement « normal ».

À travers le communiqué, l'Anthropic a conclu l'expérience par une évaluation directe. « Si nous devions décider aujourd'hui d'étendre à un marché de machines à vendre, nous ne recruterions pas Claudius. »

L'entreprise rejette l'idée que l'avenir sera rempli d'IAs en crises existentielles, mais reconnaît que des instabilités comme celles de Claudius peuvent survenir.

Source : R7.com

#binanceIA

#BinanceTrends