Les outils d’IA générative sont sujets à inventer des choses que personne n’a dites. On parle alors d’hallucinations. Ce que l’on pourrait appeler plus simplement un bug dans l’informatique classique.
Des inquiétudes pour un usage dans les hôpitaux
Un outil en particulier est critiqué pour ses hallucinations. Il s’agit de Whisper d’OpenAI qui transcrit la parole vers l’écrit. Cela suscite l’inquiétude lors de son usage à l’hôpital dans la rédaction de comptes rendus médicaux. Cette situation émerge comme étant préoccupante à la suite de travaux de chercheurs, dont Allison Koenecke, de l’Université Cornell et Mona Sloane de l’Université de Virginie, citées par l’agence de presse Associated Press (AP).
Des hallucinations fréquemment découvertes dans les transcriptions effectuées par Whisper
« Ce problème semble pouvoir être résolu si l’entreprise [OpenAI] est prête à en faire une priorité », a déclaré William Saunders, un ingénieur de recherche basé à San Francisco qui a quitté OpenAI en février 2024. « C’est problématique si vous publiez ce logiciel et que les gens sont trop confiants quant à ses capacités et l’intègrent à tous les autres systèmes. »
Un outil mis à disposition de milliers d’entreprises
L’outil Whisper est intégré à certaines versions de ChatGPT, le chatbot phare d’OpenAI, et constitue une offre intégrée aux plateformes de Cloud computing d’Oracle et de Microsoft, qui servent des milliers d’entreprises dans le monde. Il est également utilisé pour transcrire et traduire du texte dans plusieurs langues.
« Près de 40 % des hallucinations étaient nocives ou inquiétantes«
Les chercheurs ne savent pas exactement pourquoi Whisper et d’autres outils similaires provoquent des hallucinations, mais les développeurs de logiciels ont déclaré que ces fabrications ont tendance à se produire au milieu de pauses, de bruits de fond ou de musique. L’IA générative fonctionne de manière probabiliste et déteste ne pas trouver de réponse.
Les LLM aiment finir les phrases
Un grand modèle de langage LLM (Large Language Model) fonctionne en prédisant le prochain mot lors de sa réponse, et vérifie ce mot avec ce qui est enregistré. Or, le LLM aime finir les phrases alors que souvent l’être humain ne finit pas ses phrases, ce qui fait que l’IA invente des mots expliquait récemment un responsable de BNP Paribas à La Revue du Digital. Pire, un cas d’usage de l’IA générative chez BNP Paribas s’était montré inutilisable alors que la démonstration du Data Scientist en quelques jours sur son PC était convaincante. Il s’agissait de la préparation d’un rendez-vous entre un conseiller en agence et un client. « Le taux d’hallucinations est encore beaucoup trop élevé » fut le verdict.
La création de contenu pour le marketing ou l’analyse de tendances dans des verbatim clients est sans conséquence grave
L’Associated Press rappelle qu’OpenAI a recommandé de ne pas utiliser Whisper dans « des contextes de prise de décision où des défauts de précision peuvent conduire à d’importants défauts dans les résultats ». L »AP constate que cela n’a pas empêché les hôpitaux ou les centres médicaux d’utiliser des modèles de conversion de la parole en texte, y compris Whisper, pour retranscrire ce qui est dit lors des visites chez le médecin afin que celui-ci consacre moins de temps à la prise de notes ou à la rédaction de rapports.
Doctolib s’appuie sur OpenAI et Mistral pour retranscrire les consultations
Récemment, Doctolib a lancé de façon commerciale une telle IA générative, créée à partir de solutions d’OpenAI et de Mistral afin de retranscrire les échanges entre un médecin et son patient. La solution a même été mise en avant par Satya Nadella, patron de Microsoft, lors de son passage à Paris, le 22 octobre, sur la scène du Cnit à La Défense, devant 1500 clients et partenaires, ainsi que la presse. On pourrait s’étonner de la rapidité de mise sur le marché d’un tel outil de la part de Doctolib alors que dans le même temps, un concurrent – PraxySanté – n’en est qu’à l’expérimentation au CHU de Montpellier.
Avec Doctolib, le médecin valide la retranscription effectuée par l’IA
La chasse aux hallucinations est récurrente lors de l’usage de l’IA générative. En témoigne, les précautions mises en oeuvre récemment par Ubisoft lorsqu’il analyse les verbatim des joueurs face à ses jeux vidéo ou de l’usage du mode de fonctionnement RAG (Récupération de documents) mis en place par Les Galeries Lafayette afin de répondre à leurs clients via un chatbot sur leur site e-commerce.