L’outil de transcription Whisper d’OpenAI critiqué pour ses hallucinations dans les hôpitaux

Les fréquentes hallucinations de Whisper d'OpenAI suscitent des inquiétudes dans la santé

Les outils d’IA générative sont sujets à inventer des choses que personne n’a dites. On parle alors d’hallucinations. Ce que l’on pourrait appeler plus simplement un bug dans l’informatique classique.

Des inquiétudes pour un usage dans les hôpitaux

Un outil en particulier est critiqué pour ses hallucinations. Il s’agit de Whisper d’OpenAI qui transcrit la parole vers l’écrit. Cela suscite l’inquiétude lors de son usage à l’hôpital dans la rédaction de comptes rendus médicaux. Cette situation émerge comme étant préoccupante à la suite de travaux de chercheurs, dont Allison Koenecke, de l’Université Cornell et Mona Sloane de l’Université de Virginie, citées par l’agence de presse Associated Press (AP).  

Des hallucinations fréquemment découvertes dans les transcriptions effectuées par Whisper

Un ingénieur en apprentissage automatique (Machine Learning) cité également par AP déclare avoir initialement découvert des hallucinations dans environ la moitié des plus de 100 heures de transcriptions Whisper qu’il a analysées. Un autre développeur a déclaré avoir trouvé des hallucinations dans presque chacune des 26 000 transcriptions qu’il a créées avec Whisper.

« Ce problème semble pouvoir être résolu si l’entreprise [OpenAI] est prête à en faire une priorité », a déclaré William Saunders, un ingénieur de recherche basé à San Francisco qui a quitté OpenAI en février 2024. « C’est problématique si vous publiez ce logiciel et que les gens sont trop confiants quant à ses capacités et l’intègrent à tous les autres systèmes. »



Un outil mis à disposition de milliers d’entreprises

L’outil Whisper est intégré à certaines versions de ChatGPT, le chatbot phare d’OpenAI, et constitue une offre intégrée aux plateformes de Cloud computing d’Oracle et de Microsoft, qui servent des milliers d’entreprises dans le monde. Il est également utilisé pour transcrire et traduire du texte dans plusieurs langues.



« Près de 40 % des hallucinations étaient nocives ou inquiétantes« 

Les professeurs Allison Koenecke de l’université Cornell et Mona Sloane de l’université de Virginie ont examiné des milliers de courts extraits obtenus auprès de TalkBank, un référentiel de recherche hébergé par l’université Carnegie Mellon. Elles ont déterminé que « près de 40 % des hallucinations étaient nocives ou inquiétantes, car le locuteur pouvait être mal interprété ou mal représenté« .

Les chercheurs ne savent pas exactement pourquoi Whisper et d’autres outils similaires provoquent des hallucinations, mais les développeurs de logiciels ont déclaré que ces fabrications ont tendance à se produire au milieu de pauses, de bruits de fond ou de musique. L’IA générative fonctionne de manière probabiliste et déteste ne pas trouver de réponse.

Les LLM aiment finir les phrases

Un grand modèle de langage LLM (Large Language Model) fonctionne en prédisant le prochain mot lors de sa réponse, et vérifie ce mot avec ce qui est enregistré. Or, le LLM aime finir les phrases alors que souvent l’être humain ne finit pas ses phrases, ce qui fait que l’IA invente des mots expliquait récemment un responsable de BNP Paribas à La Revue du Digital. Pire, un cas d’usage de l’IA générative chez BNP Paribas s’était montré inutilisable alors que la démonstration du Data Scientist en quelques jours sur son PC était convaincante. Il s’agissait de la préparation d’un rendez-vous entre un conseiller en agence et un client. « Le taux d’hallucinations est encore beaucoup trop élevé » fut le verdict.

La création de contenu pour le marketing ou l’analyse de tendances dans des verbatim clients est sans conséquence grave

Dès lors, il vaut mieux éviter d’utiliser l’IA générative sur des cas critiques suggérait un responsable du Crédit Agricole, en charge de ces questions à La Revue du Digital. Les cas qui ne mènent pas à de graves conséquences sont par exemple la création de contenu pour le marketing ou la publicité, que ce soit des images ou de la vidéo, ou de l’analyse de tendances dans des verbatim clients, à la place de sondages.

L’Associated Press rappelle qu’OpenAI a recommandé de ne pas utiliser Whisper dans « des contextes de prise de décision où des défauts de précision peuvent conduire à d’importants défauts dans les résultats ». L »AP constate que cela n’a pas empêché les hôpitaux ou les centres médicaux d’utiliser des modèles de conversion de la parole en texte, y compris Whisper, pour retranscrire ce qui est dit lors des visites chez le médecin afin que celui-ci consacre moins de temps à la prise de notes ou à la rédaction de rapports.

Doctolib s’appuie sur OpenAI et Mistral pour retranscrire les consultations

Récemment, Doctolib a lancé de façon commerciale une telle IA générative, créée à partir de solutions d’OpenAI et de Mistral afin de retranscrire les échanges entre un médecin et son patient. La solution a même été mise en avant par Satya Nadella, patron de Microsoft, lors de son passage à Paris, le 22 octobre, sur la scène du Cnit à La Défense, devant 1500 clients et partenaires, ainsi que la presse. On pourrait s’étonner de la rapidité de mise sur le marché d’un tel outil de la part de Doctolib alors que dans le même temps, un concurrent – PraxySanté – n’en est qu’à l’expérimentation au CHU de Montpellier.

Satya Nadella, PDG de Microsoft, le 22 octobre à Paris, présente certains clients de l’IA générative (Clarins pour son IA générative et son Data Mesh, Doctolib pour l’IA générative)



Avec Doctolib, le médecin valide la retranscription effectuée par l’IA

Ceci dit, Doctolib décrit un fonctionnement dans lequel le médecin valide la retranscription effectuée par l’IA. Ce qui doit permettre de supprimer les erreurs. En revanche, l’AP cite l’usage à grande échelle auprès de cliniciens aux Etats-Unis d’un outil basé sur Whisper développé par Nabla, qui possède des bureaux en France et aux États-Unis. Quoiqu’il en soit, ces IA ne sont pas parfaites et comportent toujours un risque d’erreur. Le fonctionnement de relecture immédiate proposé par Doctolib doit permettre d’évacuer les erreurs. On verra s’il est adopté sur la durée par les médecins.

La chasse aux hallucinations est récurrente lors de l’usage de l’IA générative. En témoigne, les précautions mises en oeuvre récemment par Ubisoft lorsqu’il analyse les verbatim des joueurs face à ses jeux vidéo ou de l’usage du mode de fonctionnement RAG (Récupération de documents) mis en place par Les Galeries Lafayette afin de répondre à leurs clients via un chatbot sur leur site e-commerce.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *




L'événement digital

L’Oréal Paris anime une opération publicitaire exceptionnelle liée à la série Cat’s eyes de TF1
L'Oréal Paris veut promouvoir la puissance et la féminité sur TF1 et TF1+

L’Oréal Paris anime une opération publicitaire exceptionnelle liée à la série Cat’s eyes de TF1

L’Oréal n’est pas un leader du marketing pour rien. L’Oréal Paris lance une opération publicitaire clé à l’occasion de la …