Crédit Agricole divise par deux le temps de traitement des documents avec une IA « maison »

Aymen Shabou et Léa Fromentin, Crédit Agricole

Le Data Lab du Crédit Agricole a créé une 3ème génération d’IA afin de doper l’analyse des documents remis par ses clients. Sa solution « maison » est totalement industrialisée et proposée sous forme de microservice à toutes les entités du groupe.


Rattaché à Crédit Agricole SA, société mère du Crédit Agricole, le Data Lab Groupe travaille sur les problématiques Data et IA pour l’ensemble des entités du groupe Crédit Agricole, notamment ses caisses régionales. Celui-ci compte une cinquantaine de collaborateurs et il est à l’origine de l’AI Factory Group. La méthode de fabrication des IA a été industrialisée afin de produire « à la chaîne » des IA de confiance et responsables.



Les IA sont construites de manière itérative

« Cette méthode de fabrication s’inspire de l’approche agile. Les IA sont construites de manière itérative avec les membres de l’équipe projet et nos partenaires » présente Léa Fromentin, Chef de projet au Data Lab Groupe du Crédit Agricole à l’occasion de l’événement Big Data & AI Paris 2023. « Dès la phase de cadrage du projet, nous faisons en sorte d’intégrer les contraintes industrielles. Nous faisons particulièrement attention à ce que l’application métier qui embarquera l’IA offre une intégration de qualité et que l’on reste bien collé à la cible » poursuit-elle.

Le Data Lab est en veille sur la sûreté de fonctionnement et la frugalité des algorithmes

En parallèle, le Data Lab mène une intense activité de veille sur les outils DataOps et MLOps ainsi que sur les innovations en IA pour rester à l’état de l’art dans la maîtrise des algorithmes, notamment sur le plan de leur sûreté de fonctionnement et de leur frugalité. Le Data L ab a créé MonIA, sa propre plateforme de monitoring des IA.


Le Data Lab s’est engagé dans la certification de sa chaîne de production des IA, notamment sur le plan de la protection des données personnelles et de la détection des biais dans les algorithmes. Celle-ci a été certifiée en février 2023 par le LNE (Laboratoire national de métrologie et d’essais). En outre, le Data Lab a reçu le label RSE LabelIA Labs, la mesure de la consommation énergétique des algorithmes venant s’ajouter à la protection des données personnelles et à la détection de biais dans les algorithmes.


Des IA pour accélérer le traitement et la classification des documents

Dans ce cadre, les IA documentaires sont un domaine d’intervention d’importance pour le Data Lab car pour un groupe bancaire de la taille du Crédit Agricole qui compte 53 millions de clients et 11,5 millions de sociétaires, le contrôle documentaire est une tâche très chronophage et particulièrement répétitive pour les employés.

« Cela représente 1,1 million d’entrées en relation par an, avec 5 à 6 documents à contrôler par entrée en relation »

« Nous avons eu l’opportunité de travailler avec les métiers, des Caisses Régionales en l’occurrence, sur cette problématique du contrôle des entrées en relation des particuliers, c’est-à-dire les documents demandés aux nouveaux clients » reprend Léa Fromentin. « Cela représente 1,1 million d’entrées en relation par an, avec 5 à 6 documents à contrôler par entrée en relation, avec de l’ordre de 3 minutes de contrôle par document » comptabilise-t-elle. Outre le gain de temps immédiat pour les utilisateurs métiers grâce au développement d’une IA documentaire, les porteurs du projet visaient une simplification du parcours des collaborateurs et des clients.

La chef de projet précise que toutes les IA créées dans le cadre des solutions d’entrée en relation avec les clients ont pour vocation de simplifier le contrôle des éléments reçus, mais pas de l’automatiser. « La validation du dossier reste toujours à la main du contrôleur. Nous avons réussi à faire gagner 50% de temps par document contrôlé à nos collaborateurs » dit-elle.

Trois générations d’IA développées en interne

Ce projet IA est en quelque sorte l’héritier des plateformes de RAD/LAD (Reconnaissance et Lecture Automatique des Documents) déployées il y a plusieurs dizaines d’années, rappelle Aymen Shabou, Chief Technical Officer au Data Lab Groupe du Crédit Agricole.

« Il y a ensuite à une étape d’extraction d’informations textuelles ou visuelles »

« Ces plateformes reposent principalement sur 2 briques qui peuvent aujourd’hui être automatisées ou améliorées par l’IA. Dans un premier temps, il y a une phase de classification ou de reconnaissance du type de document selon un plan de classement métiers prédéfini. On passe ensuite à une étape d’extraction d’informations textuelles ou visuelles » commente-t-il.  

L’expert considère que si la brique de classification est maintenant mature, par contre l’extraction présente encore un certain nombre de challenges. « Pour répondre à ce challenge nous avons mené plusieurs cycles de R&D et proposé 3 générations d’extracteurs d’information. »

Une première génération d’algorithmes utilisait de l’OCR standard

La première génération d’algorithmes produits par le Data Lab reposait sur des techniques standards d’OCR (Optical Character Recognition ou reconnaissance optique de caractères) mais les utilisateurs métiers demandaient de meilleures performances sur les documents non-normés. « Nous avons proposé la technique VisualWordGrid afin de traiter les différentes modalités d’un document, le texte, l’image, la structure afin de bien cibler les champs à extraire » poursuit Aymen Shabou.

Chaque entreprise a ses propres modèles de formats et ceux-ci sont modifiés en permanence

Le Data Lab va alors être confronté à un nouveau cas d’usage plus complexe, celui du traitement des factures. Chaque entreprise a ses propres modèles de formats (templates) et ceux-ci sont modifiés en permanence, y compris pour un fournisseur donné. De quoi mettre en échec les pratiques traditionnelles. « Nous avons intégré à notre socle IA le modèle LayoutLM qui fonctionne très bien pour un certain nombre de documents, mais celui-ci a besoin de l’OCR pour fonctionner et surtout de nombreux exemples annotés pour entraîner l’IA » explique le Chief Technical Officer.

Le Data Lab a alors lancé un nouveau cycle d’innovation plutôt lent afin de créer une IA de bout en bout (end–to-end) pouvant à la fois se passer d’OCR et de documents annotés pour mener à bien son apprentissage. Aymen Shabou explique : « Quand nous avons commencé cette R&D, nous avons testé un certain nombre d’approches end-to-end, notamment celle proposée par Microsoft, mais il s’est avéré que le temps de calcul n’était pas du tout adapté à nos contraintes de production. »

Usage de CPU classiques et non des GPU

En effet, l’informatique de production d’une grande banque est exclusivement basée sur des CPU classiques. Il n’y a pas de machines dotées de GPU (processeurs graphiques tels que ceux commercialisés par NVidia) qui auraient pu accélérer les inférences d’IA. Le responsable souligne que l’algorithme DocParser du Data Lab implémente de manière différente les approches end-to-end du marché en améliorant les performances avec une architecture « encoder et decoder » un peu particulière afin d’accélérer les traitements tout en améliorant les performances.

« Nous travaillons toujours sur des techniques visant à éviter les phases d’annotation »

« Nous travaillons toujours sur des techniques visant à éviter les phases d’annotation qui sont toujours très lourdes à mener, soit avec des approches faiblement supervisées ou d’autres approches qui reposent sur une donnée interne structurée et qui ne demandent pas d’annotation visuelle » ajoute-t-il. Lancé en 2023, DocParser n’impose plus de longue phase d’annotation des données et se montre beaucoup plus rapide en phase de prédiction pour des performances élevées.

Ces IA génératives « maison » sont confrontées à celles d’OpenAI et de Google. Le Data Lab ne se repose pas sur ses lauriers et expérimente maintenant les IA génératives sur un certain nombre de tâches en phase d’extraction. « Nous évaluons les IA génératives pour diversifier le panel de tâches que nous pouvons proposer via notre socle IA » déclare Aymen Shabou.

Répondre à des questions sur un document sans entraînement préalable

Les défis vont à l’essentiel. «  Il s’agit, par exemple, de répondre à des questions sur un document sans entraînement préalable. Nous intégrons aujourd’hui des IA génératives Open Source pour répondre à ce besoin d’interprétation de certains documents. » Ces IA génératives appliquées au monde documentaire sont actuellement confrontées aux IA du marché comme celles d’OpenAI et de Google.

Les IA sont aujourd’hui packagées et industrialisées sur un socle IA documentaire

Toutes les IA produites par le Data Lab Groupe de Crédit Agricole sont aujourd’hui packagées et industrialisées sur un socle IA documentaire. Cet « asset » commun est mis à disposition de toutes les entités du groupe qui pourraient en avoir besoin. C’est le cas de Crédit Agricole Assurances, ou de Doxio, un éditeur spécialisé dans la chaîne documentaire et qui consomme les algorithmes du Data Lab dans le cadre des contrôles documentaires.

Les micro-services sont employés pour donner accès aux solutions. « Nos modèles sont packagés sous forme de micro services, avec notre solution de monitoring et d’observabilité développée en interne » ajoute Aymen Shabou. « Cette solution [MonIA] est capable de détecter les drifts [NDLR : dérive des performances de l’IA] de modèle au cours du temps. Tous les services sont déployés sur Kubernetes avec une offre proposée par CA GIP, l’IT du groupe qui nous fournit des ressources informatiques on-premise ou Cloud. » Ces services sont consommés soit sur l’infrastructure groupe, soit sur des installations on-premise internes au sein de l’entité cliente.

Une accélération des contrôles mais pas une automatisation

Au final, « les IA que nous avons mis à disposition des métiers pour traiter l’entrée en relation ont pour but de simplifier les contrôles, mais pas de les automatiser. La validation du dossier reste toujours à la main du contrôleur. Nous avons réussi à faire gagner 50% de temps par document contrôlé à nos collaborateurs » résume Léa Fromentin, Chef de projet au Data Lab Groupe, Crédit Agricole.

« Tous nos services sont aujourd’hui packagés et industrialisés sur ce que nous appelons le socle IA documentaire. Il s’agit d’un asset commun mis à disposition de tous nos partenaires dans le groupe » conclut Aymen Shabou, Chief Technical Officer au Data Lab Groupe, Crédit Agricole.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *