Détection des fraudes boursières par l’AMF : un projet Big Data qui a tenu les budgets


C’est une plateforme Big Data de grande ampleur qui a été mise en place par l’Autorité des Marchés Financiers (AMF) afin de traiter toujours plus de données, et de détecter les fraudes et les manœuvres illicites sur les marchés financiers. Le projet a été mené depuis 2017 pour aboutir pleinement en 2020. Résultats de cette nouvelle plateforme Big Data adaptée aux nouvelles réglementations ? « Une réduction des faux positifs », c’est-à-dire une réduction du nombre d’alertes infondées sur des opérations boursières, pointe en premier lieu Iris Lucas, Head of Data Intelligence à l’AMF.

Un projet qui a entraîné une remise à plat de l’existant

Elle souligne dans la foulée, que la création de la nouvelle plateforme a été l’occasion de débrancher certaines alertes, d’en créer de nouvelles et d’étendre la surveillance à de nouveaux instruments financiers qui n’étaient pas traités jusqu’alors. « Notre mission est de veiller au bon fonctionnement des marchés sur le périmètre français et à la protection des épargnants selon la réglementation européenne » rappelle la responsable. Elle a pris la parole à l’occasion d’un événement organisé par la société Cloudera, le 14 avril.

La nouvelle plateforme Big Data génère nettement moins d’alertes que la solution précédente

Dans le détail, la nouvelle plateforme Big Data génère nettement moins d’alertes que la solution précédente. La raison ? Lors du projet, Il y a eu un décommissionnement d’alertes et un assainissement de l’existant lors du portage. « Nous avons amélioré l’existant grâce aux nouvelles capacités de la plateforme. Nous avons fait des évolutions algorithmiques, nous avons créé de nouvelles alertes que l’on n’aurait pas pu faire avant. Nous avons augmenté la couverture de notre périmètre également parce que l’on a collecté plus de data » commente-t-elle.

Du coup, il a été possible de réaliser de la détection de fraudes sur des instruments financiers sur lesquels l’AMF ne travaillait pas trop avant. « Nous avons vu réduire les faux positifs. Du point de vue des enquêtes enclenchées, on reste sur les volumétries que l’on avait l’habitude de faire tous les ans ou un petit peu plus. C’est la partie de réduction des faux positifs qui était assez importante. Cela s’est vraiment amélioré » statue-t-elle.

Un projet budgétisé entre 12 et 13 millions d’euros

L’AMF a investi entre 12 et 13 millions d’euros dans ce projet et a tenu ce budget qu’elle avait estimé au lancement. Ce budget inclut le « Build », c’est-à-dire la fabrication de la plateforme technique, et la gestion du changement, la montée en compétences des équipes. Rien que du côté des performances pures, la nouvelle plateforme Big Data accélère fortement l’intégration des données. En 2017, il fallait 12 heures à l’ancien système de l’AMF pour intégrer 8 milliards de lignes d’informations financières par jour. Aujourd’hui, la nouvelle plateforme intègre aux alentours de 24 milliards de lignes en 4 heures par jour.  « C’est quelque chose de très parlant en termes de performances pures que l’on a pu obtenir. On y travaille toujours, on essaye d’optimiser encore nos traitements et on travaille sur le dimensionnement de la plateforme » se réjouit Ricardo Da Silva Mesquita, Deputy Chief Information Officer de l’AMF.

La plateforme Big Data nécessite une centaine de machines et une équipe pluridisciplinaire d’une trentaine de personnes

La plateforme Big Data est hébergée chez l’AMF pour des contraintes de confidentialité des données. L’AMF n’a pas recours aux principaux Cloud publics tels que AWS, Google et Azure de Microsoft car ils sont régis par des lois américaines. La plateforme Big Data de l’AMF nécessite une centaine de machines et une équipe d’une trentaine de personnes. Cette équipe est pluri disciplinaire. On y trouve des profils plutôt fonctionnels, des Business Analysts qui sont des Product owners. Ils sont là pour bien comprendre et traduire les besoins des utilisateurs métiers. Et il y a des personnes plus techniques, des architectes de la donnée, des architectes Big Data, et des ingénieurs de la Data. « Il faut des personnes qui sont capables de poser la question métier et de la convertir en question data pour assurer une conversation multi-langues entre le métier et la data, dans les 2 sens » précise Iris Lucas.

La plateforme permet de réaliser des développements informatiques dans les langages Python et R. La visualisation des données est réalisée grâce aux outils délivrés par Tibco Spotfire. La facilité d’usage des outils de visualisation les rend d’ailleurs utilisables par des personnes qui ne savent pas programmer. L’outil de reporting accompagné de la data visualisation sert à rendre les analyses accessibles au plus grand nombre. « Il est important que la data visualisation ne soit pas réservée aux Data Scientists. Il faut démocratiser l’accès à des analystes pour avoir une bonne émulation autour de la donnée. C’était quelque chose qui était attendu » souligne Iris Lucas. « La data visualisation permet de regarder les variations de prix d’une action ou d’un instrument sur une journée, de regarder les volumes, etc. On peut ne pas faire de code. Cela a permis d’embarquer des personnes un moins techniques à la base, et de leur rendre accès à la donnée » se félicite-t-elle.  

Les alertes sont passées au crible par les analystes

La plateforme globale de gestion des données est délivrée par Cloudera. « Nous partons de la donnée. Nous développons des algorithmes pour scanner la data et détecter de potentiels patterns [NDLR : schémas] frauduleux, remonter des alertes, et des analystes vont confirmer ou non s’il y a quelque chose de suspect, instruire un dossier, pour ensuite donner la main à une autre équipe chargée de l’investigation ou du contrôle » décrit Iris Lucas. Un outil de suivi de dossier – automatisé avec la solution de Jira Software – est au cœur des interactions entre les Data scientists qui travaillent sur les prototypes des algorithmes ainsi que sur les programmes de détection des actions illicites et les analystes qui vont analyser les différents patterns à partir des alertes, pour confirmer s’il s’agit vraiment d’un comportement anormal.

« L’intelligence artificielle, ce sont des couches que l’on utilise à un moment donné dans nos algorithmes »

Cela va engendrer des dossiers qui sont soumis à des commissions spécialisées de l’AMF pour valider s’il faut aller plus loin. Dans ce cas, les dossiers sont passés à la direction des enquêtes qui est le bras armé de l’AMF. Cette direction ira procéder à des contrôles sur place. L’AMF a recours à des technologies d’intelligence artificielle. « l’IA ce sont des couches que l’on utilise à un moment donné dans nos algorithmes. Par exemple pour les données texte, nous utilisons des technologies NLP [NLDR : Natural Language Processing ou traitement du langage naturel]» indique la responsable. L’AMF effectue également du « clustering » pour détecter les anomalies, pour trouver les clusters à faible densité par exemple.

Bien que l’AMF ne fasse pas de recherche en IA, elle accueille toutefois deux étudiants qui effectuent leur thèse dans ce domaine. Le premier travaille sur le NLP. Et le second travaille sur le traitement de l’image. « L’idée est d’utiliser la reconnaissance d’image afin de faire de la détection d’abus de marché » indique Iris Lucas. L’idée est venue de certaines représentations graphiques des données sur lesquelles il est visuellement possible de détecter des anomalies. « Si un œil humain est capable de reconnaître cela, si les séquences suspectes ont vraiment une apparence différente des séquences saines, un réseau de neurones pourrait apprendre à le détecter. C’est pour cela que l’on a acquis un serveur GPU afin de gagner du temps lors du traitement d’image. L’IA nous permet d’explorer de nouvelles approches et de détecter des choses différentes de ce que l’on a l’habitude de détecter » explique-t-elle.

Une plateforme ouverte à différents langages de programmation

Parmi les autres gains du projet, Iris Lucas souligne les apports dans la préparation et la qualité des données. L’AMF avait par ailleurs la volonté de disposer d’une plateforme sur laquelle plusieurs langages de programmation étaient disponibles même si ses équipes développent plus fortement en langage Python. Il y a toutefois des personnes qui développent en langage R. La mission de l’AMF réclame de la recherche et du développement. Puis il faut pouvoir passer du prototypage à l’industrialisation, et faire fonctionner la R&D sur le socle de production. « C’est quelque chose de très fort dans la culture de l’AMF » insiste Iris Lucas. « Notre métier possède une partie de prototypage » dit-elle, rappelant qu’il n’existe pas de solution sur étagère pour les tâches de l’AMF, et que si des opérations boursières peuvent ressembler à des manipulations illicites, il faut remonter jusqu’à l’intention qui est derrière une action. Enfin, sans être en temps réel, la plateforme Big Data fonctionne plutôt au fil de l’eau sur certaines alertes, et à des temporalités de J+1, J+3, J+5, etc.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *