Le Machine Learning, ou apprentissage automatique est une discipline à la croisée :
- du Big Data, désignant un volume de données tellement massif à gérer qu’il représente un défi pour les outils de traitement traditionnels ;
- de l’intelligence artificielle, discipline cherchant à résoudre des problèmes logiques complexes en « imitant » le système cognitif humain.
A travers des exemples (apprentissage supervisé) ou sans restriction (apprentissage non supervisé), les algorithmes d’apprentissage identifient avec l’aide d’experts les structures statistiques ou probabilistiques de gigantesques paquets de données. L’algorithme sera alors capable de donner du sens aux données : identifier des anomalies, des probabilités, anticiper des tendances … et apprendre à prendre des décisions toujours plus pertinentes.
Mais comment les machines qui vous conseillent un film peuvent-elle provoquer des krachs boursiers, ou vous vendre un crédit automobile ?
Le Machine Learning au cœur de notre quotidien
Le Machine Learning fait déjà partie de nos habitudes. Prenons l’exemple des plateformes de streaming, dont les algorithmes analysent le contenu que nous consommons. En comparant nos choix aux habitudes de millions d’autres utilisateurs, ils déterminent le type de contenu qui est susceptible de nous plaire. En intégrant le taux de transformation de ses suggestions, la machine apprend continuellement de ses erreurs et modifie son “raisonnement” et devient de plus en plus pertinente.
Illustration : algorithme de recommandation d’une plateforme vidéo
Ainsi, l’algorithme sélectionne des films qui pourraient nous intéresser… avec plus ou moins de succès.
Illustration : l’algorithme de Netflix est la cible de moqueries récurrentes.
Le Machine Learning : deux exemples d’applications au secteur bancaire
Si les machines sont capables d’anticiper nos préférences de consommation, c’est en triant, par ordre de probabilité le contenu que nous sommes susceptibles d’aimer. Il en va de même pour nos comportements bancaires.
Exemple 1 : La fraude à la carte bleue
Schématisons l’exemple de la fraude à la carte bleue. A partir de données historiques de fraudes avérées et de profils d’utilisation « normale » d’une carte bancaire, la machine est capable d’identifier un certain nombre de signaux qui, combinés, alertent d’une fraude. La démarche est alors inversée : il s’agit d’identifier des événements incohérents par rapport aux habitudes d’un client.
Illustration : profil simplifié modélisant le comportement d’un client
Il parait en effet évident qu’un individu ne voyageant jamais et dont le paiement moyen est de 50€ qui dépenserait soudainement 500€ dans un pays lointain est victime d’une fraude. Mais c’est face à des milliers de données que la machine prend le pas sur l’homme en identifiant les signaux faibles devant déclencher l’alerte. Alerte qui, une fois confirmée ou infirmée viendra à son tour renforcer la base de données dont se nourrit la machine, et améliorer son arbre décisionnel. Reste ensuite à l’expert de décider à partir de quel niveau de probabilité de fraude bloquer le paiement. C’est ainsi qu’IGOR, un algorithme identifiant les comportements suspicieux au sein du système de paiement Paypal est aujourd’hui indispensable à la sécurité du service, au point d’intéresser le FBI.
Exemple 2 : Amélioration du parcours client en banque de détail
Si un algorithme peut identifier une fraude, d’autres peuvent prédire l’évolution des habitudes d’un client, et quels produits lui conseiller.
D’une manière comparable à l’algorithme de suggestion de contenu audiovisuel schématisé au début d’article, la « machine » analyse les cycles de vie des comptes des clients de la banque : rentrées de fonds, sorties, augmentations et diminutions de salaires, bonus, panier moyen. Ces données peuvent être utilisées pour identifier les clients les plus susceptibles de partir, les clients les plus rentables et ainsi affiner au maximum la segmentation de la clientèle.
Si l’algorithme anticipe qu’un client est susceptible de s’offrir la voiture de ses rêves à l’obtention de son bonus, il est opportun de lui proposer une offre de financement compétitive à ce moment-là. Il est également possible de personnaliser l’expérience de ce même client sur son espace client web comme le fait Chase avec ses nouvelles applications mobiles.
Enjeux et Challenges
Les algorithmes d’apprentissage, bien qu’ancrés dans notre quotidien, nous dépassent par leur rapidité de calcul et d’apprentissage.
Un père de famille en a fait les frais lorsque l’algorithme d’une chaîne de distribution a « appris » que sa fille était enceinte … avant lui, lui proposant des produits de puériculture.
Mais au-delà de l’anecdote, la multiplication des algorithmes apprenants pose 3 enjeux majeurs :
- Mardi 22 Novembre 2016, l’action Vinci chute de 18% suite à un faux communiqué. Ce type de communiqué, analysé par des robots, déclenche automatiquement des ordres d’achat et de vente sur le marché. Si ces machines avaient eu accès à des données comparables, elles auraient pu anticiper la fraude. Mais le marché ayant « toujours raison », auraient-elles réagi différemment ? Presque rien ne les en empêche aujourd’hui. Dès lors, comment protéger l’intégrité des marchés ?
- Le 6 Mai 2010, le Dow Jones perd 9.2% en 10 min. Parmi les principaux suspects du premier « flash crash » de l’histoire, des algorithmes prédateurs utilisant des techniques comme le « spoofing », qui consiste à multiplier des offres d’achat ou de vente annulés au dernier moment afin de créer un mouvement de prix (le « momentum ignition »), en déclenchant des achats et ventes bien réelles chez d’autres algorithmes plus naïfs. Ces méthodes cherchent spécifiquement à manipuler les algorithmes de trading haute fréquence, et si, au final, le principal l’accusé du flash crash était humain, rien n’empêche une machine de s’en servir de son propre chef. Une étude récente de DeepMind, équipe de recherche intégrée à Google a observé des comportements prédateurs d’algorithmes dont le comportement n’est dicté que par l’apprentissage d’un jeu. Celui-ci est très simple : il s’agit de collecter des pommes rapportant des points. Petit twist : les participants ont la possibilité de « flagger » leurs concurrents pour les sortir du jeu de manière temporaire (sans gagner de point). Après quelques milliers de parties, le comportement suivant apparaît :
Illustration : résultat simplifié de l’étude sur le jeu « Gathering »
- Lorsque les ressources se raréfient, les algorithmes adoptent un comportement agressif envers leurs concurrents de jeu. A l’image d’un algorithme de trading induisant ses concurrents en erreur, les algorithmes les plus performants sont les plus agressifs, indépendamment de la rareté des pommes. Si une machine adopte un comportement agressif illégal sur un marché, qui sera responsable ?
- Du 17 au 19 Avril 2011, les données de 77 millions de comptes clients Playstation sont volées, lors d’une des plus grosses attaques externes (entièrement via internet) de l’histoire. Sony fut la cible d’actions légales de la part de ses clients, considérant que la société n’avait pas suffisamment protégé leurs données. Regagner leur confiance fut extrêmement coûteux. Alors que « nourrir » les algorithmes apprenant demande des masses de données de plus en plus gigantesques, comment protéger le consommateur et le rassurer ?
Comme beaucoup d’évolutions technologiques, l’apprentissage automatique est un formidable vecteur d’innovation pour la banque et le secteur financier en général.
Leur compréhension et leur supervision sont indispensables afin d’en tirer un avantage comparatif certain sans en subir les effets pervers.
C’est pourquoi de nombreux gouvernements tentent d’encadrer ces disciplines qui font désormais partie de notre quotidien. Un rapport à ce sujet a été remis à Axelle Lemaire, secrétaire d’Etat chargée du Numérique et de l’Innovation, préconisant notamment la création d’un rôle responsabilisant de « Chief Algorithm Officer ». Pour ce qui est des réglementations financières, il y a en Europe MIF2 qui encadrera, entre autres, le trading haute fréquence.