Table des matières
Comment exploiter une IA de manière optimale est une question de perspective
Lorsque vous apportez l’IA aux entreprises, les mathématiques sont la partie simple. C’est simple parce qu’il est objectivement décidable en utilisant des normes universellement acceptées. Mais beaucoup de décisions importantes n’entrent pas dans cette catégorie. Lorsque de telles décisions sont sur le point d’être prises, le débat porte sur: Une dizaine de parties prenantes apportent autant d’opinions à la table, chacune soutenue par des arguments sensés. Pour éviter le chaos improductif, c’est le moment où le leadership doit s’intensifier et, tôt ou tard, ces questions deviennent inévitablement des décisions de niveau C.
Pour qu’un projet d’IA devienne un succès, les mathématiques, l’économie, la stratégie et la psychologie doivent toutes être prises en compte. Pour illustrer comment cela peut se produire, nous examinerons dans ce post les applications de Machine Learning dans le secteur allemand de l’assurance automobile.
Pensez à un système d’apprentissage automatique formé pour valider les réclamations d’assurance automobile. Le fonctionnement de l’assurance automobile diffère d’un pays à l’autre. En Allemagne, une réclamation est généralement accompagnée d’une évaluation des dommages par un expert certifié, ou d’un devis ou d’une facture d’un atelier de réparation. Sur la base de ces documents, le système Machine Learning classe la réclamation dans l’une des deux catégories suivantes: soit il recommande un paiement direct, soit, si la facture semble être en partie ou totalement injustifiée, techniquement incorrecte ou problématique de toute autre manière, il achemine le affaire à un expert en la matière humaine pour complément d’enquête.
Comme AXA et Controlexpert, aux poids lourds dans le secteur allemand de l’assurance automobile, signalent dans un communiqué conjoint, le ratio de réclamations parfaitement légitimes est d’environ 40% [1]. Par conséquent, une IA qui permet aux experts humains de se concentrer sur les 60% restants de pertinent cas, promet beaucoup de temps et d’argent économisés. Pour réaliser pleinement cet avantage, le système doit être configuré pour répondre au mieux aux besoins de l’utilisateur.
Et c’est là que les problèmes commencent. Qu’est-ce qui est le mieux pour l’utilisateur?
On pourrait être tenté de penser que, dans le monde hautement mathématique et quantitatif du Machine Learning, il doit y avoir cette seule métrique magique qui peut être utilisée pour trouver la configuration optimale. Il n’y a pas.
Mais avant de voir pourquoi, commençons d’abord par des choses simples et voyons ce que pouvez être objectivement dit.
Bien sûr, il y a sont des moyens objectifs d’évaluer les performances des modèles d’apprentissage automatique. En fait, un système tel que notre classificateur de revendications est un cas particulièrement simple, un classificateur dit binaire. Binaire, car il répond à l’une ou à l’autre des questions avec deux résultats possibles: oui ou non, zéro ou un, des coups ou des coups. Ou, dans notre scénario concret: la réclamation d’assurance semble-t-elle louche ou non?
Un classificateur est formé à l’aide de données de cas historiques. Pour évaluer ses performances sur de nouveaux, inconnue Dans certains cas, vous détenez une partie desdites données et ne les utilisez pas pour la formation. Au lieu de cela, une fois le modèle formé, vous l’utilisez pour tester le modèle. Du point de vue du modèle, ces données sont aussi inconnues que des données complètement nouvelles, mais vous, le testeur, savez comment chaque échantillon a été décidé par le passé par un expert humain, donc vous savez comment il devrait être classifié.
Grâce à ces connaissances, vous pouvez regrouper les résultats de l’ensemble de tests du classificateur en quatre catégories.
1. Si le classificateur recommande la réclamation pour une enquête plus approfondie et selon le dossier, la réclamation était en effet répréhensible, alors vous avez un vrai positif (TP).
2. Si le classificateur recommande la demande de paiement direct, et selon le dossier, la demande était correcte, vous avez un vrai négatif (TN).
3. Si le classificateur recommande une enquête mais que le dossier montre que la réclamation était correcte, faux positif (FP).
4. Si le classificateur recommande un paiement direct mais que le dossier indique que la réclamation était répréhensible, il s’agit d’un faux négatif (FN).
Les nombres dans les quatre catégories sont généralement représentés sous la forme d’une matrice deux par deux, la soi-disant matrice de confusion:
Bien que la matrice de confusion se compose de quatre nombres, TP, FP, FN et TN, seuls deux d’entre eux sont réellement indépendants. En effet, les données elles-mêmes, ou plus précisément l’ensemble de test, ont un certain nombre P d’échantillons réellement positifs et un certain nombre N d’échantillons réellement négatifs. Par conséquent, peu importe à quel point le classifieur fonctionne, au final, nous avons toujours TP + FN = P et TN + FP = N. Deux équations à quatre inconnues nous laissent deux degrés de liberté. Une manière courante (mais pas la seule) de paramétrer ces degrés de liberté consiste à utiliser vrai taux positif (TPR) et le taux de faux positifs (FPR).
Mathématiquement, ils sont définis comme
À partir de ces définitions, vous pouvez facilement vous convaincre avec très peu d’algèbre que le TPR et le FPR sont suffisants pour déterminer les quatre TP, FP, FN et TN, en notant que
En réalité, cependant, un cas n’est presque jamais clair à 100%. Au lieu de cela, les décisions sont prises avec plus ou moins de confiance, en fonction des preuves – mais aussi de l’inclination personnelle (lire: parti pris) du décideur individuel.
Imaginez que notre tâche de classification devrait être effectuée par un expert humain plutôt que par une IA. De plus, imaginez qu’il y avait deux candidats pour le poste. D’une part, il y a l’expert en la matière ultra-sceptique. Pour elle, aucune réclamation n’est au-dessus de tout soupçon. Nonobstant les détails de l’affaire, elle signale simplement chaque réclamation pour complément d’enquête. Fait intéressant, sans même considérer les preuves pendant une seconde, elle est certaine d’obtenir une proportion précise de cas: elle recommande correctement une enquête sur chaque plainte injustifiée. En même temps, cependant, elle recommande à tort également chaque demande correcte pour un examen plus approfondi.
Le deuxième candidat est son contraire. Sa confiance dans les demandeurs ne connaît aucune limite. Par conséquent, il recommande chaque demande de paiement direct. Cet expert a également certains succès à montrer, car il traite correctement chaque réclamation justifiée – mais chaque réclamation injustifiée.
Entre les deux positions extrêmes représentées par ces personnages fictifs, on peut imaginer un spectre complet de décideurs plus ou moins stricts. Pour représenter ce spectre, nous pouvons introduire un «paramètre de rigueur» p, plus formellement appelé seuil de discrimination, dont la valeur peut être choisie entre 0% et 100%. Si, compte tenu des données du cas, une allégation est louche avec une probabilité de 70%, alors un expert avec rigueur p recommanderait une enquête plus approfondie si p<70% and direct payout if p>= 70%.
C’est exactement ainsi que notre classificateur fonctionne en interne. Il calcule une probabilité et la traduit en une décision binaire selon un paramètre de configuration p, le seuil de discrimination.
Ainsi, TPR et FPR, et avec eux, les quatre nombres dans la matrice de confusion dépendent de la valeur de seuil. La façon dont le TPR et le FPR varient en fonction du changement de seuil peut être comprise en examinant Courbe ROC [2]. Vous obtenez cette courbe en traçant les points (FPR (p), TPR (p)) pour toutes les valeurs de p comprises entre 0% et 100% dans un système de coordonnées FPR-TPR.
La courbe ROC peut être utilisée pour comparer deux classificateurs. En général, un classificateur est meilleur qu’un autre, si son TPR est supérieur à celui de l’autre pour chaque FPR. Dans le graphique ROC, la courbe ROC du classificateur supérieur est partout au dessus de la courbe ROC de l’autre classificateur (voir figure 1).
Vous pouvez donc comparer systématiquement différents modèles jusqu’à ce que vous trouviez celui avec la meilleure courbe ROC. Il peut s’avérer que la meilleure courbe ne provient pas d’un seul classificateur mais de la combinaison de deux ou plusieurs classificateurs différents. Ce qui compte, c’est qu’au final, vous aurez toujours une seule meilleure courbe ROC. (Dans le cas d’une combinaison de classificateurs, cette courbe est la coque convexe supérieure des courbes ROC de chaque classificateur individuel [3], voir figure 2.)
À ce stade, nous sommes encore dans un monde simple. Vous pouvez sélectionner objectivement le modèle dont la courbe ROC bat la concurrence et vous êtes sûr d’avoir amené le meilleur joueur sur le terrain.
Malheureusement, après avoir sélectionné le meilleur classificateur, vous êtes loin d’être terminé. Vous devez toujours choisir le meilleur point sur la courbe. La question est alors: quel seuil sert le mieux l’utilisateur?
(Dans la suite de cet article, nous montrerons une courbe ROC et d’autres caractéristiques d’un modèle de classification binaire entraîné. Le modèle doit être compris uniquement à titre d’illustration – il est ne pas formés sur les données d’assurance réelles mais sur l’ensemble de données «Adulte» [4].)
À première vue, trouver la meilleure valeur seuil semble être une tâche triviale. Optez simplement pour une précision maximale, le point où autant de prédictions que possible sont correctes. Tout autre choix entraîne plus d’erreurs. Certes, nous voulons éviter cela, non?
La précision est formellement définie comme le rapport des prévisions correctes parmi toutes les prévisions, c’est-à-dire
Lorsque nous calculons l’ACC pour chaque point de la courbe ROC de notre exemple, nous trouvons une précision maximale de 85% (voir les figures 3 et 4). Est-ce le mieux que nous pouvons faire?
Il pourrait être, mais seulement dans un cas particulier, c’est-à-dire lorsque les deux types d’erreurs, les faux positifs et les faux négatifs, étaient également douloureux du point de vue de l’utilisateur. Dans la plupart des cas, cependant, les deux erreurs ont un impact significativement différent et, comme nous le verrons, notre exemple de réclamation d’assurance automobile n’est pas une exemption.
Les dommages résultant de mauvaises décisions ne sont pas toujours faciles à quantifier. Peser les faux positifs et les faux négatifs les uns contre les autres est un dilemme classique: condamner un innocent à la prison (faux positif) est-il pire que de laisser un meurtrier marcher librement (faux négatif)? De combien?
Heureusement, dans le monde des affaires, les choses ne sont pas aussi dramatiques et avec un certain effort, les dommages causés par de mauvaises décisions peuvent être quantifiés en termes d’argent. Cela nous amène à une estimation des coûts. Pour attribuer des étiquettes de prix aux deux erreurs possibles, faux positif et faux négatif, nous devons examiner ce qui se passe exactement en cas de chaque erreur.
En cas de faux positif, une facture complètement correcte est envoyée inutilement à un expert, qui passe ensuite une partie de son temps précieux à essayer de trouver une erreur là où il n’y en a pas. Pour simplifier le calcul, supposons que ce processus lui prenne 12 minutes et que le coût global de son travail soit de 100 € par heure. Ensuite, chaque faux positif gaspille 20 €.
En cas de faux négatif, une facture avec des articles non justifiés est payée. Cela signifie que l’assureur perd inutilement la valeur monétaire correspondante desdits éléments. La valeur moyenne des réclamations injustifiées peut être calculée à partir des données historiques sur les cas, qui ont été vérifiées et corrigées par des experts en la matière humaine. Supposons que c’était 100 € par caisse.
Bien sûr, il s’agit d’une représentation simplifiée à l’extrême de l’estimation des coûts, mais cela suffit pour avoir l’idée: au final, vous aurez une valeur monétaire définie pour chaque type d’erreur. Dans notre cas, cela ressemble à ceci:
ou, de manière équivalente, en termes de TPR et FPR:
Puisque FP et FN (ou, de manière équivalente, TPR et FPR) dépendent de la valeur de notre paramètre seuil p, nous pouvons tracer le coût en fonction de p, c’est-à-dire CST (p). Il est instructif de tracer le coût et la précision dans le même diagramme. À cette fin, nous montrons le coût non pas comme une valeur absolue mais comme un pourcentage du coût maximum possible (voir la figure 5).
Le point de fonctionnement avec un coût optimal peut également être déterminé géométriquement à partir de la courbe ROC. D’après l’équation ci-dessus liant le CST au TPR et au FPR, nous notons que
Cela signifie que les points de même coût sont disposés sur des lignes droites avec une pente de 0,2⋅ (N / P). Ces lignes sont appelées lignes iso-performantes [3]. Le coût augmente avec le taux d’erreur, c’est-à-dire dans le sens du coin inférieur droit du diagramme ROC. Par conséquent, le point de coût le plus bas se trouve là où la courbe ROC est tangente à la ligne d’iso-performance la plus élevée (voir figure 6).
On retrouve le coût optimal de 29% à un niveau de précision de 76%. En revanche, le coût avec une précision maximale de 85% est de 40%. Ainsi, une augmentation de la précision de 9 points de pourcentage augmente le coût par cas de 11 points de pourcentage (voir figure 7). Fonctionnement efficace du système avec une précision optimale nettement supérieure détruit l’argent de votre client!
La précision (et les scores alternatifs tels que F1 ou le coefficient de corrélation de Matthews) n’ont aucune valeur en eux-mêmes. Ce n’est que lorsqu’ils sont liés aux coûts réels, sur la base d’une estimation approfondie des coûts, que ces mesures deviennent significatives.
Maintenant que la valeur seuil correspondant à l’optimum de coût a été trouvée, devez-vous configurer l’IA en conséquence? Cela dépend de la façon dont une telle configuration s’inscrit dans la stratégie plus large de l’utilisateur. Prenons, par exemple, les différents points de vue de deux sociétés opérant dans le secteur des assurances.
La première entreprise est un assureur classique. Leur avantage potentiel de l’IA est une rentabilité accrue du processus de validation des réclamations. La deuxième entreprise est un service, fournissant une expertise en la matière à les assureurs.
De nombreux assureurs allemands ont externalisé leur expertise pour divers types de dommages à des sociétés spécialisées telles que CarExpert, ControlExpert, Dekra, Eucon, etc. [5], les payant pour identifier les réclamations injustifiées. À première vue, il semble qu’une entreprise experte pourrait également simplement appliquer l’IA pour maximiser la rentabilité. Cependant, ils sont liés à une contrainte supplémentaire: leurs clients ne se soucient pas du travail inutile de la part du fournisseur d’expertise (résultant de faux positifs), mais ils se soucient beaucoup à propos de la perte d’argent due à des réclamations injustifiées non détectées (résultant de faux négatifs). En termes de paramètres définis ci-dessus, l’assureur mesure la qualité de service du fournisseur en termes de TPR et n’est pas disposé à accepter autre chose qu’une valeur très élevée. Comme nous l’avons vu ci-dessus, le TPR de l’optimum de coût se situe autour de 90%. Du point de vue de l’assureur, cette valeur est inacceptable, car elle impliquerait que 10% des réclamations injustifiées sont passées inaperçues.
Par conséquent, au lieu de simplement fonctionner à l’optimum de coût, le fournisseur doit trouver un équilibre entre la rentabilité et la fourniture d’un TPR suffisamment élevé. Cela leur laisse deux choix de base. Ils peuvent prioriser la réduction de leurs coûts d’exploitation et, en même temps, réduire le prix de leurs services pour rester attractifs sur le marché malgré un TPR plus bas. Ou ils peuvent délibérément prioriser la qualité du produit sur le prix, par exemple, pour maintenir la réputation d’un service de haute qualité et viser la satisfaction du client à long terme. S’ils optent pour ce dernier choix, la solution de Machine Learning doit fonctionner à un TPR très élevé (voir Figure 8). De cette façon, le fournisseur peut bénéficier d’un taux d’automatisation modéré tout en maintenant un taux d’erreur très faible, proche des performances au niveau humain.
Sur le plan négatif, un fonctionnement à TPR élevé entraîne une augmentation du coût par boîtier et une précision réduite par rapport à un fonctionnement au coût optimal. La quasi-totalité de cette perte de précision peut être attribuée à des faux positifs, selon la logique selon laquelle plus de travail pour les experts humains est acceptable, tant que la plupart des allégations injustifiées sont trouvées.
Il n’est pas possible de prouver mathématiquement quel choix est le bon. Comment vous positionner sur le marché est une décision qui dépasse toute formule. Et les difficultés ne s’arrêtent pas là. Il y a une longue liste d’autres facteurs à prendre en compte, tels que la stratégie de l’entreprise, les questions de conformité et de réglementation, les considérations politiques et éthiques, et bien d’autres. Ce que tous ces points ont en commun, c’est qu’ils sont difficiles – voire pas du tout – à quantifier. Ces difficultés ne peuvent être résolues uniquement par les mathématiques et il faut un leadership fort et intelligent pour trouver la bonne voie dans cette situation complexe. C’est le moment où les cadres expérimentés (et les consultants à leurs côtés) peuvent briller.
La réalité n’est pas aussi claire qu’une compétition Kaggle et les performances d’une IA dans des applications du monde réel ne peuvent pas simplement être auto-notées. Le succès dans les dimensions stratégique et humaine du problème dépasse les formules. En ce sens, l’IA n’est pas différente de tout autre changement majeur dans les opérations commerciales. La mise en œuvre de l’IA dans des contextes réels est un processus impliquant une multitude de parties prenantes qui évaluent le succès ou l’échec d’une solution sur la base de paramètres très différents qui ne peuvent souvent pas être formalisés mathématiquement. Les coûts indirects, résultant, par exemple, d’employés ou de clients insatisfaits, peuvent apparaître avec des mois ou des années de retard, ce qui rend les risques associés difficiles à quantifier. Pour ces raisons, les mesures de performances techniques joueront souvent un rôle important mais finalement secondaire dans le processus de gestion du changement.