La stratégie de l’IA à l’ère de l’apprentissage fédéré vertical et du partage de données
Comme vous le savez peut-être, le partage de données peut être un défi pour l’apprentissage automatique à grande échelle (ML). De plus, le manque de données est souvent un problème dans les projets de BC. Federated Learning tente d’apporter une solution au problème des données cloisonnées et non structurées, du manque de données, de la confidentialité et de la réglementation du partage des données ainsi que des modèles d’incitation pour les alliances de données.
Récemment, j’ai eu l’opportunité de superviser la mise en place d’un apprentissage fédéré vertical basé sur une «alliance de partage de données» avec certains de nos concurrents.
Notre besoin stratégique de construire une alliance de partage de données avec nos concurrents s’explique par deux raisons. Premièrement, nous sommes limités par nos propres données dans de nombreux projets. Deuxièmement, les entreprises technologiques étrangères devront bientôt répondre aux nouvelles exigences de l’Union européenne en matière d’IA et de partage de données avec des concurrents plus petits.
Dans cet article, je partagerai mon expérience dans l’identification de cas d’utilisation spécifiques et l’exploitation de l’apprentissage fédéré pour nous permettre, ainsi qu’à nos concurrents, de former des modèles d’apprentissage automatique sans partager de données brutes tout en créant de nouveaux modèles commerciaux.
Une majorité d’entreprises partagent la même approche de l’apprentissage automatique centralisé. Concrètement, le processus de développement de modèles précis commence généralement par la collecte d’autant de données que possible à partir de plusieurs sources (données opérationnelles, système hérité, réseaux sociaux, CRM, données IoT, …), puis développe des modèles d’apprentissage automatique sur les données collectées et regroupées.
Cette approche comporte plusieurs défis qui diminuent le potentiel des systèmes d’IA. En effet, seule une fraction des données disponibles possibles est actuellement accessible et limite donc les modèles d’apprentissage automatique à une grande précision.
Si seulement nous pouvions augmenter notre capacité à partager des données entre les entreprises, nous pourrions débloquer de nouveaux cas d’utilisation ou améliorer la précision ou les solutions ML existantes. Certains d’entre vous pensent peut-être aux données ouvertes en ce qui concerne ce problème, cependant, cette solution est souvent de qualité limitée, non structurée ou incohérente. D’autres solutions pourraient inclure des données synthétiques ou des techniques d’augmentation des données …
Dans la plupart des cas, les organisations préfèrent contrôler strictement leurs données plutôt que de s’associer ou de commercer avec des tiers et encore moins avec des concurrents. Même s’ils peuvent parfois conclure des contrats avec des tiers pour accélérer le développement, les partenariats ou alliances de données sont encore très rares.
Trop souvent, l’accent est mis sur la façon dont une organisation est en mesure de tirer parti de ses propres données, tandis que les plus grandes opportunités se trouvent dans fusion de plusieurs jeux de données, à la fois interne et externe.
Par exemple, la possibilité de tirer parti des données de vos concurrents pourrait changer la donne. En effet, la mise à disposition de ces données à des fins spécifiques peut libérer de la valeur pour plusieurs organisations et l’utilisateur final. De plus, dans un contexte d’IA, la collaboration conjointe avec les concurrents peut améliorer les modèles internes d’apprentissage automatique. C’est pourquoi le partage de données entre concurrents est crucial.
Aujourd’hui, notre objectif est d’essayer d’imaginer ce que nous pourrions créer en utilisant non seulement les données à notre disposition. Cette nouvelle approche nous oblige à imaginer de nouveaux modèles commerciaux, des cas d’utilisation, des partenaires et des cadres.
Selon le cas d’utilisation, nous avons un besoin urgent de plus de données pour former nos modèles. Par exemple, je travaille actuellement dans le domaine de la santé. Comme vous pouvez l’imaginer, l’acquisition de données dans ce secteur spécifique est extrêmement difficile. En conséquence, nous avons tendance à travailler sur de petits ensembles de données qui ont été rassemblés sous une gouvernance stricte. Une alliance de partage de données utilisant une architecture d’apprentissage fédéré vertical nous aiderait beaucoup.
Nous envisageons un avenir dans lequel différentes entreprises construiront ensemble des modèles sans divulguer leurs données et partageront les avantages de modèles d’apprentissage automatique plus précis ou de nouveaux cas d’utilisation pour améliorer les processus internes ou l’expérience client. Notre idée est non seulement d’utiliser des données partagées non seulement pour améliorer les applications existantes, mais aussi de «co-créer» des applications qui autrement ne seraient pas possibles.
Ce changement correspond parfaitement à la nature du Machine Learning. Comme la plupart d’entre vous le savent, le domaine du machine learning est par nature collaboratif. En tant que tel, je ne suis pas surpris de voir le récent changement opéré par certaines grandes entreprises technologiques en matière de partage de données.
Nous pensons également que FL changera la dynamique du pouvoir dans les chaînes de valeur, qui pourraient être moins dépendantes des monopoles de données individuels et générer également des revenus supplémentaires pour les entreprises. Les entreprises qui n’utilisaient pas leurs données peuvent avoir une nouvelle alternative pour générer des revenus.
En fin de compte, la meilleure stratégie pour construire un apprentissage fédéré vertical dépend d’un certain nombre de facteurs, notamment:
Je n’entrerai pas trop dans les détails car d’autres articles ont déjà parfaitement couvert les aspects techniques de l’apprentissage fédéré. Comme mentionné précédemment, l’idée principale avec FL est que vous pouvez décentraliser le processus d’apprentissage automatique afin que vous puissiez toujours respecter la confidentialité mais obtenir la puissance statistique et des données supplémentaires.
L’apprentissage fédéré vertical peut être considéré comme «un modèle B2B, où plusieurs organisations se joignent à une alliance pour créer et utiliser un modèle ML partagé. Le modèle est construit tout en garantissant qu’aucune donnée locale ne quitte aucun site et en maintenant les performances du modèle en fonction des besoins de l’entreprise. »1 FL assure une protection complète des données ainsi que des récompenses aux entreprises pour le partage de leur apprentissage.
En effet, la fédération peut allouer une partie des revenus aux propriétaires de données à titre d’incitation. En réalité, il peut être très compliqué de construire un modèle de revenus pour tous les participants / concurrents. Nous avons développé un système de partage des bénéfices développé spécialement pour l’apprentissage fédéré vertical.
Évidemment, tous les participants bénéficient du modèle global dans leurs applications locales. En outre, «Federated Leaning bénéficie également aux modèles de données transfrontaliers, où, dans de nombreux cas, la législation exige que les données soient stockées dans une juridiction particulière, et les partenariats interinstitutionnels.»2
Je m’attends à ce que certaines startups et / ou consultants se spécialisent en FL et développent un framework pour aider les organisations à sélectionner des cas d’utilisation, identifier des partenaires et discuter avec eux de la configuration idéale pour leurs collaborations de données (modèle de revenus, gouvernance des données, …).
Il est essentiel de mentionner la différence entre l’apprentissage fédéré vertical et apprentissage par transfert fédéré. Le premier fait référence à l’endroit où nous avons de nombreuses instances qui se chevauchent, mais peu de fonctionnalités qui se chevauchent. Il peut arriver que deux sociétés différentes (pas dans le même secteur, par exemple, les banques et les détaillants) aient plus ou moins les mêmes clients mais possèdent chacune des ensembles de données / fonctionnalités différents. Dans ce cas, l’apprentissage fédéré vertical fusionne les fonctionnalités pour créer un espace de fonctionnalités plus puissant pour les tâches d’apprentissage automatique et utilise le cryptage homomorphique pour assurer la protection de la confidentialité des données.
Un problème connu de FL est qu’un adversaire peut déduire les données d’entraînement locales à partir des mises à jour de modèle envoyées par un appareil. Pour atténuer ce problème, nous nous appuyons sur le cryptage homomorphique (HE). HE permet aux données de rester cryptées pendant leur traitement pour les modèles de formation.
Cryptage homomorphique: une forme de chiffrement qui permet d’exécuter des types spécifiques de calculs sur des textes chiffrés et d’obtenir un résultat chiffré qui est le texte chiffré du résultat d’opérations effectuées sur le texte brut. (3)
Malgré ces éléments positifs concernant la FL, de nombreux défis demeurent. Par exemple, les données cloisonnées et non structurées, la confidentialité, la réglementation du partage des données et les modèles d’incitation pour les alliances de données utilisant FL. Je pourrais également mentionner la maturité des solutions basées sur FL et le support interne des cadres de niveau C… (le partage de données sensibles avec les concurrents est encore quelque chose de difficile à expliquer à certains managers)
Pour vous aider à mieux comprendre les applications concrètes de l’apprentissage fédéré, j’ai sélectionné trois «cas d’utilisation matures» ci-dessous:
Vente au détail intelligente
Dans cette industrie, les données collectées sont principalement liées au pouvoir d’achat des clients, aux préférences personnelles et aux informations relatives à un produit. En réalité, ces trois caractéristiques de données sont susceptibles d’être réparties entre trois départements ou sociétés différents.
- Le pouvoir d’achat peut être lié aux économies bancaires de l’utilisateur
- Les préférences personnelles peuvent provenir des médias sociaux
- Les informations sur les produits peuvent être collectées sur les e-boutiques
Selon plusieurs chercheurs de Webank et de l’Université de Hong Kong (4), nous sommes confrontés à deux problèmes. Premièrement, les barrières de données entre ces différentes organisations sont difficiles à briser. Par conséquent, les données ne peuvent pas être agrégées directement pour former un modèle. Deuxièmement, les données stockées par les trois parties sont généralement hétérogènes et les modèles ML traditionnels ne peuvent pas travailler directement sur des données hétérogènes.
L’apprentissage fédéré et l’apprentissage par transfert apportent une solution à ces problèmes. En effet, en tirant parti des caractéristiques de FL, il devient possible de construire un modèle ML pour les trois parties sans exporter les données de l’entreprise, ce qui protège la confidentialité et la sécurité des données. Dans le même temps, nous pouvons utiliser l’apprentissage par transfert pour résoudre le problème d’hétérogénéité des données et surmonter les limites des techniques d’IA traditionnelles.
La finance
Un autre cas d’utilisation intéressant serait lié à la détection des emprunts multipartites. Cela se produit lorsque certains utilisateurs empruntent auprès d’une banque pour payer le prêt auprès d’une autre banque.
Selon les mêmes chercheurs de Webank (5), pour trouver ces utilisateurs sans exposer leurs listes d’utilisateurs, les banques peuvent utiliser l’apprentissage fédéré vertical. En effet, nous pouvons tirer parti du mécanisme de chiffrement de l’apprentissage fédéré et chiffrer la liste d’utilisateurs de chaque côté, puis prendre l’intersection de la liste chiffrée dans la fédération.
Soins de santé intelligents
Les soins de santé sont un autre domaine qui bénéficiera de l’apprentissage fédéré vertical. Les données telles que les rapports médicaux sont privées et sensibles (pour de bonnes raisons!). En réalité, les ensembles de données médicales sont difficiles à collecter et peuvent être trouvés dans des institutions médicales et des hôpitaux isolés. D’après mon expérience, je peux dire que l’insuffisance des sources de données et le manque d’étiquettes signifient souvent une faible performance des modèles ML (faible précision, sur-ajustement, etc.), malgré les techniques d’augmentation des données. Idéalement, si toutes les institutions médicales et les groupes pharmaceutiques formaient une alliance de données et partageaient leurs données pour créer un grand ensemble de données médicales, les performances des modèles ML formés seraient considérablement améliorées.
Je crois que FL est une excellente option pour les systèmes de production à grande échelle, mais pour les projets de recherche, je reste sceptique quant à l’efficacité globale (sauf dans le domaine médical). L’apprentissage fédéré ne s’applique pas à tous les projets d’apprentissage automatique.
Le succès d’une telle approche dépend fortement de votre cas d’utilisation. Enfin, la complexité du débogage d’un système FL sans pouvoir voir les données est à ne pas sous-estimer.