Guide du chef de produit sur l’apprentissage automatique: idées de base
Le besoin pour les chefs de produit de générer un impact commercial avec l’apprentissage automatique ne cesse de croître. Au moment de la rédaction de cet article, je lançais des produits / fonctionnalités basés sur ML en tant que chef de produit principal chez Amazon. Pendant ce temps, j’ai passé beaucoup de temps à apprendre et à utiliser les concepts de ML dans mon travail quotidien. Dans l’espoir que mes expériences puissent éclairer votre apprentissage, dans cette série «Guide du chef de produit pour l’apprentissage automatique», j’enregistre mes plats à emporter.
Cet article s’adresse aux chefs de produit qui souhaitent aller un peu plus loin que les concepts de processus ML principaux: définir un objectif, obtenir des données, diviser des données, former, valider, tester, évaluer et lancer.
Avec le processus de ML mentionné ci-dessus en arrière-plan, j’ai trouvé que 3 concepts de base sont le tronc et les grandes branches du ML.
Les 3 concepts de base sont 1) Perte 2) Optimisation et 3) Évaluation.
Vous n’avez pas besoin de connaître les rameaux et les feuilles de ces concepts. J’utiliserai des visuels et un langage simples pour communiquer ces concepts sur des algorithmes de régression linéaire.
Avis de non-responsabilité – Chacun de ces sujets est si vaste et détaillé par nature, que l’on peut écrire un livre sur chaque sujet. Cet article est une simple introduction aux principales idées.
La théorie des «travaux à réaliser» peut également être appliquée dans le Machine Learning. Avant de passer aux 3 concepts de base, prenons une minute pour comprendre – Quel est le travail d’un algorithme (de régression linéaire)? Pourquoi embauchons-nous l’algorithme?
Le but d’un algorithme de régression linéaire est de positionner une ligne parmi les points de données (Figure 1: points bleus). Le but est que nous voulons apprendre les informations X, appeler cette fonctionnalité, a environ y (appeler cible / étiquette), afin que nous puissions prédire un y pour un nouveau ou inconnu X. Ici X et y sont de nature quantitative.
Par exemple: avec quelle précision pouvons-nous estimer l’impact de X sur y? Publicité (X) sur les ventes (y), nombre de pièces (X) sur le prix de la maison (y), hauteur (X) sur le poids (y), etc. S’il n’y a qu’une seule fonction, elle s’appelle Régression linéaire simple et nous ajuster une ligne entre X et Y. S’il y a beaucoup de Xs, son appelé régression linéaire multiple et vous ajustez un plan entre Xs et y.
L’algorithme passe par de nombreuses variations de lignes, comme le montre la figure 2, pour nous donner un meilleur modèle. Même un enfant peut dire que l’ajustement le plus à droite est le meilleur ajustement.
La sortie d’un modèle de régression linéaire est une équation qui capture les informations Xs avoir environ y. Cela se produit lorsque le modèle apprend avec précision les paramètres β. Quelque chose comme dans la figure 3. Les entreprises ont besoin de ces paramètres pour savoir comment allouer des ressources limitées ou générer l’impact.
Plus tôt, j’ai dit qu’un enfant peut dire que l’ajustement à l’extrême droite, dans la figure 1, est le meilleur ajustement. Mais comment? Quelle est l’intuition derrière une telle conclusion. Cette intuition peut être capturée en regardant la distance entre la valeur réelle (point bleu) et la valeur prédite (un point sur la ligne).
Plus la distance entre les valeurs réelles et prédites est grande, pire la prédiction. Voulez-vous dire – duh! C’est ce qu’on appelle la perte, une pénalité de mauvaise prédiction. Il existe un ou plusieurs types de perte pour tout algorithme. Ces fonctions sont également appelées fonction de perte. Les modèles de régression linéaire que nous allons examiner ici utilisent une fonction de perte appelée perte au carré. La perte au carré pour un seul exemple est la suivante:
Nous voulons atténuer le risque d’incapacité du modèle à produire de bonnes prédictions sur les données invisibles, c’est pourquoi nous introduisons les concepts de train et de tests. Ces différents ensembles de données introduiront ensuite le concept de variance (modèle générant un ajustement différent pour différents ensembles de données), c’est-à-dire sur-ajusté, sous-ajusté, etc. Nous voulons désensibiliser le modèle à la prise en compte des particularités de l’ensemble d’apprentissage, ce intention nous introduit à un autre concept encore appelé régularisation. La régularisation s’appuie sur la somme des résidus au carré, notre fonction de perte d’origine.
- Régression ordinaire: la somme des résidus au carré – (1)
- La régression de crête, également appelée régularisation L2, minimise la complexité du modèle en pénalisant le carré de poids: (1) + λ * somme des poids carrés – (2)
- La régression de Lasso, également appelée régularisation L1, minimise la complexité du modèle en faisant des coefficients non informatifs égaux à zéro: (1) + λ * somme des | poids absolus | – (3)
- Filet élastique = (1) + (2) + (3)
Je pense que vous posez peut-être la question – Il pourrait y avoir des milliers ou des millions de variations en plaçant la ligne entre les points de données. Comment est-ce accompli? Pour visualiser, regardez la figure 5. Le but de la figure 5 est de montrer ce qui pourrait réellement se produire pour obtenir le bon ajustement.
Vous pouvez trouver des hordes de livres qui rempliraient une petite bibliothèque sur ce sujet. En tant que chef de produit, je n’ai pas besoin ni ne suis censé connaître les feuilles et les branches de l’optimisation décrites dans ces livres. La grande idée est simple – optimiser. Si vous possédez un itinéraire papier, vous optimisez l’itinéraire, c’est-à-dire plus de documents livrés en un minimum de temps. Si vous avez des enfants, vous optimisez pour les jouets qui créent le moins de dégâts. Si vous êtes un modèle ML, vous optimisez l’ajustement pour produire une fonction de perte minimale.
Dans notre exemple, nous minimisons la distance au carré entre les y et prédit y. Ce processus de minimisation de la perte peut prendre des millisecondes à plusieurs jours. Il existe différentes façons d’optimiser notre quête pour trouver la moindre somme de carrés. C’est-à-dire qu’il existe différents algorithmes d’optimisation pour atteindre l’objectif. Par exemple: 1) descente de gradient 2) GD stochastique 3) Adagard 4) Prop RMS, etc. sont quelques algorithmes d’optimisation, pour n’en nommer que quelques-uns. Par convention, la plupart des algorithmes d’optimisation concernent la minimisation.
Par exemple, dans la figure 6, nous pouvons utiliser un gradient pour descendre au point le plus bas de la fonction de perte et ce point deviendra l’interception et d’autres paramètres de l’équation de sortie de la figure 3.
Une fois la perte identifiée et réduite, nous arrivons au concept de base final: l’évaluation. Souvent, c’est là que les propriétaires d’entreprise se rencontrent et se familiarisent avec les performances du modèle pour atteindre l’objectif commercial.
En régression linéaire, vous pouvez évaluer le modèle sur la base de l’erreur quadratique moyenne (fonction de perte), plus petit est le mieux, R au carré et R au carré ajusté, plus le meilleur est le mieux.
- R–au carré mesure la proportion de la variation de votre variable dépendante (Y) expliquée par vos variables indépendantes (X) pour un modèle de régression linéaire.
- R ajusté–au carré ajuste la statistique en fonction du nombre de variables indépendantes dans le modèle.
Les applications de l’apprentissage automatique sont impressionnantes. Ne laissez pas les mathématiques et le vocabulaire vous dissuader de poursuivre l’apprentissage automatique. Comme vous pouvez le voir, les concepts de base sont familiers et rudimentaires. Autant les chefs de produit ont besoin de machine learning, plus ils ont besoin de chefs de produit qui en tirent le meilleur parti. J’espère que ces idées fondamentales vous aideront à réfléchir aux bonnes questions en collaborant avec votre équipe ML.