5 concepts à connaître sur la descente de gradient et la fonction de coût
Gradient Descent est un algorithme d’optimisation itératif utilisé dans l’apprentissage automatique pour minimiser une fonction de perte. La fonction de perte décrit la performance du modèle compte tenu de l’ensemble actuel de paramètres (poids et biais) et la descente de gradient est utilisée pour trouver le meilleur ensemble de paramètres. Nous utilisons la descente de gradient pour mettre à jour le paramètres de notre modèle par exemple, les paramètres se réfèrent à des coefficients dans Régression linéaire et poids dans les réseaux de neurones. Dans cet article, j’expliquerai 5 concepts majeurs de descente de gradient et de fonction de coût, notamment:
- Raison de minimiser la fonction de coût
- La méthode de calcul de la descente de gradient
- La fonction du taux d’apprentissage
- Descente de gradient par lots (BGD)
- Descente de gradient stochastique (SGD)
Qu’est-ce que la fonction de coût?
La configuration principale pour l’apprentissage des réseaux de neurones consiste à définir une fonction de coût (également connue sous le nom de fonction de perte) qui mesure dans quelle mesure le réseau prédit les sorties sur l’ensemble de test. Le but est alors de trouver un ensemble de poids et de biais qui minimise le coût. Une fonction courante qui est souvent utilisée est erreur quadratique moyenne, qui mesure la différence entre la valeur réelle de y et la valeur estimée de y (la prédiction). L’équation de la droite de régression ci-dessous est hθ (x) = θ + θ1X qui n’a que deux paramètres: poids (θ1) et biais (θ0).
Fonction de réduction des coûts
L’objectif de tout modèle d’apprentissage automatique est de minimiser la fonction de coût.
Comment minimiser la fonction de coût?
Notre objectif est de passer de la montagne dans le coin supérieur droit (coût élevé) à la mer bleu foncé en bas à gauche (faible coût). Afin d’obtenir la valeur d’erreur la plus faible, nous devons ajuster le poids «θ0» et ‘θ1»Pour atteindre la plus petite erreur possible. En effet, le résultat d’une erreur plus faible entre les valeurs réelles et prévues signifie que l’algorithme a fait un bon travail d’apprentissage. La descente de gradient est un algorithme d’optimisation efficace qui tente de trouver un minimum local ou global d’une fonction.
Calcul de la descente du gradient
Gradient Descent s’exécute de manière itérative pour trouver les valeurs optimales des paramètres pour trouver la valeur minimale possible de la fonction de coût donnée, en utilisant le calcul. Mathématiquement, la technique dedérivé»Est extrêmement important pour minimiser la fonction de coût, car il permet d’obtenir le minimum de points. La dérivée est un concept du calcul et fait référence à la pente de la fonction à un point donné. Nous devons connaître la pente afin de connaître la direction (signe) pour déplacer les valeurs des coefficients afin d’obtenir un coût inférieur à la prochaine itération.
La dérivée d’une fonction (dans notre cas J (θ)) sur chaque paramètre (dans notre cas, le poids θ) nous indique la sensibilité de la fonction par rapport à cette variable ou l’impact de son changement sur la valeur de la fonction. Descente en pente donc, permet au processus d’apprentissage d’apporter des mises à jour correctives aux estimations apprises, ce qui déplace le modèle vers une combinaison optimale de paramètres (θ). Le coût est calculé pour un algorithme d’apprentissage automatique sur l’ensemble des données d’apprentissage pour chaque itération de l’algorithme de descente de gradient. Dans Gradient Descent, une itération de l’algorithme est appelée un lot qui indique le nombre total d’échantillons d’un ensemble de données utilisé pour calculer le gradient pour chaque itération.
L’étape de la dérivation
Il serait préférable que vous ayez une compréhension de base du calcul car la technique de la dérivée partielle et de la règle de chaîne est appliquée dans ce cas. Pour une explication détaillée, veuillez vous référer à ce livre.
Pour résoudre le gradient, nous parcourons nos points de données en utilisant notre nouveau poids «θ0» et biais «θ1 » valeurs et calculer les dérivées partielles. Ce nouveau gradient nous indique la pente de notre fonction de coût à notre position actuelle (valeurs des paramètres actuels) et la direction que nous devons prendre pour mettre à jour nos paramètres. La taille de notre mise à jour est contrôlée par le taux d’apprentissage.
Taux d’apprentissage (α)
La taille de ces étapes est appelée taux d’apprentissage (α). Cela nous donne un contrôle supplémentaire sur la taille des étapes que nous faisons. Avec un taux d’apprentissage élevé, nous pouvons couvrir plus de terrain à chaque étape, mais nous risquons de dépasser le point le plus bas car la pente de la colline change constamment. Avec un taux d’apprentissage très bas, nous pouvons nous déplacer en toute confiance dans la direction du gradient négatif car nous le recalculons si fréquemment. Un faible taux d’apprentissage est plus précis, mais le calcul du gradient prend beaucoup de temps, il nous faudra donc très longtemps pour arriver au fond. Les tarifs les plus couramment utilisés sont: 0,001, 0,003, 0,01, 0,03, 0,1, 0,3.