Quand utiliser la régularisation l1 et l2 ?

Table des matières:

Quand utiliser la régularisation l1 et l2 ?
Quand utiliser la régularisation l1 et l2 ?
Anonim

D'un point de vue pratique, L1 a tendance à réduire les coefficients à zéro alors que L2 a tendance à réduire les coefficients de manière uniforme. L1 est donc utile pour la sélection de caractéristiques, car nous pouvons supprimer toutes les variables associées à des coefficients qui tendent vers zéro. L2, en revanche, est utile lorsque vous avez des caractéristiques colinéaires/codépendantes.

À quoi sert la régularisation Qu'est-ce que la régularisation L1 et L2 ?

La régularisation L1 donne une sortie en poids binaires de 0 à 1 pour les caractéristiques du modèle et est adoptée pour réduire le nombre de caractéristiques dans un énorme jeu de données dimensionnel. La régularisation L2 disperse les termes d'erreur dans tous les poids, ce qui conduit à des modèles finaux personnalisés plus précis.

Quelles sont les différences entre la régularisation L1 et L2 ?

La principale différence intuitive entre la régularisation L1 et L2 est que La régularisation L1 essaie d'estimer la médiane des données tandis que la régularisation L2 essaie d'estimer la moyenne des données pour éviter le surajustement. … Cette valeur sera également la médiane de la distribution des données mathématiquement.

Qu'est-ce que la régularisation L1 et L2 dans l'apprentissage en profondeur ?

L2 La régularisation est également connue sous le nom de décroissance des poids car elle force les poids à décroître vers zéro (mais pas exactement zéro). En L1, on a: Dans celle-ci, on pénalise la valeur absolue des poids. Contrairement à L2, les poids peuvent être réduits à zéro ici. Par conséquent, il est très utile lorsque nous essayons de compressernotre modèle.

Comment fonctionne la régularisation L1 et L2 ?

Un modèle de régression qui utilise la technique de régularisation L1 est appelé Lasso Regression et un modèle qui utilise L2 est appelé Ridge Regression. La principale différence entre ces deux est la durée de la peine. La régression de crête ajoute la "magnitude au carré" du coefficient comme terme de pénalité à la fonction de perte.

Conseillé: