La normalisation est utile lorsque vos données ont des échelles variables et que l'algorithme que vous utilisez ne fait pas d'hypothèses sur la distribution de vos données, comme les k-plus proches voisins et les neurones artificiels réseaux. La normalisation suppose que vos données ont une distribution gaussienne (courbe en cloche).
Quand devrions-nous normaliser les données ?
Les données doivent être normalisées ou standardisées pour mettre toutes les variables en proportion les unes avec les autres. Par exemple, si une variable est 100 fois plus grande qu'une autre (en moyenne), votre modèle peut se comporter mieux si vous normalisez/standardisez les deux variables pour qu'elles soient approximativement équivalentes.
Quelle est la différence entre normalisation et normalisation ?
La normalisation signifie généralement une remise à l'échelle des valeurs dans une plage de [0, 1]. La normalisation signifie généralement que les données sont remises à l'échelle pour avoir une moyenne de 0 et un écart type de 1 (variance unitaire).
Quand et pourquoi avons-nous besoin d'une normalisation des données ?
En termes plus simples, la normalisation garantit que toutes vos données s'affichent et se lisent de la même manière dans tous les enregistrements. La normalisation normalisera les champs, y compris les noms d'entreprise, les noms de contact, les URL, les informations d'adresse (rues, états et villes), les numéros de téléphone et les intitulés de poste.
Comment choisissez-vous la normalisation et la standardisation ?
Dans le monde des affaires, la "normalisation" signifie généralement que la plage de valeurs est"normalisé pour être de 0,0 à 1,0". "Standardisation" signifie généralement que la plage de valeurs est "normalisée" pour mesurer le nombre d'écarts-types entre la valeur et sa moyenne.