La multicolinéarité est un problème car elle sape la signification statistique d'une variable indépendante. Toutes choses étant égales par ailleurs, plus l'erreur type d'un coefficient de régression est grande, moins il est probable que ce coefficient soit statistiquement significatif.
Comment savoir si la multicolinéarité est un problème ?
Une façon de mesurer la multicolinéarité est le facteur d'inflation de la variance (VIF), qui évalue dans quelle mesure la variance d'un coefficient de régression estimé augmente si vos prédicteurs sont corrélés. … Un VIF entre 5 et 10 indique une forte corrélation qui peut être problématique.
La colinéarité est-elle un problème pour la prédiction ?
La multicolinéarité est toujours un problème pour la puissance prédictive. Votre modèle sera surajusté et moins susceptible de se généraliser à des données hors échantillon. Heureusement, votre R2 ne sera pas affecté et vos coefficients seront toujours impartiaux.
Pourquoi la colinéarité est-elle un problème dans la régression ?
La multicolinéarité réduit la précision des coefficients estimés, ce qui affaiblit la puissance statistique de votre modèle de régression. Vous ne pourrez peut-être pas faire confiance aux valeurs de p pour identifier les variables indépendantes qui sont statistiquement significatives.
Quand devez-vous ignorer la colinéarité ?
Cela augmente les erreurs standard de leurs coefficients, et cela peut rendre ces coefficients instables de plusieurs façons. Mais tant que la colinéaireles variables ne sont utilisées que comme variables de contrôle, et elles ne sont pas colinéaires avec vos variables d'intérêt, il n'y a pas de problème.