j'ai utilisé le ACP (Analyse par Composantes Principales) pour réduire la taille des vecteurs tout en conservant ceux les plus significatifs.
Je me demande si chaque dimension des vecteurs des données a un domaine de définition différent: Par exemple
la première dimension varie entre 0 et 5
la 2 ème dimension varie entre 0 et 100
la troisième varie entre -100 et 200
Dans ce cas, est-t-il nécessaire de trouver un astuce pour normaliser ces domaines de définitions pour qu'ils soient égaux ou non. Car, je pense que la dimension ayant un domaine de définition le plus large engendrera une valeur Propre plus important et par la suite elle sera préviligiée pour le choix des composantes principales.
merci pour votre interêt
Analyse par Composantes Principales & réduction de dimen
-
- Modérateur honoraire
- Messages : 1803
- Inscription : samedi 28 mai 2005, 14:48
- Localisation : Orsay, France
Oui tu as raison.
En général on utilise la matrice de corrélation au lieu de la matrice de covariance pour donner autant d'importance à chaque variable.
En général on utilise la matrice de corrélation au lieu de la matrice de covariance pour donner autant d'importance à chaque variable.
nirosis
Lisez le tutoriel sur LaTeX
Lisez le tutoriel sur LaTeX
comment calculer la matrice de corrélation?
S'il vous plait préciser moi comment calculer la matrice de corrélation d'un jeu de données à N dimensions.
je me demande aussi si, en calculant les valeurs propres pour calculer les composantes principales, on obtient des valeurs négatives. Est-ce-qu'on trie les valeurs propres du plus grand au plus petit tout en conservant les signes ou on applique la valeur absolu aux valeur propres puis on trie.
Car, je pense que les valeurs propres négatifs ayant une norme si importante auront une importance pour la description des données.
je me demande aussi si, en calculant les valeurs propres pour calculer les composantes principales, on obtient des valeurs négatives. Est-ce-qu'on trie les valeurs propres du plus grand au plus petit tout en conservant les signes ou on applique la valeur absolu aux valeur propres puis on trie.
Car, je pense que les valeurs propres négatifs ayant une norme si importante auront une importance pour la description des données.
-
- Modérateur honoraire
- Messages : 1803
- Inscription : samedi 28 mai 2005, 14:48
- Localisation : Orsay, France
C'est le même calcul que la matrice de covariance sauf que chaque variable est centrée et réduite (moins la moyenne et divisé par l'ecart-type)
Ensuite tu ne peux pas avoir de valeur propre négative car la matrice de covariance (ou corrélation) est symétrique et définie positive donc à valeurs propres réelles et positives...
Ensuite tu ne peux pas avoir de valeur propre négative car la matrice de covariance (ou corrélation) est symétrique et définie positive donc à valeurs propres réelles et positives...
nirosis
Lisez le tutoriel sur LaTeX
Lisez le tutoriel sur LaTeX