Prétraitements
Etape optionnelle mais qui peut s'avérer fondamentale, les prétraitements
permettent :
- d'améliorer les résultats des traitements,
- d'accélérer les traitements en réduisant la taille du jeu de
données,
- de corriger certains défauts dans le jeu de données.
Centrer/réduire
Vos features peuvent avoir des gammes de valeur très différentes,
ce qui gène nombre d'algorithmes. Centrer/réduire efface ces différences en
donnant à tous vos features une moyenne égale à 0, et un écart-type de 1.
NB: cette technique accélérant généralement les traitements, il est coché
par défaut.
Equilibrage des échantillons
Les échantillons sont déséquilibrés lorsqu'une ou plusieurs classes est
prédominante. L'équilibrage consiste à sous-échantillonner les classes
avec le plus d'individus.
Séparabilité
La sébarabilité donne une indication sur la faisabilité d'une classification,
avant celle-ci.
Se reposant uniquement sur les distances entre les individus des
échantillons, une bonne séparabilité permettra logiquement des bons résultats
de classification.
Réduction des dimensions
Réduire les dimensions peut s'avérer nécessaire pour des jeux de
données volumineux, mais aussi utile pour mieux comprendre ses données,
en identifiant les features les plus importants.
La réduction peut se faire en :
- sélectionnant des features,comme avec les méthodes
kbest, rfe...,
- transformant le jeu de données, comme avec les méthodes
pca, lda...
Une fois la méthode choisie, vous pourrez préciser le nombre de
dimensions souhaité.