Amélioration des Forêts Aléatoires pour une Meilleure
Prédiction
Mostafa El HABIB DAHO Biomedical Engineering Laboratory Tlemcen University, Algeria
Email: Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
Nesma SETTOUTI Biomedical Engineering Laboratory
Tlemcen University, Algeria Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
Mohammed El Amine LAZOUNI Biomedical Engineering Laboratory
Tlemcen University, Algeria Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
Mohammed Amine CHIKH Biomedical Engineering Laboratory
Tlemcen University, Algeria mea Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
Abstract
Les Forˆets Al´eatoires RF (Random Forest) sont largement utilis´ees dans les probl`emes de classification. Dans cet article, une version modifi´ee de RF appel´ee Sub RF (pour Sub- spaces Random Forests) est propos´ee. Notre proc´edure de g´en´eration des arbres est bas´ee sur l’algorithme des forˆets al´eatoires appliqu´e a` un mod`ele RSM (Random subspaces). Cette approche a ´et´e test´ee sur cinq bases de donn´ees de l’UCI Machine Learning Repository. Les r´esultats montrent que notre m´ethode pro- pos´ee Sub RF am´eliore les performances de chaque ensemble de donn´ees comparant au PERT, SubBag et l’algorithme RF.
Mots cl´es: Forˆet Al´eatoire, M´ethodes d’ensembles, Sous-espaces al´eatoires, Sub RF, indice de Gini, classification.
1 Introduction
Le principe de la m´ethode d’ensemble (voir, par exem- ple [1]) est de construire une collection des pr´edicteurs, et puis agr´eger l’ensemble de leurs pr´edictions. Dans la classification, l’agr´egation revient, par exemple, a un vote majoritaire parmi les classes fournies par les pr´edicteurs.
Au lieu d’essayer d’optimiser un mod`ele qui con- tient ”une seule hypoth`ese”, les m´ethodes ensemble g´en`erent plusieurs r`egles de pr´ediction et ensuite, met- tent en commun leurs diff´erentes r´eponses.
L’heuristique de ces m´ethodes est qu’en g´en´erant beaucoup de pr´edicteurs, on explore grandement l’espace des solutions, et qu’en agr´egeant toutes les pr´edictions, on r´ecup`ere un pr´edicteur qui prend en consid´eration toute cette exploration.
L’objectif vis´e est que le pr´edicteur final soit meilleur que chacun des pr´edicteurs individuels : mˆeme si les classifieurs individuels commettent des er- reurs, il est peu probable qu’ils commettent les mˆemes erreurs pour les mˆemes entr´ees. Ici, surgit l’id´ee que les pr´edicteurs individuels doivent ˆetre diff´erents les uns des autres : la majorit´e ne doit pas se tromper pour un mˆeme x.
Pour que cela soit possible, il faut ´egalement que les pr´edicteurs individuels soient relativement bons et diff´erents les uns des autres (l`a ou` un pr´edicteur se trompe, les autres doivent prendre le relais en ne se trompant pas). Le premier point est n´ecessaire, car agr´eger des pr´edicteurs mauvais ne pourra vraisem- blablement pas donner un bon pr´edicteur. Le deuxi`eme point est ´egalement naturel, car agr´eger
des pr´edicteurs qui sont quasiment pareils donnera encore un pr´edicteur semblable et n’am´eliorera pas les pr´edictions.
Dans ce travail, l’une des m´ethodes d’ensemble les plus r´epondus appel´ee RF (Random Forest) [2] est utilis´e. Une Forˆet Al´eatoire (Random Forest) est constitu´ee d’un ensemble d’arbres simples de pr´evision, chacun ´etant capable de produire une r´eponse lorsqu’on lui pr´esente un sous-ensemble de pr´edicteurs.
Pour les probl´ematiques de classification, la r´eponse prend la forme d’une classe qui associe un en- semble (classe) de valeurs ind´ependantes (pr´edicteur)
`a une des cat´egories pr´esente dans la variable ind´ependante.
En utilisant les ensembles d’arbres on obtient une am´elioration significative de la pr´evision (c’est- a-dire une meilleure tendance `a pr´evoir sur les nou- velles donn´ees), par rapport aux techniques classiques (par exemple CART)[3]. La r´eponse de chaque ar- bre d´epend du sous-ensemble de pr´edicteurs choi- sis ind´ependamment (avec remplacement) et avec la mˆeme distribution pour tous les arbres de la forˆet.
Dans cet article, l’int´erˆet principal est donc d’´etudier les performances d’une version modifi´ee des forˆets al´eatoires que nous appelons Sub RF (Subspaces Random Forests). Notre m´ethode propos´ee pour l’induction des arbres tente d’am´eliorer la pr´ecision. Pour cela, ce papier a ´et´e formul´e comme suit: dans la section 2, nous pr´esentons le principe des m´ethodes d’ensemble utilis´ees dans cet article. Dans la section
4, nous d´etaillons notre approche d’induction d’arbres propos´ee. Nos r´esultats sont pr´esent´es et discut´es dans la section suivante. Enfin, une synth`ese g´en´erale qui met en ´evidence les principales propri´et´es de notre technique ainsi que quelques perspectives sont pro- pos´es.
télécharger l'article