Amélioration  des  Forêts  Aléatoires  pour une Meilleure

Prédiction

 

 

 

 

 

 

Mostafa El HABIB DAHO Biomedical Engineering Laboratory Tlemcen University,  Algeria

Email:  Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.

 

Nesma SETTOUTI Biomedical  Engineering Laboratory

Tlemcen  University, Algeria Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.


Mohammed  El Amine LAZOUNI Biomedical  Engineering Laboratory

Tlemcen  University, Algeria Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.


Mohammed  Amine CHIKH Biomedical  Engineering Laboratory

Tlemcen  University, Algeria mea Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.

 

 

 

 

 

Abstract

 

Les Forˆets Al´eatoires RF  (Random Forest) sont largement utilis´ees dans  les probl`emes de classification.  Dans cet article, une version modifi´ee  de  RF  appel´ee  Sub  RF  (pour   Sub- spaces  Random Forests) est  propos´ee.  Notre proc´edure de  g´en´eration des  arbres  est  bas´ee sur  l’algorithme des forˆets  al´eatoires  appliqu´e a` un mod`ele RSM (Random subspaces). Cette approche a ´et´e test´ee sur cinq bases de donn´ees de l’UCI Machine Learning Repository.  Les r´esultats  montrent  que  notre   m´ethode  pro- pos´ee  Sub  RF   am´eliore  les  performances de chaque   ensemble   de  donn´ees  comparant  au PERT, SubBag  et l’algorithme RF.

Mots cl´es:    Forˆet Al´eatoire, M´ethodes d’ensembles,  Sous-espaces al´eatoires, Sub RF, indice  de Gini,  classification.

 

 

1    Introduction

 

Le principe de la m´ethode d’ensemble (voir, par exem- ple [1]) est de construire une collection des pr´edicteurs, et puis agr´eger  l’ensemble de leurs pr´edictions.  Dans la  classification,  l’agr´egation  revient,  par  exemple,  a un  vote  majoritaire parmi  les classes fournies  par  les pr´edicteurs.


Au  lieu d’essayer  d’optimiser  un  mod`ele qui  con- tient ”une  seule  hypoth`ese”,  les m´ethodes ensemble g´en`erent plusieurs  r`egles de pr´ediction et ensuite,  met- tent en commun  leurs diff´erentes r´eponses.

 

L’heuristique  de ces m´ethodes est  qu’en g´en´erant beaucoup  de pr´edicteurs, on explore grandement l’espace  des  solutions,  et  qu’en  agr´egeant toutes   les pr´edictions,  on  r´ecup`ere un  pr´edicteur qui  prend  en consid´eration toute  cette  exploration.

 

L’objectif   vis´e  est  que   le  pr´edicteur  final  soit meilleur   que   chacun   des   pr´edicteurs  individuels   : mˆeme si les classifieurs individuels  commettent des er- reurs, il est peu probable  qu’ils commettent les mˆemes erreurs  pour  les mˆemes  entr´ees.   Ici, surgit  l’id´ee  que les pr´edicteurs  individuels  doivent  ˆetre  diff´erents  les uns  des autres  :  la majorit´e  ne doit  pas  se tromper pour un mˆeme x.

 

Pour  que cela soit  possible,  il faut  ´egalement  que les pr´edicteurs individuels  soient relativement bons et diff´erents les uns  des  autres  (l`a ou` un  pr´edicteur se trompe,  les autres  doivent prendre  le relais  en ne se trompant pas).   Le premier  point est  n´ecessaire, car agr´eger des  pr´edicteurs mauvais  ne  pourra   vraisem- blablement   pas   donner   un   bon   pr´edicteur.       Le deuxi`eme  point  est  ´egalement  naturel,  car  agr´eger

 des pr´edicteurs qui sont quasiment pareils donnera encore un pr´edicteur semblable  et n’am´eliorera pas les pr´edictions.

  Dans  ce  travail,  l’une  des  m´ethodes  d’ensemble les  plus  r´epondus  appel´ee  RF  (Random  Forest)   [2] est  utilis´e.     Une  Forˆet  Al´eatoire  (Random   Forest) est constitu´ee d’un ensemble d’arbres simples de pr´evision,   chacun   ´etant  capable   de   produire   une r´eponse lorsqu’on lui pr´esente un sous-ensemble de pr´edicteurs.

 

Pour    les   probl´ematiques   de   classification,     la r´eponse prend  la forme d’une classe qui associe un en- semble (classe)  de valeurs  ind´ependantes  (pr´edicteur)

`a une des cat´egories pr´esente dans la variable ind´ependante.

 En   utilisant  les  ensembles   d’arbres   on  obtient une  am´elioration  significative  de  la  pr´evision  (c’est- a-dire  une  meilleure  tendance `a pr´evoir sur  les nou- velles donn´ees), par rapport aux techniques  classiques (par  exemple  CART)[3].    La  r´eponse  de  chaque  ar- bre  d´epend   du  sous-ensemble   de  pr´edicteurs   choi- sis ind´ependamment (avec  remplacement) et  avec  la mˆeme distribution pour tous les arbres  de la forˆet.

 

Dans   cet   article,    l’int´erˆet   principal    est   donc d’´etudier les performances  d’une version  modifi´ee des forˆets al´eatoires que nous appelons Sub RF (Subspaces Random  Forests).   Notre m´ethode propos´ee pour l’induction  des  arbres  tente  d’am´eliorer la  pr´ecision. Pour  cela,  ce papier  a ´et´e  formul´e  comme suit:  dans la section 2, nous pr´esentons le principe  des m´ethodes d’ensemble  utilis´ees  dans  cet  article.   Dans  la section

4, nous d´etaillons notre  approche  d’induction  d’arbres propos´ee. Nos r´esultats sont pr´esent´es et discut´es dans la section  suivante.   Enfin,  une  synth`ese g´en´erale qui met en ´evidence les principales  propri´et´es de notre technique   ainsi  que  quelques  perspectives   sont  pro- pos´es.

 

 

télécharger l'article