Conception et Réalisation d’un lemmatiseur hybride de texte arabe

 

 

 

 

CHERAGUI Mohamed Amine Département des Mathématiques et Informatique Université Ahmed Draya

Adrar, Algérie

Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.


CHOUGUEUR Djilali Département des Mathématiques et Informatique Université Ahmed Draya

Adrar, Algérie

Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.

 

 

 

 

RésuméLe traitement automatique de la langue arabe (TALA) a connu ces dernières décennies une véritable ascension, laissant naître une panoplie de produits spécialisés comme: la traduction automatique, les correcteurs orthographiques d'erreurs, les générateurs de mots, les résumeurs automatiques, …etc. Cependant le développement de tels outils passe par la mise en place d'un certain nombre de modules d'une importance capitale tel que la lemmatisation automatique, qui consiste à convertir

chaque unité (mot) à sa forme canonique1. Le but de cet article

est de présenter notre système STAR, qui est un lemmatiseur automatique de texte arabe, où l'originalité de ce travail réside dont le fait de cohabiter trois (03) approches (par dictionnaire, suppression des affixes et analyse morphologique).

 

Mots   clés :   lemmatisation;   segmentation;   langues   arabe ;

lemme ; Racine ; approches de lemmatisation.

 

I.      INTRODUCTION

Le  traitement automatiques des langues naturelle est un domaine  de  recherche  qui  se  positionne  à  l'intersection de plusieurs  disciplines :  Intelligence  artificielle,  Informatique théorique, calcul statistique, linguistique, …etc. Dont le principal objectif est la  conception et  le  développement de programmes capables de traiter de manière automatique des données linguistiques c'est-à-dire des données exprimées dans une langue dite naturelle.

 

Ces dernières décennies le traitement automatique des langues a connu une véritable ascension que ce soit sur le plan scientifique mais aussi socio-économique est-celà par l'émergence de plusieurs firmes et de produits spécialisés, on parle aujourd’hui : de Traduction automatique, de correction automatique d'orthographe, de résumé automatique, d'interrogation de base de données en langues naturelle, ….etc. [1], [2].

 

La réalisation de n'importe quelles applications parmi celles citées   précédemment   passe   principalement   par   différent niveaux (lexicale, morphologique, syntaxique, sémantique et

 

savoir la lemmatisation, en se focalisant sur les points suivants: le principe de la lemmatisation, caractéristiques de la langue arabe, les démarches de lemmatisation et présentation de l'architecture du système STAR où l’originalité de notre travail réside dont la  création d’une approche hybride combinat 3 techniques différentes (Dictionnaire, élimination d’affixes et analyse morphologique) et enfin présentation des résultats obtenus.

 

 

télécharger l'article