Revue ⴰⵙⵉⵏⴰⴳ-Asinag N° 9

Les Technologies de l’Information et de la Communication (TICs) au service de l’amazighe

 

 

 

Résumé: In this paper, we look at the progress made since Tifinagh characters were encoded in ISO/IEC 10646 and Unicode in 2005. Eight years ago, it was impossible to send documents written in Tifinagh without reference to a private encoded font. Today, you can create HTML pages, XML documents, email in Tifinagh. Now, There is a standard keyboard approved by the Moroccan standard body to enter Tifinagh text, a standard for sorting Tifinagh strings, and Microsoft provides by default in its newest versions  a font that supports the Tifinagh. users can now view HTML pages without having to explicitly install a Tifinagh font on their system. Software libraries like ICU also support Tifinagh and it is possible in theory to have internet domain names in Tifinagh.
Dans cette contribution, nous nous pencherons sur le chemin parcouru depuis le codage des caractères tifinaghes dans l’ISO 10646 et Unicode en 2005. Il y a huit ans, il était impossible d’envoyer des documents en tifinaghes sans se référer à un codage de police privé. Aujourd’hui, on peut créer des pages HTML, des documents XML en tifinaghes, envoyer des courriels. Il existe un clavier normalisé pour saisir des textes tifinaghes, une norme de tri, Microsoft fournit une police qui prend en charge les tifinaghes. L’utilisateur peut désormais voir des pages HTML sans qu’il n’ait à explicitement installer de polices tifinaghes sur son système. Des bibliothèques logicielles comme ICU prennent également en charge les tifinaghes et il est possible, en théorie, d’avoir des noms de domaine Internet en tifinaghes.

 

ملخص: أدرك المعهد الملكي للثقافة الأمازيغية بمدى أثر العولمة والنهضة العلمية في تغيير وضع لغات وثقافات العالم، جعله يضع سياسة تهدف إلى حوسبة اللغة الأمازيغية ابتداء من إنجاز الآليات المساعدة على كتابتها وعرضها رقميا ووصولا إلى الآليات المتطورة التي تسمح بتصحيح الأخطاء الإملائية والنحوية ودعم الترجمة الفورية. في هذا السياق، يتناول هذا المقال الأهداف الإستراتيجية المساهمة في تعزيز مكانة اللغة والثقافة الأمازيغيتين، ويقترح على ضوء تكنولوجيا المعلومات والاتصالات خريطة طريق للنهوض بهما. كما يقدم لمحة عامة تشمل أهم الإنجازات التي حققتها اللغة الأمازيغية في هذا الصدد خلال العشرية الأخيرة.

 

Résumé: L’articolo presenta la toolbox di Smallcodes, uno strumento web indispensabile per le lingue minoritarie e valuta la sua possibile applicazione al Tamazight. Lo strumento è stato sviluppato per permettere anche alle minoranze linguistiche di incrementare la loro presenza nel cyberspace e quindi passare da una realtà solo orale e al mondo scritto di Internet. La toolbox unificata di Smallcodes è composta da diversi moduli integrati tra loro: un dizionario che tenga conto delle esigenze speciali (ad esempio i caratteri) delle lingue di minoranza; un correttore ortografico studiato per la diversità dialettale; una sezione di terminologia che aiuti la pianificazione di neologismi. Crediamo infatti che per permettere alle lingue meno usate di sopravvivere in un mondo ultra-connesso dove la maggior parte degli input sono mediati dal web e dalla lingua scritta, sia necessario dotare queste lingue di un “kit di sopravvivenza” per fornire loro gli stessi strumenti e risorse delle maggiori lingue nazionali.

 

Résumé: We describe our involvement in projects aimed at the production of French and Franco arabo berber digital resources : the BNFB (a project of the OIF FFI [1]) and HumanitéDigitMaghreb (a project of the CNRS ISCC).
In this paper, we focus particularly on the methods used in HumanitéDigitMaghreb (the TEI, specifically applied to the structuration of speech corpora and corpora of poetry and folk tales). The link with the ethnomusicological TEI markup is expected but will be considered later.
We will also examine the practical and future issues of very large corpora, linguistically annotated in accordance with a common standard and designed to constitute, for the linguistic community (for us, the Berber world), the context necessary to interact with the future tools translation and e-semantics
On this last point, for written or oral (audio signal or transcription) corpora, it is essential that the research community about Berber cooperate to promptly equip Berber languages of modern tools for digital processing.

 

 Résumé: La langue amazighe, comme la plupart des langues de moindre diffusion, souffre encore de la pénurie d'outils et des ressources pour son traitement automatique, en particulier les corpus annotés. Ces derniers sont plus difficiles à construire que les corpus bruts qui à leur tour nécessitent, dans la majorité des cas, des prétraitements. L’objectif de cet article est de présenter une approche basée sur l’apprentissage semi-supervisé visant l’utilisation d’un corpus de textes bruts, sélectionnés sur la base de la mesure de confiance des Champs Aléatoires Conditionnels(CACs), conjointement avec un corpus annoté manuellement de 20k morphèmes. Les résultats des expérimentations préliminaires montrent une réduction du taux d’erreur de l’étiqueteur morphosyntaxique de 1,3%. De même, la réduction du taux d’erreur est-elle  de 5,9%, entre 60% et 90% du corpus, lorsque le modèle est entrainé par les phrases du corpus brut annotées automatiquement.

Amazigh language, and like most of the languages which have only recently started being investigated for the Natural Language Processing (NLP) tasks, lacks annotated corpora and tools and still suffers from the scarcity of linguistic tools and resources and especially annotated corpora. Creating labeled data is a hard task. However, obtaining unlabeled data, although needing most time preprocessing for languages with scarce resources, is less difficult. The aim of this paper is to present a semi-supervised based approach using labeled and unlabeled data. Preliminary results show an error reduction of 1,3%, when training our POS tagger with Conditional Random Fields(CRFs), with chosen automatically annotated texts and a small manually annotated corpus of about 20k tokens. Also, when trained with automatically annotated data, the achieved improvement between 60% and 90% of the trained data is 5.9%.

 

Résumé: Nous étudions l’évolution d’une série de textes conçus pour les apprenants de la langue arabe, langue seconde, le long d'un cursus en considérant leur contenu lexical en termes de vocabulaire soi-disant acquis ou en cours d'acquisition par les apprenants auxquels sont destinés ces textes. Nous examinons aussi l'évolution d'autres variables de texte communément utilisés pour mesurer la lisibilité d'un texte. L'objectif est de déterminer les traits des textes qui peuvent être utilisés pour construire un modèle prédictif de la pertinence d'un texte à un apprenant, à un stade d'apprentissage donné, tel que défini principalement par le vocabulaire appris. Nous concluons en examinant si l’approche et les résultats peuvent être appliqués à l’amazighe.

 

Résumé: The design and implementation of systems OCR Amazigh character is very crucial for the promotion and development of the Amazigh language. To date, there is the lack of this type of system. Therefore, the automatic character recognition and text Amazigh has experienced in recent years a very significant interest in research work. Indeed, some systems have been developed to improve this situation. In this paper, we describe the different systems and approaches that were developed and tested in our laboratory to automatically recognize the Amazigh writing, showing the characteristics and results of each. This description will allow us to conduct a comprehensive summary of the various approaches and proposed systems that will help us to launch the outlook for future work.

 

Résumé: In this paper, we propose a new approach for Amazigh isolated word recognition, based on relevant speech signal parameters’ extraction algorithm. In general, the approach consists on the application of adaptive orthogonal transforms that are characterized by a linear operator constituted of configurable functions, which allows the transform adaptation to the initial data and the reduction of feature vector dimension, that improve the isolated word recognition rate.

 

Résumé: This work focuses on the design and the development of a context ontology model, based on a domain ontology enriched, by lexico-semantic relations defining the lexical functions introduced by Mel'cuk in the Meaning-Text Theory, and by the concept of the context, in order to improve the analysis and the detection of meaning in text. This is motivated, by the fact that, unstructured data constitute the majority of produced contents, requiring for their exploitation, the development of tools and technologies allowing their integration into knowledge-based and reasoning-based systems. Existing technologies in the analysis and the extraction of semantic information from text can have a lot of imperfections; indeed, important elements such as concept of the context and use of all possible relations between terms, are not fully and formally supported. It is why we propose an extended model of a domain ontology as a context (in our case an ontology of fauna and flora), enriched by aspects that can help to address the cited problems. Such ontologies constitute the basis of an advanced approach for the detection and the extraction of contextual and semantic information from text, published in a parallel article (H.Fadili ACS/IEEE, 2013).

 

ملخص: يعتبر  الوسم النحوي علما لتصنيف وتدليل كلمات النص أو المتن النصي إلى نوع محدد من أجزاء الكلام بناء على تعريف الكلمة وسياقها. ويعد حجر الزاوية للعديد من تطبيقات المعالجة الآلية للَغات الطبيعية وخاصة التصحيح النحوي، التحليل الدلالي والترجمة الآلية. ويعتمد في ذلك على وضع وتحديد لائحة أجزاء الكلام المناسبة للخصوصيات اللغوية للَغة المدروسة. في هذا المقال، نقترح مجموعة من العلامات النحوية تضم تصنيفا مفصلا لأجزاء كلام اللَغة الأمازيغية، آخذين بعين الاعتبار الخصائص الصرفية والتركيبية للَغة الأمازيغية ومستندين في بناء هذه الأقسام على نموذج ' EAGLES '، الذي يساهم في الانفتاح على التطبيقات المتعددة اللَغات.

Résumé: This work aims to provide the Amazigh language with a morphosyntactic tagset. In this process, morphology and syntax are considered as an inextricable asset.
This tagset will assign to each meaningful unit information concerning the 'shape variations of signifiers, their amalgams and their discontinuity' and information about its function in the statement. The proposed tagset is based on EAGLES guidelines in order to ensure the reuse of corpora and language’s comparability in natural language processing.

Ce travail se veut une contribution  à l’élaboration d’un Jeu d’étiquettes morphosyntaxiques de la langue amazighe. Il s’appuie sur la morphologie et la syntaxe en tant qu’un tout indissociable. Ce jeu permettra d’attribuer à chaque unité significative des informations sur les « variations de forme de signifiants, à leurs amalgames et à leur discontinuité  » et sur sa fonction dans l’énoncé.
Le jeu que nous proposons ici se base sur les recommandations EAGLES, visant la réutilisation des corpus et la comparabilité entre les langues dans le domaine du traitement automatique du langage naturel.

 

Résumé: La normalisation des technologies de l’information destinées à l’apprentissage, à l’éducation et à la formation, a pour objet d’améliorer l’accessibilité des ressources d’enseignement et d’apprentissage produites dans une variété d’établissements d’enseignement et d’organismes privés et publics, de divers pays, utilisant différentes langues, sous divers environnements technologiques. L’édifice d’un environnement d’apprentissage standard pour les langues minoritaires tel l’amazighe trouve dans l’approche normative la meilleure alternative pour organiser les ressources éducatives futures de la langue amazighe. Dans ce travail, nous commencerons par l’examen du profil NORMETIC qui est une variante d’application de la norme IEEE 1484.12.1 (LOM) des métadonnées d’objets d’apprentissage développé par le GTN-Québec. Dans un deuxième lieu, nous détaillerons les caractéristiques majeures de la Banque Eurêka des ressources d’apprentissages à partir du point de vue de sa compatibilité avec le profil NORMETIC.

 

 

Comptes rendus

Résumé: Compte rendu de l’ouvrage d’Ahmed Boukous intitulé : Revitalisation de la langue amazighe et sous-titré : Défis, enjeux et stratégies, publié par l’Institut Royal de la culture amazighe, série : Etudes n° 22, Imprimerie Top Press, Rabat, 2012.