Question Answering Transformer Model for Arabic Language

No Thumbnail Available

Date

2023-06-07

Journal Title

Journal ISSN

Volume Title

Publisher

university of eloued جامعة الوادي

Abstract

اللغة العربية هي سادس لغة طبيعية الكثر انتشارا في العالم مع أكثر من 350 مليون ناطقا بها. غالبية النصوصفي البيانات العربية غير منظمة وموزعة عبر النترنت. يمكن أن تسفر بيانات النصهذه عن معرفة مفيدة إذا تم الحصول عليها وتجميعها وتنسيقها وتحليلها بشكل صحيح. في هذا العمل، قمنا باستخراج وتنسيق البيانات في الفقه والسيرة من مصادر مختلفة لنشاء مجموعة بيانات )الجابة على السئلة في الفقه والسيرة( مع 550 ساال باللغة العربية. وهو الول من نوعه. بعد ذلك ، قمنا بتدريب ثلثة نماذج من عائلة بيرت )بيرت ، ديستيلبرت ، و إلكترا( على مجموعة البيانات باستخدام مكتبة المحولت البسيطة. مقاييس التقييم المستخدمة كانت)صحيحة وغير صحيحة ومتشابهة( ،حيث كانت النتيجة المتحصلعليها من اجل نماذج بيرت، ديستيلبيرت والكترا جيدة نسبيا.Arabic is the 6th most wide-spread natural language in the world with more than 350 million native speakers. The majority of text in Arabic data is unstructured and dispersed across the internet. This text data can yield helpful knowledge if it is properly obtained, aggregated, formatted, and analyzed. In this work, we extracted and formatted data in Fiqh and Syrah from different resources to create QAFS (Question Answering in Fiqh and Syrah) dataset with 550 questions in the Arabic language. Which is the first of its kind. Later, we trained three BERT models family (BERT, DistilBERT, and ELECTRA) on QAFSv1 using simple transformers library. The evaluation metrics used were (correct, incorrect, and similar). Finally, we obtained relatively good results for BERT & DistilBERT, and ELECTRA.

Description

mémoire master informatuque

Keywords

محولت ، اللغة العربية ، الجابة على السئلة ، مجموعة البيانات., Transformer, Arabic Language, Question Answering, Dataset.

Citation