Question Answering Transformer Model for Arabic Language
Loading...
Date
2023-06-07
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
university of eloued جامعة الوادي
Abstract
اللغة العربية هي سادس لغة طبيعية الكثر انتشارا في العالم مع أكثر من 350 مليون ناطقا بها.
غالبية النصوصفي البيانات العربية غير منظمة وموزعة عبر النترنت. يمكن أن تسفر بيانات
النصهذه عن معرفة مفيدة إذا تم الحصول عليها وتجميعها وتنسيقها وتحليلها بشكل صحيح.
في هذا العمل، قمنا باستخراج وتنسيق البيانات في الفقه والسيرة من مصادر مختلفة لنشاء مجموعة
بيانات )الجابة على السئلة في الفقه والسيرة( مع 550 ساال باللغة العربية. وهو الول من نوعه.
بعد ذلك ، قمنا بتدريب ثلثة نماذج من عائلة بيرت )بيرت ، ديستيلبرت ، و إلكترا( على مجموعة
البيانات باستخدام مكتبة المحولت البسيطة. مقاييس التقييم المستخدمة كانت)صحيحة وغير صحيحة
ومتشابهة( ،حيث كانت النتيجة المتحصلعليها من اجل نماذج بيرت، ديستيلبيرت والكترا جيدة نسبيا.Arabic is the 6th most wide-spread natural language in the world with more than 350
million native speakers. The majority of text in Arabic data is unstructured and dispersed
across the internet. This text data can yield helpful knowledge if it is properly obtained,
aggregated, formatted, and analyzed.
In this work, we extracted and formatted data in Fiqh and Syrah from different resources
to create QAFS (Question Answering in Fiqh and Syrah) dataset with 550 questions in the
Arabic language. Which is the first of its kind. Later, we trained three BERT models family
(BERT, DistilBERT, and ELECTRA) on QAFSv1 using simple transformers library.
The evaluation metrics used were (correct, incorrect, and similar). Finally, we obtained
relatively good results for BERT & DistilBERT, and ELECTRA.
Description
mémoire master informatuque
Keywords
محولت ، اللغة العربية ، الجابة على السئلة ، مجموعة البيانات., Transformer, Arabic Language, Question Answering, Dataset.