cross-lingual semantic textual similarity for english and arabic sentences
Loading...
Date
2019-06-20
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
جامعة الوادي University of Eloued
Abstract
"الذكاء الاصطناعي هو حقل فرعي لعلوم الكمبيوتر كان له حظ وافر من الأضواء المسلطة عليه في العقود الثلاث المنصرمة. تحديدا دراسة الذكاء المتمثل في طريقة التحاور البشرية. إن المعالجة الطبيعية للغة أو ما يسمى اللغويات الحاسوبية هي في الغالب تغطي مثل هذه الدراسات. و يعالج مجال اللغويات الحاسوبية العديد من المشكلات الرئيسية بدءاً من تحليل المعنويات و المشاعر ، الكشف عن الانتحال الترجمة الآلية ابتداءا من استخراج المعلومات ، استخراج الكلمات الأساسية و أخيرا التشابه النصي الدلالي ، والتي تُعتبر حجر الأساس لحل أي مشكل آخر ذو درجة تعقيد عالية على مستوى معالجة اللغة الطبيعية. على وجه الخصوص ، يمكن وضع التشابه النصي الدلالي كجزء أساسي من أي مخطط رئيسي للشروع في العديد من مشاريع معالجة اللغة الطبيعية. ليس فقط في جانب أحادي اللغة ولكن أيضًا متعدد اللغات. في هذا العمل ، اقترحنا نظامًا للتشابه الدلالي عبر اللغات يراعي اللغتين الإنجليزية والعربية. خلال السعي في تحقيق هذا الهدف ، جمعنا قدرا كبيرا من النصوص للغتين مختلفتين و قمنا بتهيئتها و تسويتها، ثم عملنا على إنشاء نواة فعالة للنظام تعرف باسم نموذج تضمين الكلمات. و استمر العمل نحو إنشاء نظام التشابه. في النهاية ، جمعنا بين النظام و ثلاث طرق ترجيح و وزن مختلفة محاولة منا لتحقيق مزيد من التحسين و الدقة.
"Artificial Intelligence is a computer science sub-field that had many lights focused on
it these last three decades. Computational Linguistics, also widely known as Natural
Language Processing (NLP), is the domain that covers such studies that correspond
to human’s most famous way of communication. Natural Language Processing treats
many major problems starting from Sentiment Analysis, Plagiarism Detection, Machine
Translation down to Information Retrieval, Keywords Extraction and Semantic Textual
Similarity which are considered as keystones for solving any other high level Natural
Language Processing problem. Particularly, Semantic Textual Similarity can be put as
a blueprint head start in many Natural Language Processing projects. Not just in a
mono-lingual aspect but also multilingual. In this work we proposed a Cross-Lingual
Semantic Similarity System concerning English and Arabic. We collected and prepro-
cessed a large textual dataset. While achieving this purpose we stepped into a crucial
decision of choosing one efficient system core known as the Word Embedding Model. As
a matter of fact we have built our own and carried on towards our Similarity System.
Eventually, we combined the system with three different weighting methods looking for
more improvement.
"
"
Description
mémoire master informatigue
Keywords
الكلمات المفتاحية: معالجة اللغة الطبيعية ، تضمين الكلمات ، الترجمة الآلية ، التشابه الدلالي., Keywords: Natural Language Processing, Word Embeddings, Machine Translation, Semantic Similarity.