a large scale hotel arabic-reviews dataset

No Thumbnail Available

Date

2021-06-21

Journal Title

Journal ISSN

Volume Title

Publisher

universty of elouedجامعة الوادي

Abstract

"تغطي معالجة اللغة الطبيعية العديد من الدراسات وتعتبر السبب الرئيسي لتطوير التقنيات لفهم السلوك البشري. يمكن استخدام معالجة اللغة الطبيعية لحل مشكلات مثل الانتحال الكشف واستخراج الكلمات والمعلومات من النصوص وهي كذلك المستخدمة في الترجمة الآلية وتصنيف النص. اللغة العربية يعاني من نقص مجموعات البيانات الكبيرة المتاحة للتعلم الآلي. في هذا العمل ، نقدم لاشار (مجموعة بيانات فندق كبير الحجم - مراجعات باللغة العربية) ، أكبر مراجعات الفنادق في مجموعة البيانات العربية لتحليل المشاعر الشخصية وتطبيقات لغة الآلة. تتألف لاشار من 1،604،762 فندقاً المراجعات التي تم جمعها من موقع Booking.com الإلكتروني باستخدام سكرابيل الويب ، كل سجل يحتوي على نص مراجعة إيجابي أو سلبي باللغة العربية تقييم المراجع على مقياس من 1 إلى 10 نجوم ، والسمات الأخرى حول فندق / مراجع. استخدمنا أربعة مصنّفات مشاعر معروفة لفحص صحة مجموعة البيانات وكفاءتها. نقوم باختبار محللي المشاعر من أجل القطبية التصنيفات. التزامنا الأساسي هو جعل مجموعة البيانات المعيارية هذه متاح ومفتوح لمجتمع أبحاث اللغة العربية.""Natural language processing covers many studies and is considered the main reason for advancing techniques for understanding human behavior. Natural language processing can be used to solve problems such as plagiarism detection, extracting words and information from texts, and it is also used in machine translation and text classification. The Arabic language suffers from the lack of available large datasets for machine learning . In this work, we introduce LASHAR (A Large Scale Hotel Arabic-Reviews Dataset), the largest Hotel Reviews in Arabic Dataset for subjective sentiment analysis and machine language applications. LASHAR comprises of 1,604,762 hotel reviews collected from the Booking.com website using web scrapy, Each record contains positive or negative review text in the Arabic language, the reviewer’s rating on a scale of 1 to 10 stars, and other attributes about the hotel/reviewer. We used four well-known sentiment classifiers to examine the dataset’s validity and efficiency. We test the sentiment analyzers for polarity classifications. Our primary commitment is to make this benchmark data set available and open to the Arabic language research community."

Description

mémoire master informatique

Keywords

معالجة اللغة الطبيعية , تحليل المشاعر, تجريف علي شبكة الانترنات, Natural Language Processing, sentiment analyzers, web scrapy

Citation