كشف خطاب الكراهية في النصوص العربية باللهجة المشرقية باستخدام التعلم العميق
   
   م. مدين عبد الحميد  
د. آصف جعفر
 د. ياسر رحال

 
 

 الملخص


يتزايد استخدام الناس لمواقع التواصل الاجتماعي للتعبير عن مشاعرهم وأفكارهم والتواصل وتبادل المعلومات فيما بينهم. ومع توفر مساحة حرية كبيرة، يميل بعض الناس إلى نشر خطاب الكراهية والشتائم عبر هذه المواقع. إن الكشف المبكر عن مثل هذا المحتوى أمر بالغ الأهمية يمكن أن يساعد في التنبؤ بالصراعات ويمنع هذه العواطف من أن تصبح أفعالًا أو أن تنتشر على نطاق واسع. تعتبر الدراسات التي تتناول الكشف عن خطاب الكراهية في النصوص العربية ولا سيما المكتوبة باللهجة المشرقية متناثرة وقليلة مقارنة بلغات أخرى ولا سيما الإنجليزية.
قمنا في هذه الورقة ببناء مجموعة بيانات لتغريدات مكتوبة باللهجة المشرقية تم جمعها من تويتر بغية التعرف على خطاب الكراهية ووسمها ومن ثم تدريب واختبار مجموعة من المصنفات التقليدية ومصنفات التعلم العميق من أجل الكشف عن خطاب الكراهية في النصوص القصيرة والمكتوبة باللهجة المشرقية. وقد حصلنا على أفضل النتائج مع المصنف GigaBERT الذي أعطى معدل 94.6٪ على منحني ROC مع معدل 0.81 لمقياس F1-Score.

up


 

 الكلمات المفتاحية

اللغة العربية، خطاب الكراهية، معالجة اللغات الطبيعية، تصنيف النصوص، تعلم الآلة بإشراف، التعلم العميق.


 

 Abstract


People use online social networks to express their feelings and thoughts, communicate and share information. With much freedom, some people tend to spread hate speech and insults through these sites. An early detection of such content is very important to help predict conflicts and prevent these emotions from becoming actions or spreading widely.
Studies on the detection of hate speech in Arabic texts, particularly written in the Levantine dialect, are scattered and few compared to other languages, particularly English.
In this paper, we collected a new Levantine tweets dataset from Twitter and annotated it then we trained and tested a set of conventional and deep learning classifiers on the dataset in order to detect hate speech detection in short texts written in the Levantine dialect. We have achieved good results when using GigaBERT classifier with an 94.8% on the ROC Curve and 0.81 F1-score

 

up


 

Keywords: Arabic

hate-speech; natural language processing; text classification; supervised machine learning; deep Learning


 

 

   المقدمة
 


تتيح مواقع التواصل الاجتماعي للمستخدمين التعبير عن آرائهم وتحقيق التواصل فيما بينهم وتبادل المعلومات من خلال التغريدات والتعليقات والمحادثات. تتيح خوارزميات التنقيب عن المعطيات النصية إمكانية استخلاص المعلومات والمعرفة المخبأة في هذه النصوص. تعتبر هذه النصوص قصيرة وذات ضجيج بما تحويه من أخطاء قواعدية أو إملائية أو تمديد الكلمات ما يجعل عملية التنقيب عن المعطيات فيها صعبة.
تعتبر الأبحاث الخاصة باللغة العربية قليلة مقارنة باللغات الأخرى واسعة الانتشار وذلك بسبب التحديات التي تواجهنا في اللغة العربية لا سيما المتعلقة بالتشكيل وطبيعتها الخاصة في الاشتقاق والإعراب [1].
تعتبر مصادر التواصل الاجتماعي مفتوحة، ما يجعلها عرضة للاستخدام السيء من قبل بعض الأشخاص المشبوهين، حيث باتت تستخدم للتخطيط للجرائم والأعمال الإرهابية وتهديد أمن المجتمع. مما سبق نجد أنه من الضروري العمل على تطوير نظم تعتمد على المعطيات الكبيرة من أجل كشف الأعمال المشبوهة وحذف التهديدات التي تمثلها.
وقد أصبحت شبكات التواصل الاجتماعي المنصة المثالية لنشر خطاب الكراهية والمحتوى السيء [2]، وانتشر خطاب الكراهية خلال الشبكات الاجتماعية مثل تويتر وفيسبوك، وأصبح له تأثير واضح مما يقتضي كشفه وتحديد مصدره للحد من خطره في المجتمع، إن التحديد المبكر للمستخدمين الذين يروجون لمثل هذا النوع من الرسائل يمكن أن يمنع التصعيد من الكلام إلى الفعل. يوجد في منصات وسائل التواصل الاجتماعي عدد لا يمكن السيطرة عليه من الرسائل الصادرة في كل ثانية مما يجعل من المستحيل تتبع أو التحكم في محتوى هذه المنصة يدويًا [3]، لذلك يجب مواجهته من خلال تسخير قوة الذكاء الاصطناعي وخوارزميات تعلم الآلة لأتمتة كشف خطاب الكراهية في وسائل التواصل الاجتماعي وخاصةً عندما لا يحتوي النص على كلمات صريحة مع الأخذ بعين الاعتبار المعلومات السياقية التي تحملها هذه الرسائل، وتواجه المنصات الاجتماعية مشكلة في الحد من هذه الرسائل مع موازنة حرية التعبير، ونظراً لأن الأشخاص الذين ينشرون خطاب الكراهية قد يتم حظرهم أو معاقبتهم أو مراقبتهم لعدم وضع تهديداتهم قيد التنفيذ، فإن وثوقية الكشف الآلي هامة في صنع القرار وتساعد المراقب البشري بتوضيح الرؤية.
تصنف اللغة العربية كواحدة من أكثر اللغات انتشارًا في العالم فهي خامس أكثر اللغات استخداماً في العالم وخامس أكثر اللغات استخداماً على الإنترنت. يتحدث أكثر من 6.0٪ من سكان العالم اللغة العربية وهناك نمو ملحوظ في استخدام منصات التواصل الاجتماعي في المنطقة العربية، ويُنشر الكثير من خطاب الكراهية باللغة العربية على تويتر وغيرها ولا يوجد إلا عدد قليل من الدراسات لكشفه مقارنة باللغة الإنجليزية [4] وذلك لصعوبات في اللغة العربية منها وجود كثير من اللهجات بالإضافة إلى أن للغة العربية خواص تختلف بها عن اللغات الأخرى فلديها مورفولوجيا غنية وبنية نحوية متطورة إضافة إلى الكم الهائل من المفردات المترادفة.
في هذا البحث، قمنا بدراسة مسألة كشف خطاب الكراهية في تويتر للنصوص العربية المكتوبة باللهجة المشرقية Levantine.
تتوزع بنية البحث كالتالي: نقوم في القسم الثاني بتعريف مسألة خطاب الكراهية بينما نستعرض الأعمال المرتبطة في القسم الثالث. ثم نقوم بتوصيف مجموعة البيانات التي قمنا بتحصيلها من تويتر في القسم الرابع، ونقدم شرحاً عن النموذج المعتمد في القسم الخامس. لاحقًا، نقوم بعرض وتقييم نتائج الاختبارات في القسم السادس ونختتم البحث بتلخيص النتائج وعرض الآفاق المستقبلية في القسم السابع.
    تعريف المسألة
تعتبر عملية الكشف عن خطاب الكراهية في النصوص المكتوبة من المسائل الصعبة في تعلم الآلة، ويعود ذلك لعدة عوامل نذكر منها: قصر النصوص، شخصية المؤلف والمتلقي، النوايا غير الواضحة، استخدام العامية، والدمج بين اللغات، الأخطاء الإملائية، ...الخ). ولا سيما عند الاعتماد على السياق ، حيث يمكن أن تختلف معاني الكلمات إلى حد كبير باستخدام الفكاهة والسخرية والتلميحات والاستعارة.
لذلك، من المهم تقديم تعريف واضح وموجز لخطاب الكراهية. ووفقاً للتعريف الذي قدمه Warner وHirschberg [5] فإن خطاب الكراهية هو أي تواصل يستخدم للتعبير عن الكراهية تجاه شخص أو جماعة على أساس بعض الخصائص كالعرق أو الجنس أو التوجه الجنسي أو الجنسية أو الدين أو أي صفة أخرى. وهذا أمر مهم جدًا عندما نتعامل مع مجموعة بيانات غير مصنفة حيث لا بد من مشاركة بشرية في عملية تصنيف هذه النصوص.
اعتبرنا -في هذا البحث- خطاب الكراهية أي خطاب يشمل نشر رسائل للتحريض على العنف أو القتل أو النبذ أو الشتائم والكلام البذيء أو لتشويه سمعة شخص أو مجموعة أشخاص بناءً على العرق، اللون، الجنس، العقيدة أو الدين. كما تم اعتماد التغريدات المدونة في تويتر كمصدر للبيانات المطلوب دراستها.
تعد مسألة كشف خطاب الكراهية إحدى مسائل التصنيف النصي الثنائي للمحتوى النصي، وفي حالتنا تعتبر الرسالة (أو التغريدة) إما رسالة تتضمن خطاب كراهية hate من الصف /1/ أو لا كراهية not hate من الصف /0/.
يعتبر التصنيف الثنائي أحد المواضيع الأساسية في معالجة اللغات الطبيعية ويوجد العديد من الطرق المعروفة، والتوجه الحالي هو لتقنيات تعلم الآلة لتتعلم النماذج كشف الكراهية من البيانات أثناء التعلم دون قواعد مسبقة.
على وجه التحديد، يتم تمثيل النص المدخل بتنسيق قابل للقراءة من قبل الآلة مع الاحتفاظ بالخصائص ذات المعلومات المفيدة informative characteristics. ويتم تمرير هذا التمثيل إلى خوارزمية تعلم الآلة كدخل وتقوم بإسناده إلى أحد الصفين بدرجة ثقة معينة. يتم بناء المصنف من خلال هذه المعلومات خلال مرحلة التدريب، ومن ثم تطبيقها على مجموعة بيانات خاصة للاختبار، من أجل قياس دقة النموذج وقدرته على التعميم.

up


 

 الأعمال السابقة


لاقى موضوع الكشف عن خطاب الكراهية في السنوات القليلة الماضية اهتماماً متزايداً. وقد حاولت بعض الدراسات معالجة هذه المشكلة على شبكات التواصل الاجتماعي، ولكن قلة قليلة منها تركزت على اللغة العربية. فقد قام الباحثون في [6] ببناء مجموعة بيانات باللغة العربية من شبكات التواصل الاجتماعي Facebook, Twitter, Instagram, YouTube لاستخدامها في الكشف على خطاب الكراهية والشتائم ثم دراسة فعالية 12 خوارزمية تعلم آلي تقليدي وخوارزميتين من التعلم العميق Deep Learning وتوصلوا لدقة 98.7%. بينما قام الباحثون في [7] ضمن فريق SMASH في ورشة العمل  OSACT4 باستكشاف أساليب مختلفة للكشف عن خطاب الكراهية واللغة العدائية  من خلال مقارنة عدة تقنيات كالتعلم العميق والتعلم الناقل Transfer Learning والتعلم متعدد المهام Multitask Learning، حيث حقق التعلم متعدد المهام أفضل النتائج بالاعتماد على خوارزمية CNN-BiLSTM. كما قام الباحثون في [8] باستخدام قائمة كلمات كنواة لتوليد مجموعة بيانات تدريبية وتم تدريب مصنف تعلم عميق وحقق معدل F1-Score بلغ 90%. وقام الباحثون في [9] بجمع ووسم مجموعة بيانات ضخمة من التعليقات المكتوبة باللغة العربية على موقع YouTube واستخدام النموذج Support Vector Machine (SVM)  للكشف عن الشتائم وحقق النموذج معدل F1-score بلغ 0.82. وأما الباحثون في [10] فقد قاموا بتوليد مجموعة بيانات من مناقشات تتضمن خطابًا فيه كراهية دينية على موقع تويتر لتدريب نموذج Recurrent Neural Networks (RNN) بمعدل بلغ 0.84 على منحني ROC، أو من خلال كلمات مفتاحية عنصرية [11] لتدريب نموذج تعلم عميق من خلال دمج خوارزميتين CNN وLSTM، وأما الباحثون في [12] فقد قاموا باختبار 15 مصنفًا وكانت النتيجة الأفضل عبر دمج نموذجين Convolutional Neural Network (CNN) وRecurrent Neural Network (RNN) بمعدل macro F1-score بلغ 0.73. كما قام الباحثون في [13] ضمن ورشة العمل OSACT والتي كانت مخصصة للغة العربية بإجراء معالجة مسبقة خاصة وجعل البيانات متوازنة balanced لتدريب مصنفين CNN وGated Recurrent Unit (GRU) وحقق 0.75 على معدل F1-Score. بينما قدم الباحثون في [14] مجموعة بيانات لخطاب الكراهية واللغة البذيئة من تويتر خاصة بالمنطقة المشرقية Levantine. كذلك قام الباحثون في ضمن إطار المهمة 12 في ورشة SemEval2020 والمتعلقة بالتعرف على اللغة المسيئة لمجموعة من اللغات منها العربية واليونانية والتركية وبينوا أفضلية استخدام CNN مع BERT على استخدام BERT فقط وحققت 0.897 على معدل F1-Score.
مجموعة البيانات Dataset
تعتبر خطوة تحصيل مجموعة البيانات الجزء الأكثر كلفة زمنيًا في عمليات تصنيف النصوص [15]، حيث يقوم الباحثون غالبًا باعتماد مجموعة بيانات خاصة بهم تُجمَع من مصادر مختلفة، ويقوم بعضهم بوسم annotate هذه البيانات بأحد الصفين: (كراهية hate أو لا كراهية not hate)، أو بأحد الصفوف: (عادي normal، كراهية hate أو شتيمة abusive). قام الباحثون ممن عملوا على هذا الموضوع بجمع هذه البيانات بمعظمها من تويتر [7] [10] [11] [12] [13] [14] [16] ومن موقع YouTube مثل [9] [17] أو من منصات التواصل الاجتماعي المختلفة مثل [6] [18]، بينما قام الباحثون [19] بجمع البيانات من موقع الجزيرة الإخباري “AlJazeera.net”. يلخص  
الجدول (1 بعض المواصفات عن مجموعات البيانات الخاصة بالدراسات المذكورة سابقاً.
الجدول (1) مواصفات مجموعات البيانات الخاصة ببعض الدراسات البحثية التي تناولت موضوع خطاب الكراهية باللغة العربية

تمثيل النص Text Representation
تتم عملية تمثيل النص عبر استخراج السمات feature extraction من خلال تحويل التغريدة إلى تمثيل رقمي، وتستخدم الطريقة التقليدية نموذج حقيبة الكلمات bag of words (BOW)، حيث تُمثَّل كل كلمة بتكرارها في التغريدة من خلال تردد المفردة TF (Term Frequency) وتردد التغريدة المعكوس ويعبر عنها بالرمز IDF (Inverse Document Frequency)، ومن الشائع استخدام تركيبة هاتين القيمتين والمعروفة باسم TF-IDF [20].
كما ظهرت حديثًا طرق أخرى لاستخراج السمات تستخدم تضمين الكلمات word embeddings، يُجيز هذا التمثيل أن يكون للكلمات المتشابهة في المعنى تمثيلات رقمية متشابهة، مما يحسن كفاءة نماذج تعلم الآلة مثل Word2Vec [21].
يوجد مجموعة من متجهات مدربة مسبقًا (قليلة في اللغة العربية) ومن أهمها Aravec وهو تمثيل موزع للكلمات خاص باللغة العربية [22]، وقد دربت Aravec مسبقاً باستخدام بيانات كبيرة (67 مليون تغريدة) من             (تويتر، ويكبيديا، ويب) ونفذ بواسطة Word2Vec [23] مع الأخذ بعين الاعتبار (unigram, bigram, trigram) وبأطوال مختلفة لمتجه التضمين.
تستخدم الطريقة التقليدية في تعلم الآلة نموذج حقيبة الكلمات bag-of-words [8] [9] [10] [12] [14] [18]، كما تم استخدام تضمين الكلمات word embeddings لتحسين كفاءة نماذج تعلم الآلة [7] [11] [12] [13] [16] [17].
خوارزميات التصنيف
يستخدم الباحثون خوارزميات تصنيف متعددة في هذا المجال مثل Naïve Bayes وهو مصنف احتمالي يفترض استقلالية السمات بعضها عن بعض [24] وله أداء أفضل مقارنة مع المصنفات الأكثر تعقيداً [25]، والمصنف Support Vector Machine (SVM) والمصنف Logistic Regression (LR) وهو مصنف احتمالي آخر [26] يستخدم في مسائل التصنيف الثنائي. وكذلك المصنف CNN وهو شبكة عصبونية عميقة استخدمت بشكل أساسي في تصنيف الصور، بالإضافة إلى المصنف Long Short-Term Memory (LSTM) وهو نموذج خاص من الشبكة العصبونية RNN صُمِّم لنمذجة السلاسل الزمنية وترابطها على المدى البعيد بدقة أفضل من نماذج RNN التقليدية [27]، وغيرها.
يبين الجدول 2 المصنفات المستخدمة ضمن الدراسات السابقة موضوع البحث:
الجدول 2 المصنفات المستخدمة في الدراسات البحثية التي تناولت موضوع خطاب الكراهية باللغة العربية

كما قام الباحثون في [6] باستخدام /12/ مصنفاً مختلفاً.
نهدف في هذا البحث إلى استخدام نماذج التعلم العميق مع تمثيل البيانات باستخدام المتحولات Transformers مثل AraBERT وGigaBERT التي تعطي تمثيلاً سياقياً للكلمات contextual word representations.

up


 

  النموذج المقترح


نقدم في هذه الفقرة النموذج المقترح بدءًا من تحصيل البيانات ووسمها ومعالجتها وصولًا إلى تدريب واختبار المصنفات على مجموعة البيانات.
بناء مجموعة البيانات
نلاحظ أن معظم مجموعات البيانات المذكورة سابقًا في  
الجدول (1 مستمدة من صفحات أو حسابات لشخصيات سياسية أو فنية أو دينية أو ناشطة سياسياً أو مجتمعياً وواحدة منها فقط تخص منطقة سورية وجوارها، ونظراً لعدم وجود مجموعات بيانات كافية تخص المسألة المطروحة، قمنا بتحصيل مجموعة بيانات بالاعتماد على خدمة تويتر لتأمين مجموعة كبيرة من التغريدات باستخدام Twitter API. تمت عملية البحث من خلال المحددات التالية:
    نقطة إحداثيات: للحصول على بيانات تخص المنطقة الجغرافية الخاصة بسوريا ودول الجوار.
    اللغة: للحصول على التغريدات المكتوبة باللغة العربية.
    استبعاد المواقع الإخبارية: مؤقتاً وذلك من أجل استبعاد النصوص الإخبارية المتواترة بكثرة.
تمت عملية التحصيل بين عامي 2017 و2020 على فترات متباعدة وتم تحصيل 21440 تغريدة.
وسم مجموعة البيانات
قمنا بوسم مجموعة البيانات بعد تحصيلها أي بتصنيفها ضمن صنفين: كراهية من الصف /1/ أو لا كراهية من الصف /0/ من خلال قراءة هذه التغريدات ومحاولة معرفة طبيعة هذه التغريدة ووضعها في أحد الصفين.
يمكن أن يختلف الأشخاص (المُصَنِّفون) فيما بينهم على اعتبار تغريدة ما من هذا الصنف أو ذاك لعدة اعتبارات تعود إلى طبيعة كل شخص وميوله وشخصيته وثقافته. وبما أن عملية التصنيف يمكن أن تؤثر بشكل كبير على نتائج بناء وتدريب واختبار المصنفات، فقد اعتمدنا مجموعة مكونة من ثلاثة أشخاص سوريين بمستوى تأهيل دراسي جيد ومن اتجاهات فكرية مختلفة وطُلِبَ منهم قراءة هذه التغريدات وتصنيفها -بعيداً عن أي تحيز ممكن- كخطاب كراهية أو لا من خلال التحقق من وجود تحريض على العنف أو القتل أو النبذ أو وجود شتائم أو كلام بذيء أو تشويه سمعة شخص أو مجموعة أشخاص بناءً على العرق، اللون، الجنس، العقيدة أو الدين وفق تعريف خطاب الكراهية المعتمد [5]. وتم الاتفاق بين المصنفين على اعتبار التغريدات التي يمكن أن تقع ضمن أحد الأنواع المبينة في الجدول( 3 كخطاب كراهية.
الجدول( 3) أنواع خطاب الكراهية مع بعض الأمثلة

بعد الحصول على التقييمات من المصنفين، تم استبعاد التغريدات التي حصلت على تقييمات مختلفة، وتم الإبقاء على التغريدات التي حصلت على إجماع المصنفين. يبين الجدول (4 أعداد التغريدات ونسب توزعها:
الجدول (4)  توزع مجموعة البيانات المحصلة بعد وسمها

المعالجة المسبقة Preprocessing
تحوي التغريدات رموزاً وأرقاماً بالإضافة لأخطاء إملائية وتكرار لحرف ضمن كلمة (لتعزيز معنى) وكلمات بغير اللغة العربية مثل عناوين URL. تتضمن مرحلة المعالجة الأولية إلغاء الكلمات غير العربية وعلامات الترقيم والأرقام وحذف عناوين الصفحات. تعد هذه المرحلة مهمة لأنها تنعكس على المراحل الأخرى فكلما كانت التغريدات أنظف وأوضح كانت عملية وضع علامات لها تحدد نوعها خطاب كراهية أو لا من قبل المصنفين أسهل، وقد أوضحت العديد من الدراسات البحثية أن المعالجة المسبقة للنص تؤدي إلى تحسين نتائج التصنيف [28]. تشمل هذه المرحلة الخطوات التالية:
-    إبقاء تغريدة واحدة من التغريدات المكررة.
-    حذف الأجزاء المكتوبة بغير اللغة العربية.
-    تحويل الأحرف (إ أ آ) إلى الحرف (ا).
-    تحويل الحرف (ة) إلى الحرف (ه).
-    تحويل الحرف (ى) إلى الحرف (ي).
-    حذف علامات الترقيم والأرقام.
-    حذف علامات التصنيف Hashtags.
-    حذف الإشارات إلى الأشخاص Mentions.
-    حذف التغريدات المكونة من كلمة واحدة فقط.
للحصول على مجموعة اختبار، قسمنا مجموعة البيانات إلى مجموعتين وفق قاعدة 80/20 وحصلنا في نهاية المطاف على مجموعتي بيانات مصنفة يدوياً واحدة للتدريب وأخرى للاختبار، كما هو مبين في الجدول 5:
الجدول 5 مجموعة البيانات المحصلة بعد تقسيمها

تعزيز البيانات
بشكل عام، تتصف مجموعات البيانات التي نهتم بها في بحثنا بأنها غير متوازنة imbalanced، وهو ما نلاحظه في مجموعة البيانات الأخيرة بنسبة أقل من 5% للعينات المصنفة كخطاب كراهية.
تعتمد فعالية مصنفات تعلم الآلة إلى حد كبير على حجم ونوعية بيانات التدريب. والواقع أنه حتى مع وجود مجموعات بيانات كبيرة، لا تزال العديد من خوارزميات التعلم حساسة لتوزع الصفوف غير المتوازن [29]. تعالج مشكلة البيانات غير المتوازنة بإضافة المزيد من عينات البيانات إلى الصفوف الأقل أو ما يعرف بتعزيز البيانات Data Augmentation.
اعتمدنا أولاً على تقنية التعزيز الآلي من خلال إجراء بعض العمليات على العينات المصنفة كخطاب كراهية مثل:
-    عكس ترتيب الكلمات.
-    حذف الكلمة الأولى.
-    حذف الكلمة الأخيرة.
كما اعتمدنا على تقنية التعزيز اليدوي من خلال إضافة مجموعة من العبارات التي تحمل خطاب كراهية التي تتعرض لبعض الطوائف أو الأعراق.
بالرغم من ارتفاع نسبة عينات الكراهية إلى 18.91، إلا أنه لا يمكن اعتبار مجموعة البيانات هذه متوازنة بما فيه الكفاية، ولذلك قمنا لاحقًا باستخدام تقنية تعزيز البيانات برمجيًا باستخدام synthetic minority over-sampling technique (SMOTE) التي تحقق توازن مجموعة البيانات من خلال دمج تقنية over-sampling للصف الأقل نسبة وتقنية under-sampling للصف الآخر [30].
تمثيل مجموعة البيانات
اقترح الباحثون في [31] استخدام Aravec في مسائل كشف الخطاب العدائي المكتوب باللغة العربية. وكما ذكرنا سابقًا في الفقرة ‏0، يوجد عدة نماذج من Aravec مدربة مسبقًا باستخدام بيانات كبيرة من (تويتر، ويكبيديا، ويب)، ولكل مجموعة بيانات تم بناء نموذجين (CBOW and Skip-gram). وكون مجموعة البيانات المستخدمة موضوع البحث مستخرجة من تويتر فقد تم استخدام النموذج المدرب على مجموعة بيانات تويتر. وبما أن الباحثين في [32] اقترحوا استخدام النموذج Skip-gram كونه يعطي دقة دلالية semantic accuracy أكبر من النموذج الآخر، فقد تم تطبيق النموذج full-skip-gram للبعد d=300. هذا بالنسبة إلى المصنفات التقليدية، أما بالنسبة لنماذج التعلم العميق فقد تم تمثيل البيانات باستخدام المتحولات Transformers مثل (AraBERT, ArabicBERT, GigaBERT).
المصنفات المستخدمة
تم استخدام مجموعة المصنفات التالية: (RandomForest  (RF), MLP Classifier (MLP), Support Vector Classifier (SVC), XGB Classifier (XGB), CatBoost Classifier). كما تم بناء مصنفي تصويت آخرين Hard-Voting وSoft-Voting بالاعتماد على هذه المصنفات السابقة.
كما تم استخدام نموذج التعلم العميق مع تمثيلات البيانات التالية: (AraBERT, ArabicBERT, GigaBERT).

up


 

 الاختبارات والنتائج


تم تدريب المصنفات التقليدية على مجموعة البيانات المشرقية L-HSAB [14] ومن ثم اختبارها على مجموعة الاختبار خاصتنا، فأعطى أفضل نموذج وفق معيار F1-Score قيمة 0.64 وهي منخفضة وأقل بكثير من نتائج الاختبار المبينة في الدراسة المذكورة. يعود هذا الانخفاض إلى كون مجموعة البيانات ذات طبيعة سياسية على مجموعة البيانات خاصتنا والتي هذه ذات طبيعة عامة على الرغم من كون المجموعتين خاصتان باللهجة المشرقية. لذلك تم تدريب المصنفات على مجموعة البيانات المعززة واختبارها على مجموعة بيانات مأخوذة عشوائيًا من المجموعة الأساسية المحصلة بنسبة 20%، وحصلنا على النتائج التالية لمعايير الدقة Precision والإرجاع Recall ومقياس F1 والضبط Accuracy) المبينة في الجدول (6:
الجدول (6) نتائج اختبار المصنفات المستخدمة

يمكن الملاحظة بسهولة حصول المصنف Soft Voting على أفضل النتائج بين المصنفات التقليدية بمعدل F1-score بلغ 0.76، وعي نسبة أفضل بكثير من نتيجة الاختبار السابقة، كذلك نلاحظ أفضلية هذا المصنف وفق منحني ROC الموضح في الشكل (1:
 
الشكل (1) مخطط ROC لاختبار المصنفات
ولدى تدريب مصنفات التعلم العميق على مجموعة البيانات المعززة، حصلنا على النتائج المبينة في الجدول 7.
الجدول 7- نتائج اختبار نموذج التعلم العميق

كما نلاحظ حصول النموذج المعتمد على تمثيل GigaBERT على أفضل النتائج بمعدل F1-score بلغ 0.81 والذي تفوق على جميع المصنفات التقليدية ومصنفات التعلم العميق المعتمد على النماذج الأخرى. لقياس مدى قدرة النموذج المقترح على التعميم، فقد قمنا باختبار النموذج على مجموعات البيانات التالية:
-    مجموعة البيانات المشرقية L-HSAB [14] وهي مجموعة بيانات سياسية كما صنفها مؤلفوها مأخوذة من صفحات بعض الساسة اللبنانيين.
-    مجموعة بيانات ضمن ورشة العمل The 4th Workshop on Open-Source Arabic Corpora and Processing Tools [33] ونرمز لها اختصارًا OSACT، وتضم حوالي 10,000 تغريدة مكتوبة باللغة العربية من مختلف اللهجات.
-    مجموعة بيانات متاحة من Google [34] ونرمز لها اختصارًا OffensEval، وتضم حوالي 8,000 تغريدة مكتوبة باللغة العربية من مختلف اللهجات.
يبين الجدول التالي نتائج اختبار النموذج Soft Voting على مجموعات البيانات المذكورة:
الجدول 8 نتائج اختبار المصنفات على مجموعة البيانات

وكانت نتائج الاختبار على المجموعة المحلية أفضل مقارنة مع المجموعات الأخرى مع أفضلية بشكل عام لمجموعة البيانات L-HSAB وذلك بسبب تقارب المجموعتين كونهما خاصة باللهجة المشرقية.
5.    الخلاصة والآفاق المستقبلية
قدمنا في هذا البحث مجموعة بيانات خاصة بكشف خطاب الكراهية في النصوص العربية ببلدان المشرق العربي محصلة من موقع تويتر. تضم هذه المجموعة 17534 تغريدة تم وسمها بأحد الصفين: (طبيعي، كراهية). وتم تدريب مجموعة من المصنفات التقليدية ومصنفات التعلم العميق على مجموعة البيانات هذه واختبار هذه المصنفات ومقارنة هذه الاختبارات مع اختبارات مماثلة على مجموعات بيانات أخرى متوفرة، وكانت نتائج الاختبارات في مجموعة البيانات المحلية أفضل منها في مجموعات البيانات الأخرى.
سنقوم مستقبلاً بدراسة خوارزميات التعلم النشط Active Learning ودراسة تأثيرها لتبيان إمكانية تحسين هذه النتائج.


up



 

 

    المراجع


[1]     G. Badaro, R. Baly, H. M. Hajj, W. El-Hajj, K. B. Shaban, N. Habash, A. Al-Sallab and A. Hamdi, "A survey of opinion mining in Arabic: A comprehensive system perspective covering challenges and advances in tools, resources, models, applications, and visualizations," 2019.
[2]     A.-M. Founta, D. Chatzakou, N. Kourtellis, J. Blackburn, A. Vakali and I. Leontiadis, "A unified deep learning architecture for abuse detection," in WebSci 2019 – Proceedings of the 11th ACM Conference on Web Science, 2019.
[3]     C. Themeli, G. Giannakopoulos and N. Pittaras, "A study of text representations for Hate Speech Detection," in In Proceedings of the 20th International Conference on Computational Linguistics and Intelligent Text Processing,, La Rochelle, France, 2019.
[4]     M. Alrefai, H. Faris and I. Aljarah, "Sentiment analysis for Arabic language: A brief survey of approaches and techniques," International Journal of Advanced Science and Technology, vol. 119(1), pp. 13-24, 2018.
[5]     W. Warner and J. Hirschberg, "Detecting hate speech on the World Wide Web," in the Second Workshop on Language in Social Media 2012 Jun 7, 2012.
[6]     A. Omar, T. M. Mahmoud and T. A. El-hafez, "Comparative Performance of Machine Learning and Deep Learning Algorithms for Arabic Hate Speech Detection in OSNs," 2020.
[7]     I. Abu-Farha and W. Magdy, "Multitask Learning for Arabic Offensive Language and Hate-Speech Detection," in Proceedings of the 4th Workshop on Open-Source Arabic Corpora and Processing Tools, 2020.
[8]     H. Mubarak and K. Darwish, "Arabic offensive language classification on twitter," in International Conference on Social Informatics, 2019.
[9]     A. Alakrot, L. Murray and N. S. Nikolov, "Towards accurate detection of offensive language in online communication in Arabic," in Procedia computer science, 2018.
[10]     N. Albadi, M. Kurdi and S. Mishra, "Are they our brothers? analysis and detection of religious hate speech in the Arabic twitter sphere," in n 2018 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM), 2018.
[11]     H. Faris, I. Aljarah, M. Habib and P. A. Castillo, "Hate Speech Detection using Word Embedding and Deep Learning in the Arabic Language Context," in Proceedings of the 9th International Conference on Pattern Recognition Applications and Methods (ICPRAM 2020), 2020.
[12]     A. Abuzayed and T. Elsayed, "Quick and Simple Approach for Detecting Hate Speech in Arabic Tweets," in The 4thWorkshop on Open-Source Arabic Corpora and Processing Tools with a Shared Task on Offensive Language Detection, 2020.
[13]     B. Haddad, Z. Orabe, A. Al-Abood and N. Ghneim, "Arabic Offensive Language Detection with Attention-based Deep Neural Networks," in Proceedings of the 4th Workshop on Open-Source Arabic Corpora and Processing Tools, 2020.
[14]     H. Mulki, H. Haddad, C. B. Ali and H. Alshabani, "L-HSAB: A Levantine Twitter Dataset for Hate Speech and Abusive Language," in Proceedings of the Third Workshop on Abusive Language Online, Florence, Italy, 2019.
[15]     S. Stieglitz, M. Mirbabaie, B. Ross and C. Neuberger, "Social media analytics – challenges in topic discovery, data collection, and data preparation," International Journal of Information Management, vol. 39, pp. 156-168, 2018.
[16]     A. G. Chowdhury, A. Didolkar, R. Sawhney and R. R. Shah, "ARHNet – leveraging community interaction for detection of religious hate speech in Arabic," in Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop, Florence, Italy, 2019.
[17]     H. Mohaouchane, a. Mourhir and N. S. Nikolov, "Detecting offensive language on Arabic social media using deep learning," in 2019 Sixth International Conference on Social Networks Analysis, Management and Security, 2019.
[18]     H. Haddad, H. Mulki and A. Oueslati, "T-HSAB: A Tunisian hate speech and abusive dataset," Springer International Publishing, 2019.
[19]     H. Mubarak, K. Darwish and W. Magdy, "Abusive language detection on Arabic social media," in Proceedings of the First Workshop on Abusive Language Online, Stroudsburg, 2017.
[20]     J. Ramos, "Using tf-idf to determine word relevance in document queries," in Proceedings of the first instructional conference on machine learning, 2003.
[21]     T. Mikolov, K. Chen, G. Corrado and J. Dean, "Efficient Estimation of Word Representations in Vector Space," in In the Proceedings of Workshop at ICLR, 2013.
[22]     A. B. S. Mohammad, K. Eissa and S. R. El-Beltagy, "AraVec: A set of Arabic Word Embedding Models for use in Arabic NLP," in the 3rd International Conference on Arabic Computational Linguistics (ACLing 2017), Dubai, UAE, 2017.
[23]     T. Mikolov, I. Sutskever, K. Chen, G. Corrado and J. Dean, "Distributed representations of words and phrases and their compositionality," in Advances in neural information processing systems, 2013.
[24]     S. Russell and P. Norvig, Artificial Intelligence: A modern approach, Pearson Education, lnc., 1995.
[25]     D. D. Lewis, "Naive (bayes) at forty: The independence assumption in information retrieval," in European conference on machine learning, 1998.
[26]     S. W. Menard, Applied logistic regression analysis, ThousandOaks,: Sage university paper series on quantitative application in the social sciences, series no. 106) (2nd ed.), 1995.
[27]     I. Goodfellow, Y. Bengio and A. Courville, Deep Learning, Cambridge, MA, USA: MIT Press, 2016.
[28]     S. Shaikh and S. M. Doudpotta, "Aspects Based Opinion Mining for Teacher and Course Evaluation," Sukkur IBA Journal of Computing and Mathematical Sciences, vol. 3(1), pp. 34-43, 2019.
[29]     S. Qiu, B. Xu, J. Zhang, Y. Wang, X. Shen, G. Melo, C. Long and X. Li, "EasyAug: An Automatic Textual Data Augmentation Platform for Classification Tasks," in Companion Proceedings of the Web Conference 2020, 2020.
[30]     M. V. Chawla, K. W. Bowyer, L. O. Hall and W. P. Kegelmeyer, "SMOTE: synthetic minority over-sampling technique," Journal of Artificial Intelligence Research, vol. 16, no. 1, pp. 321-357, 2002.
[31]     A. Liaw and M. Wiener, "Classification and regression by randomforest," Forest, vol. 23, 2002.
[32]     M. Ashi, M. A. Siddiqui and F. Nadeem, "Pre-trained Word Embeddings for Arabic Aspect-Based Sentiment Analysis of Airline Tweets," Proceedings of the International Conference on Advanced Intelligent Systems and Informatics Proceedings of the International Conference on Advanced Intelligent Systems and Informatics 2018, 2019.
[33]     H. Mubarak, K. Darwish, W. Magdy, T. Elsayed and H. Al-Khalifa4, "Overview of OSACT4 Arabic Offensive Language Detection Shared Task," in Proceedings of the 4th Workshop on Open-Source Arabic Corpora and Processing Tools, 2020.
[34]     M. Zampieri, P. Nakov, S. Rosenthal, P. Atanasova, G. Karadzhov, H. Mubarak, L. Derczynski, Z. Pitenis and Ç. Çöltekin, "SemEval-2020 Task 12: Multilingual Offensive Language Identification in Social Media (OffensEval 2020)," in In Proceedings of the Fourteenth Workshop on Semantic Evaluation, Barcelona (online), 2020.
[35]     A. Safaya, M. Abdullatif and D. Yuret, "KUISAIL at SemEval-2020 Task 12: BERT-CNN for Offensive Speech Identification in Social Med," in In Proceedings of the Fourteenth Workshop on Semantic Evaluation, 2020.


up