تحديد المصداقية للمنشورات العربية في شبكات التواصل الاجتماعي باستخدام منهجية التعلم بالنقل
   
   أحمد حسين
ندى غنيم
عمار جوخدار
 

 
الملخص


شهدت السنوات الأخيرة توسعاً لافتاً في استخدام شبكات التواصل الاجتماعي مثل تويتر وفيسبوك وانستغرام، مما أتاح للملايين من المستخدمين من مختلف الأعمار والأجناس تطوير علاقاتهم الاجتماعية والمهنية. لكن لم يقتصر أثر شبكات التواصل الاجتماعي على التواصل بين المستخدمين، بل أصبحت مكاناً لنشر الأخبار عن الأحداث التي تحصل في العالم، وهذا ما سهل نشر الأخبار الكاذبة حول الأحداث التي تحصل في العالم. تنتشر الأخبار الكاذبة خاصة أثناء الأحداث والأوبئة مثل وباء كورونا، الذي يؤدي بدوره إلى قبول الأفراد لهذه الادعاءات الوهمية التي قد تكون ضارة. يمكن أن يقلل الكشف السريع للأخبار الكاذبة من انتشار الذعر والارتباك بين أفراد المجتمع. نقدم في هذه الورقة منهجية مقترحة للكشف عن مصداقية التغريدات باللغة العربية، عبر التعرف بداية على ما إذا كانت التغريدة تحوي معلومات أم لا لتمييز التغريدات الهامة، ثم تحديد درجة مصداقية التغريدة عبر حساب التشابه بين التغريدة والعناوين التي يجري الحصول عليها بنتيجة إجراء بحث عن محتوى التغريدة. قمنا بإنشاء مجموعة معطيات منمطة مؤلفة من 5000 تغريدة. جرى تقييم المنهجية المقترحة على المدونة خاصتنا وعلى مدونة NLP4IF 2021 وأظهرت النتائج  أن دقة النموذج على المدونة اليدوية كانت الأفضل وبلغت 0.91.


  up


 

 الكلمات المفتاحية:

المصداقية، شبكات التواصل الاجتماعي، الأحداث عالية التأثير، الأخبار الكاذبة، الشبكات العصبونية، التعلم بالنقل.


 

 Abstract
 


Recently, online social networks, like Twitter, Facebook, Instagram, and others have revolutionized interpersonal communication and allowed millions of users of different ages and genders to develop their social and professional relationships, which increased spreading false information and fake news. Fake news is especially prevalent in the events and pandemics like the covid-19 pandemic, leading to individuals accepting bogus and potentially deleterious claims and articles. Quick detection of fake news can reduce the spread of panic and confusion among the public. In this article, we present our approach to analyze the credibility of Arabic information on social media, which is presented in the form of a two-step pipeline. The first step classifies the tweet if it contains information or not, and the second step calculates the distance between the tweet text and the titles obtained from the search results to calculate the credibility of the tweet.
We built an Arabic annotated data set of 5,000 tweets. The proposed approach was evaluated on built dataset and on NLP4IF 2021 dataset. The results showed that the results on the built dataset were better and it equals 0.91

 

up


 

 Keywords:

Credibility, Social Media, High Impact Events, Fake News, Neural Networks, Transfer Learning.


 

 المقدمة


تعد وسائل التواصل الاجتماعي أو الإعلام الاجتماعي من أحدث التطورات التي طرأت على الإنترنت والتي صاحبها ظهور طيف واسع من تكنولوجيا الويب. بشكل عام، يشير الكثير من المختصين في علم الإنترنت بأن الإعلام الاجتماعي يمثل قفزة كبيرة للتواصل من خلال الشبكة العنكبوتية بشكل تفاعلي أكبر من السابق بكثير- عندما كان التواصل محدوداً بمشاركة كميات قليلة جداً من المعلومات وسيطرة أكبر من مديري البيانات- فاستطاعت أن تكسر احتكار المؤسسات الإعلامية الرسمية للمادة الخبرية. كما أتاح الإعلام الاجتماعي فرصاً عديدة منها التشارك بالمعلومات بين مشتركي الشبكة مع إمكانيات التفاعل المباشر والحر على المواقع الاجتماعية عند نهاية كل مقال أو خبر، أي استخدام تكنولوجيا الإنترنت لتحويل الاتصالات إلى حوار تفاعلي. أدى ظهور وسائل الإعلام الاجتماعي إلى ضرورة التعرف على مصداقية ووثوقية المنشورات على شبكات التواصل وتقييم مؤلفيها. سنركز في هذا البحث على تحديد مصداقية المنشورات المكتوبة باللغة العربية والتي هي من اللغات قليلة الموارد المنمطة.
تقسم الورقة إلى الأقسام التالية: القسم الثاني يحتوي على الدراسة المرجعية، فيما يحتوي القسم الثالث على المنهجية المتبعة لتحديد المصداقية، ويناقش القسم الرابع الاختبارات والنتائج التي تم الحصول عليها، وأخيراً الخاتمة والأفاق المستقبلية.
 

up


 

 الدراسة المرجعية


لقد ظهرت عدة طرائق لمعالجة مشكلة المحتوى غير الموثوق للمنشورات على شبكات التواصل الاجتماعي.
اعتمد بعض الباحثين على مدى انتشار المنشور بين مستخدمي شبكات التواصل، قام chengcheng et al. في [4] باستخراج المنشورات التي تحتوي على روابط لأخبار مزيفة على الويب، ثم قاموا بتحليل نشاطات المستخدمين الذين نشروا هذا النوع من المنشورات وشعبيتهم. وقد وجدوا أن المستخدمين الذين ينشرون الأخبار المزيفة أكثر نشاطاً على وسائل التواصل الاجتماعي من المستخدمين الطبيعيين. وتشير النتائج أيضاً إلى وجود مجموعة صغيرة من الحسابات التي تولد كمية كبيرة من المنشورات التي تحتوي على أخبار مزيفة.
فيما اعتمد البعض في تحليل المصداقية على تحليل الحساب على وسائل التواصل الاجتماعي، قام Castillo  et al. في [1] بالتركيز على مصداقية الأحداث للغة الإنكليزية في تويتر، حيث تستخرج السمات من التغريدات التي جمعت من مجموعة الأحداث المستقلة. يوضح الجدول (1) السمات التي استخرجت من التغريدة. استخدم نموذج SVM لتصنيف التغريدات إلى صنفين: صحيح، غير صحيح. وأعطى النموذج دقة مقدارها 72%.
واعتمد بعض الباحثين على تحليل المحتوى لقياس مصداقية التغريدات، فحاول Antoniadis et al. في [2] الكشف عن المعلومات المضللة على تويتر، وقد تم ذلك عن طريق تنميط مجموعة كبيرة من التغريدات وتطوير نموذج يعتمد على السمات المستخرجة من نص التغريدة والمستخدم الذي قام بنشرها وردود المستخدمين عليها (عدد مرات إعادة التغريدة، عدد الردود، عدد الإعجابات)، وقد كانت السمات مماثلة للسمات في الجدول (1). وأخيراً قاموا بتقييم قدرة النموذج على اكتشاف المعلومات المضللة في الوقت الفعلي (قبل حدوث تفاعل على التغريدة) وكانت النتيجة أقل بـ 3% فقط من التقييم بوجود جميع السمات.
الجدول 1: السمات المستخدمة في [1] لاكتشاف مصداقية التغريدات.

 أعطى نموذج bootstrap aggregating النتائج الأفضل للتصنيف في الحالتين الوقت الفعليreal time  وغير الفعلي، الذي حقق F-measure يساوي 79% للمصداقية في الوقت غير الفعلي و 76% في الوقت الفعلي. وقدم Tacchini et al. في [3] نهجاً يستخدم التفاعلات على المنشورات، وذلك من خلال تحليل مستخدمين أحبوا مجموعة من المنشورات التي تحتوي على معلومات صحيحة وغير صحيحة، وجرى الحصول على نموذج بدقة 80% تقريباً.
وقد كثف بعض الباحثين جهودهم على دراسة المصداقية في أثناء جائحة كورونا، وقد جرى ذلك باستخدام منهجيات مختلفة. في [9] قدم الباحثون دراسة حول انتشار المعلومات الخاطئة على تويتر كنقطة انطلاق لدراسة الأخبار الكاذبة المتعلقة بالوباء على شبكات التواصل الاجتماعي. لوحظ أن التغريدات التي تحمل معلومات خاطئة قد أعيد نشرها عدة مرات بدلاً من مشاركة الأخبار الصادرة عن منظمات الصحة الموثوقة. واقترح باحثون في [10] منهجية تعتمد على الشبكات العصبونية للكشف عن المصداقية. استخدم الباحثون مدونةFake News Challenge (FNC-1) ، من أربعة صفوف (غير مرتبط، قابل للنقاش، صحيح، غير صحيح)،  في البداية جرى معالجة مسبقة للتغريدات كإزالة علامات الترقيم وكلمات التوقف وإرجاع الكلمات إلى أصلها. ثم قورنت التغريدات مع الأخبار الفعلية وذلك بتمثيل سمات النص كشعاع TF-IDF ومقارنته مع أشعة الأخبار الفعلية. تفوقت المنهجية المقترحة على المنهجيات المتاحة بدقة 94.21.
قدم الباحثون في [11] مدونة منمطة متاحة CoAID  تحتوي على معلومات خاطئة متنوعة عن الرعاية الصحية حول COVID-19. تتضمن المدونة،  أكثر من 4200 خبر، و290.000 تفاعل مستخدم، و 920 منشور على منصات التواصل الاجتماعي. وتتضمن أيضاً مقالات إخبارية مزيفة وصحيحة مؤكدة من مواقع إلكترونية ومنصات وسائل تواصل اجتماعي موثوقة. اعتمدوا لاكتشاف المعلومات المضللة على خوارزميات التعلم الآلي مثل SVM وlogistic regressions والغابات العشوائية، وأظهرت الدراسة أن خوارزميات التعلم الآلي العميق (مثل CNN) تتفوق على الخوارزميات البسيطة السابقة.
وقد أصبح تحليل الكميات الكبيرة من الأخبار المزيفة المنتشرة على شبكات التواصل الاجتماعي مجال بحث رئيسي، فقد قام باحثون في [5] بتقديم دراسة عن الاختلاف بين نشر الأخبار الحقيقة والأخبار الكاذبة. وقد ركز العمل على إعادة نشر قصص إخبارية حقيقية ومزيفة على مدار 11 سنة. وكانت النتائج: أولاً، كانت ذروة القصص الإخبارية الكاذبة في نهاية 2013 و2015 و2017. ثانياً، يتم التفاعل مع القصص الإخبارية الكاذبة بشكل أكبر بكثير من التعامل مع القصص الإخبارية الصحيحة. ثالثاً، المستخدمين الذين لديهم عدد أقل من المتابعين والأصدقاء يقومون بنشر القصص الكاذبة بشكل أكبر. كذلك، قام باحثون في [6] بدراسة العلاقة بين وسائل الإعلام والأخبار الكاذبة ومدققي الأخبار، إذ إن كل طرف من الأطراف السابقة يتأثر بتغير الأطراف الأخرى. لقد وجد الباحثون أن كثيراً من الأخبار الكاذبة تنقل بوسائل الإعلام بسبب التفاعل الكبير الذي يحصل معها على وسائل التواصل الاجتماعي (في كثير من الأحيان تكون قصصاً وهمية عن علاقات دولية)، ونتيجة لذلك أصبح بالإمكان التنبؤ بالأخبار التي سوف تعرض على وسائل الإعلام من خلال الأخبار الكاذبة (ذات التفاعل الكبير).
استخدم Qarqaz et al. في [12] تقنية التعلم الجمعي، حيث تم دمج مجموعة من النماذج المدربة مسبقاً والمتمثلة في AraBERT, Asafaya-BERT, ARBERT, MARBERT عن طريق إدخال مخرجات النماذج السابقة إلى شبكة عصبونية مكونة من طبقة واحدة ويمثل خرجها النتيجة النهائية للمصداقية.
فيما استخدم Hussein et al. في [13] لتحديد مصداقية المنشورات خطوتين رئيسيتين، في الخطوة الأولى تم عملية معالجة مسبقة للمنشور كإزالة الرموز التعبيرية. ثم في المرحلة الثانية تم القيام بـ fine-tuned لنسخة من AraBERT و استخدامها لتصنيف المنشورات.
لقد ركزت الأبحاث في الكشف عن مصداقية المنشورات على شبكات التواصل الاجتماعي وخصوصاً الدراسات الحديثة على أحداث معينة مثل كورونا، وذلك لأن خوارزميات التعلم العميق تستخدم النص كسمات، فالشبكة لا تعطي نتائج صحيحة إن لم يكن المنشور المدخل من نفس الموضوع الذي تم التدرب عليه، فالشبكة العصبونية التي تم تدريبها على منشورات لجائحة كورونا لن تتنبأ بالمصداقية للمنشورات الخاصة بالأحداث باليمن على سبيل المثال. لقد تم في هذه الدراسة اقتراح آلية للتخلص من هذه المشكلة واقتراح منهجية تعطي المصداقية الخاصة بالمنشورات بغض النظر عن الموضوع الخاص بالمنشور كما سنرى في الفقرات التالية.

up


 

   المنهجية المتبعة


في هذا القسم، سنستعرض النموذج المقترح في بحثنا هذا لحساب مصداقية المنشورات في شبكات التواصل الاجتماعي حيث أنه تم البناء على بحث سابق قمنا بنشره في [13].  في البداية، نقوم بمعالجة مسبقة للتعريدة، ثم نقوم بتصنيف التغريدة (تحتوي على معلومات، لا تحتوي على معلومات) اعتماداً على التعلم بالنقل باستخدام نموذج  AraBERT، ثم نقوم بالاستعلام عن التغريدة في محرك البحث غوغل وحساب نسبة التشابه بين التغريدة وعناوين أول ثلاثين نتيحة من هذه المواقع باستخدام تشابه جيب التمام، بعد حساب نسبة التشابه بين التغريدة والعناوين نقوم بأخذ المتوسط الحسابي للقيم الناتجة. فتكون التغريدة ذات مصداقية إذا كانت أكبر من العتبة وتكون غير صحيحة إذا كانت أصغر.
3.1. المعالجة المسبقة للتغريدات
تجري  معالجة التغريدات عبر إزالة الكلمات والرموز والعناصر غير المهمة أو التي ستؤثر على عملية التصنيف فيما بعد،حيث أنه تم اختبار النتائج مع وبدون المعالجة المسبقة للتغريدة و كانت النتائج معها أفضل، مثل إزالة كلمات الوقف والهاشتاغ وعناوين الويب والإشارات والأحرف المتكررة وعلامات الترقيم.
 

الشكل 1: الخطوات الأساسية لحساب مصداقية التغريدات.
3.2. نموذج النقل باعتماد BERT

نموذج بيرت هو نموذج تعلم آلي مفتوح المصدر لمعالجة اللغات الطبيعية، وهو مصمم لمساعدة الحواسيب على فهم اللغة الغامضة في نص ما عن طريق استخدام النصوص المحيطة به لتحديد السياق. تم تطوير نموذج تمثيلات أداة الترميز ثنائية الاتجاه من المحولات transformers أو كما يعرف اختصاراً باسم بيرت من قبل جوجل. وقد تم تدريبه مسبقاً على مهام نمذجة اللغة باستخدام بيانات غير موسومة تتضمن نصوصاً من موقع ويكيبيديا. ويمكن صقله بالاعتماد على قواعد بيانات تتضمن أسئلة وأجوبة. يوجد مجموعة من النماذج المدربة مسبقاٌ للغة العربية حيث أنه يعد نموذج AraBERT واحداً من أكثر نماذج التعلم بالنقل شهرة للغة العربية. يوحد عدة إصدارت للنموذج وقد تم استخدام نموذج AraBERT base لموائمته للمسألة المطروحة. لديها القدرة على التعميم ويمكن تكييفها للاحتياجات المختلفة، سواءً في استخراج العلاقات والإجابة على الأسئلة تحليل المشاعر وتحليل المصداقية. يظهر الشكل (2) نظرة عامة عن البنية المستخدمة.
 
الشكل 2: نظرة عامة عن البنية المستخدمة.
لحساب أهمية التغريدة، جرى تدريب النموذج على مرحلتين:
المرحلة الأولى: تدريب الطبقات الداخلية للبنية على مجموعات نصية كبيرة وتجميد الأوزان بناءً عليها. كان حجم البيانات المجمعة حوالي 77 جيجابايت. وقد جرى اختيار نموذج الـ base لأنه أكثر ملاءمة للمشكلة البحثية و حجم بيانات التدريب.
المرحلة الثانية: تدريب الطبقات الخارجية على المهمة الموكلة لها وذلك بتنفيذ الضبط الدقيق (fine-tuning). وقد استخدم تابع الـ categorical cross-parameters تابعاً لحساب التكلفة. فيكون دخل هذه المرحلة هو خرج المرحلة السابقة والمكون من tensor بطول 512 ثم يتم تغذية الطبقة الأخيرة والمكونة من عصبون واحد يحتوي على تابع التنشيط سيغموئيد. نعرض في الجدول (2) المعاملات الفائقة الخاصة بالنموذج التي تم العمل عليه.
الجدول 2: عرض المعاملات الفائقة الخاصة بالنموذج.

وبذلك نكون قد حصلنا على أهمية التغريدة (تحتوي على معلومات، لا تحتوي على معلومات).
3.4. حساب درجة مصداقية التغريدات
بعد تحديد أهمية التغريدات اعتماداً على التعلم بالنقل باستخدام نموذج AraBERT ، نقوم في المرحلة التالية بحساب درجة مصداقية هذه التغريدة. لإجراء ذلك اقترحنا استخدام نص التغريدة كاستعلام بحث في محرك بحث غوغل، وقمنا بحساب  درجة المصداقية على أنها هي متوسط المسافة بين نص التغريدة والعناوين التي تم الحصول عليها من أول ثلاثين موقع من نتائج البحث، لحساب التشابه تم استخدام خوارزمية TF-IDF.

up


 

     الاختبارات والنتائج


لإجراء الاختبارات المتعلقة بتقييم منهجية تصنيف التغريدات إلى تغريدات تحوي معلومات، أم لا، قمنا ببناء مجموعة معطيات عربية منمطة وفق هذا التصنيف، نستعرض بداية طريقة بناءها، ثم  مجموعة الاختبارات التي قمنا بها والنتائج التي حصلنا عليها.

4-1. بناء المدونة اليدوية
•    مرحلة جمع البيانات
قمنا بجمع البيانات عن طريق Twitter Streaming API، باعتماد أهم أربعة أحداث أثرت على عدد كبير من العرب، وولدت عدداً كبيراً من التغريدات في عامي 2020 و2021، وهي "فيروس كورونا"، "الأحداث في اليمن"، "الأحداث في ليبيا"، "صفقة القرن". كانت حصيلة عملية الجمع ما يزيد عن 300 ألف تغريدة (انظر الجدول 3). قمنا باختيار 1000-1500 تغريدة من كل حدث بشكل عشوائي جمعوا للحصول على مدونة مكونة من 5000 تغريدة.
الجدول 3: إحصائيات للأحداث والتغريدات التي جمعت

•    مرحلة تنميط التغريدات
يوجد كثير من المنصات التي تقدم خدمات تنميط للبيانات (تنميط التغريدات) مثل Mechanical Turk وCrowdFlower. جرى الاعتماد على منصتنا الخاصة بسبب القيود التي تفرضها تلك المنصات عند التعامل مع اللغة العربية. جرى تزويد المنمطين أولاً بدليل لتنميط التغريدات، ثم جرى تزويدهم بوصف عن الحدث وروابط عن الحدث ليتمكنوا من قراءة المزيد عنه، كما جرى تزويدهم بتعريف لمفهوم معلوماتية التغريدة (أي هل تحمل التغريدة معلومات أم لا) وأمثلة عن تغريدات لكل خيار من خيارات أصناف التنميط.
طُلب من المنمطين تصنيف التغريدات بإحدى الصفوف التالية:0 (لا يوجد معلومات)، 1 (يوجد معلومات).
لضمان جودة التنميط، جرى تصنيف التغريدات بشكل مستقل من قبل مُنمطَين اثنين، ثم قام الثالث بإضافة التغريدات المتفق عليها من قبل المنمطين السابقين إلى المدونة. حيث تضمنت المدونة 3544 تغريدة من صنف "لا يوجد معلومات"، و 1456 تغريدة من صنف "يوجد معلومات"
تم تقسيم المدونة إلى ثلاث مجموعات للتدريب، والتحقق والاختبار. تضمنت مجموعة التدريب 4050 تغريدة، في حين تضمنت مجموعتي التحقق والاختبار 450، 500 تغريدة على الترتيب، كما في الجدول (4).

الجدول 4: إحصائيات المجموعات المستخدمة في التدريب.
4-2.  نتائج تقييم

لتقييم نموذج تصنيف التغريدات إلى تغريدة تحمل معلومات أم لا، قمنا بإجراء تجربتين.استخدمنا في التجربة الأولى المدونة التي أنشأناها يدوياً والتي تحتوي على 5000 تغريدة. وقد تمت مقارنة نتائج النموذج المقترح مع النتائج التي حصل عليها Hussein et al. في [13] على المدونة ذاتها، يعرض الجدول (5) نتائج تقييم النماذج المقترحة على بيانات الاختبار في هذه المدونة.

الجدول 5: نتائج تقييم النماذج المقترحة على بيانات الاختبار.

في التجربة الثانية، جرى اختبار النموذج على المدونة المقدمة من ورشة NLP4IF 2021 [7]، تتكون المدونة من  تغريدات حول مرض كورونا ومعرف التغريدة وفيما إذا كانت تحتوي على معلومات أم لا. حيث تضمنت المدونة على 1545 تغريدة من صنف "لا يوجد معلومات" و 376 تغريدة  من صنف "يوجد معلومات" و 635 من صنف "غير متأكد". نجد في الجدول (6) نتائج التقييم للنموذج على المدونة المقدمة من المؤتمر، مع تجاهل التغريدات ذات الصنف "غير متأكد" لمطابقة الصفوف التي جرى التدريب عليها.
الجدول 6: نتائج التقييم لنموذج AraBERT على مدونة NLP4IF

نلاحظ أن دقة النموذج الذي تم تدريبه على المدونة التي تحتوي على 5000 تغريدة يعمل بشكل أفضل من النموذج الذي تم تدريبه على مجموعة البيانات المقدمة من مؤتمر NLP4IF 2021. يعود ذلك إلى أن حجم المدونة المستخدمة أكبر وأشمل من المدونة المزودة من قبل الورشة.
وقد تم تقييم المرحلة الثانية لحساب المصداقية         و المتمثلة في قياس نسبة التشابه بس نص التغريدة     وأول تلاثين نتيجة من محرك البحث غوغل من خلال إدخال مئة تغريدة تحتوي على معلومات لمرحك البحث كـ query، وقد تم اعتماد أول ثلاثين نتيجة لأن أنظمة غوغل تعطي الأولوية في الترتيب للمواقع التي تبدو مفيدة. فعلى سبيل المثال يقوم محرك البحث غوغل باعطاء أولوية للمحتوى الذي تم الإشارة إليه في مواقع أخرى وذلك لأنه علامة جيدة على موثوقية المحتوى الموجود في الموقع، وبعد حساب نسبة التشابه بين التغريدة وعنواين المواقع التي رُدت من محرك البحث وجد أن التغريدات التي التي كانت نسبة التشابه بينها وبين المواقع أكبر من 0.7 تكون صحيحية وإذا كانت أقل من ذلك تكون خاطئة.
وذلك عن طريق تزويد المنمطين بالتغريدات وروابط عن الحدث ليتمكنوا من قراءة المزيد عنه، كما جرى تزويدهم بتعريف لمفهوم المصداقية وأمثلة عن تغريدات لكل خيار من خيارات أصناف التنميط. طُلب من المنمطين تصنيف التغريدات بإحدى الصفوف التالية:
•    0 (غير صحيحة)
•    1 (صحيحة)
لضمان جودة التنميط، جرى تصنيف التغريدات بشكل مستقل من قبل مُنمطين اثنين. ثم قام الثالث بإضافة التغريدات المتفق عليها من قبل المنمطين السابقين إلى مجموعة الاختبار. بعد ذلك تمت مقارة نتائج التشابه مع نتائج المرور اليدوي على التغريدات، ومنه تم الوصول إلى العتبة 0.7.

up


 

    الخاتمة


قمنا في هذه الورقة بدراسة مصداقية المنشورات على شبكات التواصل الاجتماعي، واعتمدنا على استخدام النماذج السياقية بنسختها العربية AraBERT، فقمنا في البداية ببناء مدونة مكونة من 5000 تغريدة، ثم بتجربة النماذج السياقية ونسختها العربية المدربة مسبقاً، قمنا باختبار أدائها في المسألة المطروحة. بعد عملية التصنيف نقوم بحساب درجة المصداقية للتغريدات التي تحتوي على معلومات والتي تكون عبارة عن رقم يعبر عن درجة تشابه التغريدة مع العناوين التي تم الحصول عليها من أول ثلاثين موقع من نتائج البحث، وبهذا نكون قد حصلنا على درجة مصداقية التغريدة. سيتم توجيه العمل مستقبلاً ليتوافق مع وسائل تواصل اجتماعي أخرى، مثل منشورات فيسبوك، وإنشاء نماذج سياقية للغات مختلفة من أجل زيادة قابلية تطبيقه وتعميمه والعمل على تحسين منهجية حساب نسبة التشابه بين المنشور وعناوين الأخبار وذلك من خلال مقارنة فيما إذا كان محتوى الموقع الإخباري كاملاً يحتوي على الخبر أو لا وليس المقارنة مع العناوين فقط.

up


 

Reference

 [1] Castillo, Carlos & Mendoza, Marcelo & Poblete, Barbara. (2013). Predicting information credibility in time-sensitive social media. Internet Research: Electronic Networking Applications and Policy. 23. 10.1108/IntR-05-2012-0095.
 [2]Antoniadis, Sotiris & Litou, Iouliana & Kalogeraki, Vana. (2015). A Model for Identifying Misinformation in Online Social Networks. 473-482. 10.1007/978-3-319-26148-5_32.
 [3]Tacchini, Eugenio & Ballarin, Gabriele & Della Vedova, Marco & Moret, Stefano & Alfaro, Luca. (2017). Some Like it Hoax: Automated Fake News Detection in Social Networks.
 [4]Shao, Chengcheng & Ciampaglia, Giovanni & Varol, Onur & Flammini, Alessandro & Menczer, Filippo. (2017). The spread of fake news by social bots.
 [5]Vosoughi, Soroush & Roy, Deb & Aral, Sinan. (2018). The spread of true and false news online. Science. 359. 1146-1151. 10.1126/science.aap9559.
 [6]Vargo, Stephen & Akaka, Melissa & Vaughan, Claudia. (2017). Conceptualizing Value: A Service-ecosystem View. Journal of Creating Value. 3. 239496431773286. 10.1177/2394964317732861.
 [7] Shaar, Shaden & Alam, Firoj & Da San Martino, Giovanni & Nikolov, Alex & Zaghouani, Wajdi & Nakov, Preslav & Feldman, Anna. (2021). Findings of the {NLP4IF}- 2021 Shared Task on Fighting the {COVID}- 19 Infodemic and Censorship Detection. In Proceedings of the Fourth Workshop on Natural Language Processing for Internet Freedom: Censorship, Disinformation, and Propaganda.
 [8]https://books.google.ae/books/about/New_New_Media.html?id=G009uwAACAAJ& redir_esc=y
 [9] Singh, Lisa  & Bansal, Shweta  & , Bode & Leticia, Ceren &  Chi, Guangqing & Kawintiranon, Kornraphop & Padden, Colton  & Vanarsdall, Rebecca & Vraga, Emily & Wang, Yanchen.( 2020). A first look at COVID-19 information and misinformation sharing on Twitter. arXiv 2020, arXiv:2003.13907 .
 [10]Thota, A.; Tilak, P.; Ahluwalia, S.; Lohia, N. Fake News Detection: A Deep Learning Approach. SMU Data Sci. Rev. 2018, 1, 10.
[11] Cui, Limeng & Lee, Dongwon.(2020). CoAID: COVID-19 Healthcare Misinformation Dataset. arXiv 2020, arXiv:2006.00885.

[12] Qarqaz, Ahmed & Abujaber, Dia & A. Abdullah, Malak. (2021). R00 at NLP4IF-2021: Fighting COVID19 infodemic with transformers and more transformers. In Proceedings of the Fourth Workshop on Natural Language Processing for Internet Freedom: Censorship, Disinformation, and Propaganda, NLP4IF@NAACL’ 21.
[13] Hussein, Ahmad & Ghneim, Nada & Joukhadar, Ammar. (2021). DamascusTeam at NLP4IF2021: Fighting the Arabic COVID-19 Infodemic on Twitter Using AraBERT. In Proceedings of the Fourth Workshop on NLP for Internet Freedom: Censorship, Disinformation, and Propaganda. pages 93-98.

up