نظام ترجمة آلية باستخدام تقنيات التعلّم العميق للأسئلة المفتوحة الباحثة عن المعلومات
 
  رهف السمعو النجّار
محمّد بسّام كردي
وسيم صافي
 
 

الملخص


تفترض نظم الإجابة على الأسئلة متعددة اللغات أنّ الأجوبة عادةً موجودة بنفس لغة السؤال، ولكن الواقع العملي يظهر أنّ العديد من الأسئلة قد لا يوجد لها إجابات في وثائق اللغة نفسها خاصةً عندما تبحث بمفاهيم من ثقافات أخرى. يبحث هذا العمل في تأثير الترجمة الآلية على إيجاد الإجابات للأسئلة المفتوحة الباحثة عن المعلومات (information-seeking)، والتي لا يوجد لها إجابات في وثائق اللغة الهدف حيث السؤال بالعربية وتتم ترجمته للإنكليزية ثم يتم استرجاع المقاطع الإنكليزية الحاوية على الإجابة من المصادر الإنكليزية. تم تطوير بنيتين لترجمة الأسئلة باستخدام شبكة تعلّم عميقة هي المحوّل (Transformer) حيث تم البدء بنماذج مسبقة التدريب لأغراض عامة ثم صُقِل (Fine-tune) النموذج الأول عبر مجموعة بيانات متوازية عالية الدقة تضم تفسير القرآن، وصُقِل النموذج الثاني عبر مجموعة بيانات متوازية لأسئلة مفتوحة باحثة عن المعلومات. تم اعتماد التوجّه بإبقاء كلمات التوقف واشارات الترقيم في المعالجة المسبقة. وثم تم استخدامها لإيجاد إجابات عبر نظام إجابة على الأسئلة المفتوحة عابر للغات Cross-lingual Open Retrieval Question Answering (XOR QA) لاختبار تأثير الترجمة الآلية العصبونية للنماذج المولّدة. تشير النتائج التجريبية إلى أن النموذج الأول تمكّن من ترجمة الأسئلة في مجال محدد فقط، ونجح النموذج الثاني بتقديم ترجمة مرضية تضاهي جودة الترجمة البشرية ضمن جميع مجالات الأسئلة برغم الكلفة المنخفضة لتوليد النماذج والذي قاد للحصول على أعلى دقة للمقاطع المستردة بين جميع الأنظمة البحثية المشابهة.

  up
 

Abstract



Multilingual question-answering tasks typically assume that answers exist in the same language as the question. Yet in practice, many questions may not have answers in the same language documents, especially where questions reference concepts from other cultures.
This research study the effects of machine translation on finding answers to open information-seeking questions that could not find same-language answers for, by translating these questions to English then retrieving the English passages that contain answers from English recourses.
We Developed two machine translation state-of-the-art using Deep Learning (Transformer). We started with a pretrained model for general purpose then we fine-tuned the first model on a high-quality corpus that includes the interpretation of the Qur’an, And the second model is fine-tuned on an open information-seeking parallel corpus.  We kept stopping words and punctuation marks in preprocessing.
Then we used these models to find answers using Cross-lingual Open Retrieval Question Answering (XOR QA) to examine the effect of the produced neural machine translation systems.
Experimental results suggest that the first model was able to translate questions in a specific field only, and the second model succeeded in providing a satisfying translation comparable to the quality of human translation within all areas of the questions despite the low cost of model generation, which leads to get the highest accuracy of passage retrieving among all comparable research systems.

 

  up
 

 المقدمة


من المعلوم أنّ نظم الترجمة الآلية الحالية تحقق أداءً قريباً من الأداء البشري في بعض اللغات، ويعود الفضل في ذلك إلى تطبيق أحدث تقنيات التعلّم العميق، وإلى توافر مدونات بحجوم كبيرة تحتوي أعداد كبيرة من الجمل المتقابلة بين اللغات المراد الترجمة منها وإليها.
وفي معالجة اللغات أيضاً كانت نظم الإجابة على الأسئلة فرعاً مهماً في علوم الحاسب لعدد من السنوات. ولكن لم تحظَ النسخة متعددة اللغات باهتمام كبير حتى السنوات الأخيرة. وبدلاً من ذلك، ركزت أبحاث الإجابة على الأسئلة بشكل حصري تقريبًا على بناء نظم الإجابة على الأسئلة التي توفّر إجابات على الأسئلة التي يطرحها البشر باللغة الإنجليزية فقط. لاحقًا، بدأ تطوير نظم إجابة على الأسئلة عبر اللغات والتي تسمح بالوصول إلى المعلومات بلغة غير اللغة الإنجليزية كامتداد لأبحاث الإجابة على الأسئلة الرئيسية وكاستجابة لواقع الحاجة للبحث عن معلومات للمستخدمين غير الناطقين بالإنكليزية.
إنّ نظم الإجابة على الأسئلة متعددة اللغات هي جزء أساسي من واجهات معالجة اللغات. لكن تدل الحلول الموجودة حاليًا أن أداءها بعيد جدًا عن أداء نظم الإجابة على الأسئلة وحيدة اللغة [1]  لذلك سنتعمد الترجمة للوصول لنظام إجابة على الأسئلة وحيد اللغة.
وذلك بالاعتماد على نظم الإجابة على الأسئلة المفتوحة المطوّرة حاليًا في اللغة الإنكليزية، حيث تعطي نظم الإجابة على الأسئلة التي تبحث في اللغة الإنكليزية فقط (monolingual) أداء عالي ولكن ماذا لو أردنا جعلها تجيب على الأسئلة بعد ترجمة النصوص من لغة أخرى إلى الإنكليزية؟ لنفرض مثلاً عملية البحث عن الكاتب الألماني مكسيم ليو (حيث يُكتب الاسم باللغة العربية في محرّك البحث) حتى تاريخ إجراء الدراسة لا يوجد مصادر كافية باللغة العربية تشرح عن السيرة الذاتية للكاتب أو مؤلفاته.
المشكلة التي يناقشها هذا البحث هي عدم وجود مصادر معلومات متوفرة في جميع اللغات لكافة العلوم والكلفة العالية لتوليد مصادر مقابلة بلغات أخرى والذي سيؤثر على عملية البحث عن الإجابات لذلك سيكون من الجيد القدرة على البحث عن الإجابات للأسئلة بغض النظر عن لغة السؤال حيث تتم ترجمة جميع الأسئلة إلى الإنكليزية  (نظام ترجمة آلية باستخدام التعلّم العميق) ويمكن تخصيص نموذج الترجمة لنوع محدد من المجالات مثل المجال الطبي. أثبتت الدراسات السابقة أنّ الترجمة البسيطة غير كافية وأنّها تؤثر على أداء نظام الإجابة على الأسئلة [1]. ونحن بحاجة إلى ترجمة عميقة، أكثر دقة وشمولية في المعاني ومع تقدم نظم الترجمة الآلية المعتمدة على التعلّم العميق وتنوع النماذج الموجودة فإنّ اختيار البنية المعمارية المناسبة لكل لغة أو البحث فيما إذا كانت هناك بنية مناسبة مشتركة لكل اللغات هو أمر واضح الأهمية.
وأيضًا سيكون لهذا البحث دور مهم في توفير الكلفة الكبيرة لتوليد المراجع بلغات متعددة حيث يمكن البحث ضمن المراجع الأصلية.
يهدف هذا البحث إلى دراسة الترجمة الآلية المعتمدة على التعلّم العميق وبالأخص   [2]transformer. حيث سيدرس هذا البحث مدى تأثير نوع شبكة الترجمة العميقة ونوعية المعاملات المختلفة على جودة ترجمة الأسئلة العربية كونها تتمتع بسمات مختلفة عن باقي اللغات وبالتالي جودة نظام الإجابة على الأسئلة.
من الواضح أنّ الترجمة البسيطة التقليدية لا تكفي في مسائل يترتب عليها اتخاذ قرارات أبعد وأعمق واختيار نوع النموذج المناسب للغة العربية سيدفع بالأبحاث المستقبلية لمرحلة أبعد في مسائل الترجمة الآلية العربية ونظم الإجابة على الأسئلة ومسائل معالجة اللغات بشكل عام.

   up
 

 منهجية العمل


يظهر (الشكل 1) منهجية العمل التي تقوم على طرح سؤال باللغة العربية (لا توجد له إجابة في مصادر اللغة المتوفرة) وترجمته للإنكليزية باستخدام إحدى بنيتي الترجمة الآلية وذلك للبحث ضمن نسخة ويكبيديا الإنكليزية لعام 2019 عن الإجابة وإعادة المقطع الذي يحتوي الإجابة بالإنكليزية ودراسة تأثير الترجمة على جودة الإجابة المستردة.
ويتم بناء كل من نظامي الترجمة الآلية باستخدام مجموعات بيانات متوازية مختلفة و نموذج مسبق التدريب للاستفادة من الأوزان السابقة وتطويرها، حيث يتم توليد نموذجين جديدين للترجمة الآلية.

 الشكل 1 المخطط العام للمنهجية المقترحة


 

يتضمن بناء نموذج الترجمة الآلية مراحل المعالجة المسبقة لبنية البيانات لتكون ملائمة للحالة المدروسة وصقل النموذج مسبق التدريب حيث تستخدم الأوزان السابقة للشبكة العصبونية العميقة في تطوير نموذج جديد بما يتوافق مع الهدف المدروس بحيث يكون النموذج الناتج هو نموذج مطوّر مصمم لحل المسألة المدروسة.

3.1    النموذج مسبق التدريب


النموذج المختار هو نموذج (Helsinki-NLP/opus-mt-ar-en)  وهو نموذج لغوي للترجمة من العربية للإنكليزية مطوّر من قبل جامعة هلسينكي على مجموعة بيانات متوازية عربية-انكليزية معروفة ب  OPUS “” وهي أكبر مجموعة بيانات متوازية مفتوحة المصدر على الإنترنت لأغراض غير ربحية.
وتم اختيار هذا النموذج لأنّه يعتمد بنية المحوّل [2] لأنّها من بين أحدث البنى الفعّالة في الترجمة الآلية والتي تناسب الجمل الطويلة ولأنه نموذج مفتوح المصدر حيث يمكن إعادة توليده وتطويره وهو مصمم بغرض الترجمة مما يسهل عملية الصقل وحقق النموذج عبر معيار البلو (BLEU): 49.9 عن مجموعة بيانات اختبار تدعى “tatoeba.ar.en” ضمن مسابقة عالمية  لتوليد أفضل نماذج الترجمة وهو بذلك يحقق دقة أعلى نماذج الترجمة للعربية المتوفرة ضمن المسابقة.
3.2    مجموعة بيانات التدريب المتوازية
3.2.1    مجموعة البيانات الأولى: مجموعة بيانات تنزيل "Tanzil"
وهي مجموعة بيانات تمثّل ترجمة القرآن وتفاسيره ب 42 لغة.
تم اختيار هذه المجموعة من البيانات لأنّها بيانات تم التحقق منها بدرجة عالية من قبل مشروع تنزيل  وبسبب وجود علامات التشكيل التي تصنع فارقاً في اللغة العربية وأيضاً احتوائها على القيود الفنية لرسم الحروف العربية وتحتوي عدد كبير من أزواج اللغات مما يساعد في توسعة البحث مستقبلاً.
 حيث تحتوي حجم بيانات كبير يصل إلى 187052 جملة متوازية بين العربية والإنكليزية.
3.2.2    مجموعة البيانات الثانية: مجموعة بيانات الأسئلة [1] " XOR-TyDi" :
أول مجموعة بيانات تضم للمرة الأولى أسئلة مفتوحة وباحثة عن المعلومات (Information-Seeking)، وهي مجموعة بيانات مطوّرة عن [6] مجموعة بياناتTyDiQA حيث كانت الأسئلة المطروحة هي أسئلة حقيقية مولّدة من قبل أشخاص يبحثون عن الإجابات وليست كمجموعات البيانات التقليدية السابقة [7] XQuAD، مثلاً في XQuAD الأسئلة مولّدة بشكل صنعي حيث يوجد نصوص ويتم استخراج الأسئلة من هذه النصوص. وبذلك تكون الأسئلة أسئلة حقيقية تمثل الاهتمامات الفعلية للأشخاص. وهي مجموعة مؤلفة من ترجمة 30 ألف سؤال باحث عن المعلومات عبر سبع لغات مختلفة في البنية. وطرحت الأسئلة من قبل متحدثين لا تكون لغتهم الأصلية هي الإنكليزية وبذلك يتم تمثيل تطبيقات العالم الحقيقي. وأطلقت هذه المجموعة للتدريب فقط. حيث تتكون من زوج لغوي بين الإنكليزية وباقي اللغات مثل العربية أو اليابانية. وتضم حوالي 4646 زوج من الأسئلة بين العربية والإنكليزية طرحها مستخدمون حقيقيون.


4    الدراسة التجريبية:


4.1    تطوير النموذج
اعتمد تطوير النموذج على مبدأ الصقل (fine-tune) لأنّ إعادة توليد النموذج من الصفر هي إعادة اختراع العجلة حيث نختار النموذج الذي حقق أعلى النتائج ونحاول تطويره اعتماداً على بنية سابقة عن طريق استخدام الأوزان المحفوظة في أفضل نتيجة سابقة والانطلاق منها لتدريب نموذج جديد. علاوةً على أنّ توليد نموذج من الصفر يحتاج إلى موارد ضخمة خاصة في مجال معالجة اللغات الطبيعية ويحتاج إلى عدة وحدات معالجة GPU.
لذلك فقد تم اختيار نموذج للترجمة عام الأغراض مدرّب وفق شبكة عصبونية عميقة هي [2] ولم يتم اعتماد الطرق الإحصائية التقليدية وتم صقله واستخدام تابع أمثلة جديد هو AdamWeightDecay ليلائم مسألة الإجابة على الأسئلة وعبر مجموعة بيانات مناسبة لتوليد نظام مفتوح المصدر قريب من نظام شركة غوغل بموارد محدودة.


4.2    إعدادات النموذج


تم اعتماد نموذج من جامعة هيلسنكي (Helsinki-NLP/opus-mt-ar-en) وفق المعاملات التالية اللغة المصدر: العربية ومجموعة البيانات: OPUS والنموذج: transformer-align والمعالجة المسبقة للبيانات تضمّنت مكتبات معالجة الجمل: normalization + SentencePiece.


4.3    المعالجة المسبقة للبيانات:


من أجل مجموعتي البيانات اعتمدنا التقسيم وفق المنهجية 90 % للتدريب و10% للباقي تُقسم إلى نصفين نصف للاختبار ونصف للتحقق.
 اعتمد البحث على التوجّه العلمي بالإبقاء على كلمات التوقف (stop words) وعلامات الترقيم كونها قد تحمل دلالات مهمة في الأسئلة. ومن أهم النقاط التي يجب ذكرها أنّه عند تدريب النموذج الجديد يجب استخدام نفس الترميز (tokenizer) للنموذج السابق للحفاظ على التناسق. وتم تحديد الحجم الأعظمي للدخل والخرج بحيث لا يتخطى 128 وفي حال تجاوز الحد، وضعنا الحل في اقتطاع أو حذف الكلمات الزائدة في الجملة.
فكان حجم مجموعة البيانات الأولى: 18705 جملة متوازية بين اللغة العربية والإنكليزية قسّمت بالترتيب إلى "168346" للتدريب وأيضًا "9353” للاختبار ومثلها للتحقق.
أمّا حجم مجموعة البيانات الثانية: 4646 زوج من الأسئلة بين العربية والإنكليزية قُسّمت على الترتيب إلى "4185" سؤال متوازي للتدريب و"232" للاختبار و"232" للتحقق.


4.4    معاملات (بارامترات) التدريب


تم تحديد حجم التجميعة (Batch size) ب 16 ونسبة التعلّم ب 2e-5 وweight_decay=0.01، واختيار تابع الأمثلة المناسب وهو [8]AdamWeightDecay حيث أنّه تطوير عن  [9]ADAM.
 تم التدريب على وحدة معالجة صورية (NVIDIA GeForce RTX 2070 Super) وتم اعتماد مبدأ حفظ الأوزان ومن ثم إعادة التدريب من نقطة توقف معينة لملائمة حجم البيانات الكبير مع قدرات الحاسب.
 

   up
 

نتائج التدريب


سنطلق على النموذج المدرّب وفق المجموعة الأولى  MT-Tanzil والنموذج المدرّب وفق مجموعة البيانات الثانية  MT-XOR. تظهر نتائج تدريب النموذجين بالجدول (2) وفق البيانات المقسّمة سابقًا:

8.2764    0.5047    Validation Loss
حيث تم الوصول لنتائج مرضية في النموذج MT-XOR ومازال هناك حاجة للمزيد من التدريب للنموذج MT-Tanzil للوصول لنتيجة أفضل.
ثم تم اختبار النتائج على مجموعة بيانات اختبار [5]  تضم أسئلة فعلية باحثة عن المعلومات أطلقت عبر منصة لاختبار أداء مجموعة بيانات الإجابة على الأسئلة .

يظهر (الجدول 3) أنّ أداء نموذج MT-Tanzil مازال بحاجة لتحسين ولا يعتبر حل مناسب لجميع أنواع الأسئلة المفتوحة، بينما يعطي النموذج MT-XOR أداء مرضي ضمن نظام مفتوح المصدر وبموارد محدودة لجميع أنواع الأسئلة المفتوحة بالمقارنة مع نظام ترجمة غوغل الذي يتفوق عليه فقط بثلاث نقط تقريباً ولكنه غير قابل لإعادة التوليد ولا يمكن الاعتماد عليه في تطوير أبحاث الإجابة على الأسئلة لأنّه صندوق مغلق. في الجدول (1) تم اختبار جودة استرداد الأجوبة عبر تطبيق المرحلة الأولى من نظام الإجابة على الأسئلة متعددة اللغات وهي XORRETRIEVE وفق [5] وذلك لأنّ النظام بني بمراحل متزايدة التعقيد لاختبار الأداء في كل جزئية ومعرفة الخلل أو قياس الأداء في كل مرحلة بشكل منفصل لتكون الدراسة واضحة فإذا كانت النتائج مشجعة يتم الانتقال إلى المراحل الأعقد. وباستخدام مجموعة بيانات الاختبار المطلقة حسب [5] وبالتعاون مع مخابر جامعة واشنطن وعبر مجموعة وحدات المعالجة الصورية (GPU clusters) الخاصة بهم تم التقييم كالتالي حيث تستخدم نماذج استعادة الإجابة للأسئلة المفتوحة طرق مختلفة في استعادة الإجابة ولذلك ولعمل مقارنة عادلة بين النماذج تم قياس الأداء باستخدام الاستدعاء (Recall) حيث نقيس الاسترجاع بحساب جزء الأسئلة التي يتم تضمين الحد الأدنى من الإجابة لها في أعلى  n من الرموز المميزة المحددة المستردة. نقوم بالتقييم باستخدام:
n=5k:R@5kt (kilo-token)
يظهر الجدول (1) مقارنة بين نظم الترجمة المختلفة المدرجة في الدراسة [5]  بما فيها الترجمة البشرية من حيث تأثيرها على طريقة استعادة الإجابة ويظهر التفوق الواضح للأداء البشري في ترجمة السؤال على تأثير استعادة المقالة المطلوبة في الإجابة أي في المهمة (XORRETRIEVE) حيث أنّه حتى أحدث البنى المعمارية للترجمة الآلية غير قادرة على إعطاء ترجمة دقيقة تمكّن من استعادة المقطع الأدق. ثم يليه الترجمة الآلية الصناعية مثل نظام ترجمة غوغل الذي يتغلب على النظم البحثية وذلك بسبب الحجم الهائل للبيانات المتوازية ومعمارية النموذج ولكنه نظام غير قابل للدراسة لأنّه نظام مغلق ويتم تجديد بنيته وبياناته باستمرار. ثم نلاحظ تفوق النظام XOR- MT الذي تم تصميمه في هذه الدراسة على جميع النظم البحثية الأخرى وذلك بموارد محدودة مما يثبت فعالية نقل التعلّم ويثبت فعالية تخصيص البيانات المستخدمة حيث أنّ جودة النظام ساهمت في استرداد الإجابات بشكل أكبر من باقي نظم الترجمة الآلية البحثية وثبتت جدارة نظام الترجمة رغم صعوبة قياس الأداء في مقياس البلو [11]. كان أداء نظام (Tanzil) منخفض لأنّه نظام مخصص لمجال محدد من الأسئلة ولا يشمل الأسئلة العامة. تتفوق نظم الترجمة الألية على النظم التي لا تعتمد الترجمة أبداً (حيث يتم الانتقال من السؤال إلى الإجابة دون ترجمة) (Multi) وذلك لأنّ اللغة العربية تحوي على حجم كبير من بيانات التدريب المتوازية وبذلك يكون أداء نظام الترجمة جيد ولا حاجة إلى الانتقال إلى نظام بدون ترجمة إلّا في اللغات منخفضة مجموعة بيانات التدريب المتوازية. ويرمز DPR إلى نظام استرداد يستخدم الشبكات العصبونية بشكل كلي حيث أنّه تطبيق للورقة البحثية [12]  أمّا النسخة المتعددة اللغات المستخدمة في Multi فهي عبارة عن نظام استرداد يعتمد بيرت متعدد اللغات (multilingual BERT) حسب [13]  أما نظام PATH فهو نظام استرداد مبني حسب الورقة [14] ونظام BM للاسترداد مصمم حسب [15] .

 

 

   up
 

الخاتمة

 أظهرت الترجمة باستخدام نموذج المحوّل [2] (Transformer) أداءً ممتازًا قريبًا من الأداء البشري مما يبشر بالقدرات الكبيرة لهذه النماذج وأهمية استخداماتها المستقبلية. وفعالية استخدام نموذج مسبق التدريب لترجمة الأسئلة المفتوحة الباحثة عن المعلومات من العربية إلى الإنكليزية وذلك لتلافي كلفة تطوير نموذج من الصفر ولإكمال الأبحاث من نقطة التوقف السابقة. وأظهرت أهمية اختيار البيانات المتوازية المناسبة حسب المهمة الهدف. وأهمية الإبقاء على إشارات التوقف وعلامات الترقيم في المعالجة المسبقة للبيانات عند تدريب الشبكات العصبونية العميقة. وثبت نجاح نماذج الترجمة المطوّرة عند استخدامها في مهام أعقد مثل الإجابة على الأسئلة في حين قد لا يعبر مقياس البلو عن مدى الجودة الفعلية للنماذج [11]. وزادت نسبة الدقة في مرحلة XOR-Retrieve وذلك باستخدام النماذج الموجّهة لترجمة الأسئلة مما أدى لزيادة الأداء العام لنظام الإجابة على الأسئلة. تم خلال البحث تطوير نموذج بحثي تخطى جميع الأنظمة البحثية في اللغة العربية وبذلك يكون أفضل نموذج بحثي مفتوح المصدر باعتبار أن نموذج غوغل هو نموذج صناعي مغلق المصدر ويتم تجديد بياناته باستمرار.

   up
 

 الكلمات المفتاحية:

الترجمة الآلية العصبونية، نظام الإجابة على الأسئلة متعدد اللغات، المحوّل (Transformer)، صقل النموذج (Fine-tune)، الأسئلة الباحثة عن معلومات (Information-Seeking)، مجموعة البيانات المتوازية (Parallel Corpora)، الأسئلة المفتوحة، الترميز (Tokenization).

Key words

  Neural Machine Translation, Multilingual question answering, Transformer, Fine-Tuning, Information-seeking, Open Questions, Parallel Corpora, Pre-processing, Tokenization

  up
 

Reference



[12]     B. O. S. M. L. W. S. E. D. C. W.-t. Y. Vladimir Karpukhin، "Dense passage retrieval for open-domain question answering،" تأليف EMNLP، 2020.
[6]     D. G. T. K. V. N. J. P. Jonathan H. Clark and Eunsol Choi and Michael Collins، "TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages،" TACL، 2020.
[8]     F. H. Ilya Loshchilov، "Decoupled Weight Decay Regularization،" تأليف ICLR 2019، 2019.
[15]     H. Z. Stephen Robertson، "The Probabilistic Relevance Framework: BM25 and Beyond،" تأليف Foundations and Trends in Information Retrieval، 2009.
[9]     J. B. Diederik Kingma، "Adam: A Method for Stochastic Optimization،" 2014.
[5]     J. K. J. C. K. L. E. C. H. H. Akari Asai، "XOR QA: Cross-lingual Open-Retrieval Question Answering،" تأليف NAACL-HLT، Association for Computational Linguistics، 2021، p. 547–564.
[7]     J. Z. K. L. P. L. Pranav Rajpurkar، "SQuAD: 100,000+ Questions for Machine Comprehension of Text،" تأليف Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing، 2016.
[4]     K. C. Y. B. Dzmitry Bahdanau، "Neural machine translation by jointly learning to align and translate،" تأليف International Conference on، 2015.
[14]     K. H. H. H. R. S. C. X. Akari Asai، "Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question Answering،" تأليف ICLR، 2020.
[11]     M. Post، "A Call for Clarity in Reporting BLEU Scores،" Proceedings of the Third Conference on Machine Translation (WMT18)، 2018 .
[13]     M.-W. C. K. L. K. T. Jacob Devlin، "BERT: Pre-training of deep bidirectional transformers for language understanding.،" تأليف NAACL، 2019.
[2]     N. S. N. P. J. U. L. J. A. N. G. L. K. I. P. Ashish Vaswani، "Attention Is All You Need،" تأليف Advances in Neural، 2017.
[3]     P. B. Nal Kalchbrenner، "Recurrent continuous translation models،" تأليف Empirical Methods in Natural Language Processing، 2013.
[10]     S. R. T. W. a. W.-J. Z. Kishore Papineni، "BLEU: a Method for Automatic Evaluation of Machine Translation،" تأليف ACL '02، 2002.
[1]     S. V. G. N. Ekaterina Loginova، "Towards End-to-End Multilingual Question Answering،" Information Systems Frontiers، p. 227–241، 2021.



  up