تحسين خوارزميات تصنيف الحالة الشعورية للأغاني باستخدام نموذج دمج الكلمات والخصائص الصوتية بالاعتماد على التعلم العميق وتعلم الآلة

 

 

   
 

 م. لايا كفاح البشلاوي
د. محمد بسام الكردي


 

 الملخص


يهدف مجال التعرف على العواطف الموسيقية إلى دراسة العلاقة بين الموسيقى والعاطفة وهو مفيد في فهم الموسيقى واسترجاع المعلومات الموسيقية. في هذا البحث قمنا باقتراح نموذج model جديد لتصنيف الحالة الشعورية للأغاني بالاعتماد على دمج عدة مصنفات مع بعضها ضمن نموذج شامل Fusion Model. جرى استخلاص ثلاث مدخلات من كل أغنية وهذه المدخلات هي: الدخل الأول هو عبارة عن خرج مصنف مزاج الأغاني بالاعتماد على كلمات الأغنية حيث خضعت هذه الكلمات لمعالجة تحضيرية للنص وقد تم استخدام خوارزمية Random Forest لتحديد مزاج الأغنية. الدخل الثاني هو خرج مصنف مزاج الأغاني بالاعتماد على الخصائص الصوتية حيث جرى استخلاص مجموعة من الخصائص الصوتية ومن ثم استخدمت خوارزمية SVM لتحديد مزاج الأغنية. وبالنسبة للدخل الثالث يأتي من مصنف الأغاني بالاعتماد على الجمل Sentences هنا تم استخلاص الجمل المكونة للأغنية وقد خضعت هذه الجمل لمعالجة تحضيرية للنص ومن ثم تم استخدام خوارزمية Bidirectional LSTM مع مجموعة قيود لتحديد مزاج الأغنية. وفي النهاية جرى أخذ هذه المدخلات الثلاثة والتي هي عبارة عن خرج المصنفات السابقة إلى مصنف الدمج لتحديد التصنيف النهائي، حيث أرسل كل مصنف أربعة قيم تمثل احتمالية مزاج الأغنية (happy sad, angry, relax,) من وجهة نظر المصنف وقام مصنف الدمج بتحليل جميع المدخلات باستخدام خوارزمية Random Forest ومن ثم قام بتحديد التصنيف النهائي. وقد حقق هذا النهج المقترح فعالية أكبر ودقة أفضل وصلت على بيانات الاختبار إلى 97%.

up


 

 

 الكلمات المفتاحية

تصنيف مزاج الأغاني، معالجة اللغات الطبيعية، الذاكرة الطويلة-القصيرة الأمد، تعلم الآلة، التعلم العميق.


 

 

 Abstract


Music emotion recognition is a field that aims to study the relationship between music and emotion and is helpful in music understanding and music information retrieval. In this paper we propose a new model on music mood classification using Audio and Lyrics Fusion Model. The input of this model extracted from the output of three models: music mood classification model based on lyrics using Random Forest algorithm, the accuracy of this model was 88%. The second model is music mood classification model based on Acoustic using SVM algorithm, the accuracy of this model was 99%. The final model was music mood classification model based on Sentences using Bidirectional LSTM algorithm, the accuracy of this model was 90%. Finally, every classifier sends 4 statistical values present the song mood (happy, sad, angry, relax) to the fusion model that became its inputs, and using Random Forest algorithm the classifier detects the final song mood. the accuracy of this model was 97%.  

up




 

 Key words

Music Mood Classification, Natural Language Processing, Long-short Term Memory, Machine Learning, Deep Learning


 

  المقدمة


تعتبر عملية التصنيف عملية مهمة في توزيع الكائنات إلى واحدة من عدة فئات افتراضية، بالنسبة لبيانات الموسيقى، تتضمن المهام النموذجية الكلاسيكية فئة الموسيقى ونوعها وتحديد الفنان وكشف المزاج والتعرف على الآلات الموسيقية وغيرها [1]. ولقد درس الباحثون الجوانب العاطفية للموسيقى لفترة طويلة. حيث تم التوصل لمعرفة الجانب العاطفي للموسيقى بالإجابة على عدة أسئلة:
    ما هي أنواع العواطف والمزاج التي يمكن أن تحتويها قطعة من الموسيقى؟
    كيف يتم توصيل العواطف والمزاج؟ وكيف تساهم البنى الموسيقية الأساسية، والتعبير في الأداء، وإعداد المستمع في عملية التواصل؟
ويمكن تصنيف العواطف بالاعتماد على الخصائص الصوتية لموسيقى الأغنية فقط أو بالاعتماد على كلمات الأغنية فقط أو تصنيف مزاج الأغنية بالاعتماد على دمج الخصائص الصوتية والكلمات معاً. تشير الخصائص الصوتية إلى الخصائص السماعية لبعض الطبقات الأساسية للأغاني من خلال تحليل الإشارة الصوتية [2]. ومع زيادة كمية المعلومات المتعلقة بالموسيقى المتاحة، تصبح تحديات تنظيم وتحليل مثل هذه المعلومات ذات أهمية قصوى. وفي الآونة الأخيرة، تم استخدام العديد من تقنيات استرجاع البيانات الموسيقية لتنفيذ مهام مختلفة على سبيل المثال، تصنيف نوع الموسيقى، والعاطفة، والكشف عن المزاج، وتوليد قائمة التشغيل، واسترجاع المعلومات الموسيقية [1]. انصب تركيزنا على دراسة تكامل كلمات الأغاني والخصائص الصوتية لتصنيف الأغاني حسب المزاج. وفي هذه الورقة قدمنا أولا مناهج مختلفة لتصنيف الحالة الشعورية للأغاني باستخدام الصوت والكلمات بشكل منفصل، ثم اقترحنا نظام تصنيف متعدد يدمج كل الطرق.سنتابع في تتمة هذه الورقة البحثية بدراسة لأهم الأبحاث ضمن نفس المجال في قسم الدراسات المرجعية. نشرح في قسم مواد البحث وطرائقه مجموعات البيانات المستخدمة في تدريب النماذج المختلفة واختبارها، بالإضافة إلى التقنيات والخوارزميات المستخدمة في هذا البحث. ونعرض في قسم المنهجية المقترحة الطريقة المقترحة مع شرح المراحل التي تمر بها، وقمنا في قسم النتائج المنهجية بعرض النتائج ومقارنتها بالأعمال المشابهة. ونختم بقسم الخلاصة بعرض ملخص عن البحث والأفاق المستقبلية له.

 up


 

 

    الدراسات المرجعية


هناك العديد من الأبحاث التي نشرت في مجال تصنيف الحالة الشعورية للأغاني Music mood classification. منها من اعتمد في تصنيف مزاج الأغاني على الخصائص الصوتية فقط ومنها من اعتمد على الكلمات فقط، ومنها من دمج الخصائص الصوتية والكلمات لتحديد الصنف النهائي.
حيث اقترحت إحدى الأبحاث الأوائل [3] طريقة لتصنيف السمات الصوتية بالاعتماد على مجموعة مصنفات تعلم الآلة وبعد التجريب حقق مصنف SVM أعلى دقة، وبالنسبة لتصنيف الكلمات فتم تجريب عدة طرائق مختلفة، منها k-NN with a tf.idf-based. وبعد تطبيق مصنف الدمج MIXED SVM زادت الدقة بشكل كبير وأصبحت 92%. قدمت دراسة جاءت بعدها [4] تصنيف مزاج الأغنية من خلال استخدام تقنيات MIR، ومن ثم تم استخراج الخصائص الصوتية باستخدام مجموعة خوارزميات تحليل ومعالجة الإشارة الصوتية تم تطبيق عدة مصنفات تعلم آلة وحقق أعلى دقة فيها مصنف Random Forest والدقة كانت 71%. وبعدها استخدمت إحدى الدراسات [5] عدة قواعد بيانات مثل قاعدة بيانات الأغاني MSD، تم تصنيف الأغاني بالاعتماد على الخصائص الصوتية في أول مرة واستخدمت لذلك مصنف Linear Regression واعطت دقة 57%، أما بالنسبة للكلمات ففي هذه الطريقة تم تطبيق شبكتي CNN وLSTM معاً وأعطت دقة 67.04%. قام أحد الباحثين بدراسة [6] تقارن بين تصنيف الأغاني بالاعتماد على الكلمات وبين تصنيف الأغاني بالاعتماد على الخصائص الصوتية باستخدام التعلم العميق، تم تطبيق عدة تقنيات لمعالجة اللغات الطبيعية واسترجاع المعلومات الموسيقية. وتم تطبيق تقنية fT+Bi- LSTM+attn تم الحصول على دقة 80.81%. قدمت أحدث الأبحاث [7] مقارنة بين الطرق المتعبة لتصنيف الحالة الشعورية للأغنية بالدمج بين الكلمات والموسيقى. تم استخراج السمات من الملفات الصوتية من خلال تدريب وتقييم CNN مع مجموعات متعددة من السمات المستخرجة تم استخدام خوارزميات NLP وتحويل BERT، وأخيرا تم استخدام نقل التعلم Transfer Learning في نموذج الدمج.

 up


 

 

  مواد البحث وطرائقه


في هذه الفقرة نتحدث عن البيانات المستخدمة في عمليات التدريب والاختبار بالإضافة إلى الخوارزميات والتقنيات لإنجاز عمليات التصنيف واستخراج السمات.
1.3. مجموعات البيانات
اعتمدنا في بحثنا على عدة مجموعات للبيانات وذلك نتيجة لتنوع البيانات المستخدمة، تتضمن الأنواع ما يلي:
1.1.3. مجموعة بيانات Spotify 1.2M+ Songs

تحوي (1) قاعدة بيانات Spotify على 1200000 أغنية مع خصائصها الصوتية، تم الحصول عليها من موقع Spotify. يحوي الملف على بيانات مجموعة كبيرة من الأغاني متضمنة خصائصها الصوتية.
2.1.3. مجموعة بيانات كلمات الأغاني
تحوي (2) قاعدة البيانات هذه على مجموعة كبيرة من الأغاني مصنفة إلى المشاعر الأربعة بالاعتماد على الكلمات. حيث تحوي حوالي 1776 أغنية مصنفة حسب الحالة الشعورية للكلمات.
3.1.3. مجموعة بيانات النص مع المشاعر
تحوي (3) قاعدة بيانات الجمل والمشاعر على 48785 جملة مع الحالة الشعورية الموافقة لها.
2.3. تعلم الآلة Machine learning

تعد تقنية تعلم الآلة من تقنيات الذكاء الاصطناعي، وتوجد في العديد من التطبيقات المتطورة من محركات البحث إلى الشبكات الاجتماعية وصولاً إلى أنظمة التوصية للمواقع التجارية.
تستخدم أنظمة تعلم الآلة في تحديد الأغراض في الصور وتحويل الكلام إلى نص ومطابقة عناصر جديدة واقتراح عناصر للمستخدم وإظهار النتائج المرغوبة في البحث والعديد من التطبيقات الأخرى [8]. ومن أشهر هذه الخوارزميات Random Forest تستند هذه الخوارزميات إلى أسلوب التعلم غير الخاضع للإشراف وتعتمد على بيانات تدريب حيث تقوم بفرز هذه البيانات لعدة أصناف [9]. وخوارزمية Support Vector Machine (SVM) هي خوارزمية تعلم آلي تتعرف على الأنماط في مجموعات البيانات الكبيرة وتصنف البيانات كفئات [10].
3.3. التعلم العميق Deep learning

التعلم العميق هو تقنية تمكن من حساب النماذج في طبقات معالجة متعددة من أجل معرفة تمثيل البيانات في مراحل متعددة للنتائج. أحدثت شبكات التعلم العميق الالتفافية Deep convolutional nets تقدم كبير في معالجة الصور والفيديو والكلام والصوت، أما الشبكات التكرارية recurrent nets فاستخدمت مع البيانات التسلسلية مثل النص والكلام [8].
1.3.3. الشبكات العصبية التكرارية Recurrent Neural Network (RNN)

الشبكات التكرارية هي شبكات تحوي على حلقات وذاكرة الحالة state memory، وعند بسط الحلقة تصبح شبكة تغذية أمامية تشارك الأوزان. تتشارك شبكات RNNs الأوزان عبر الزمن، وهذا ما يسمح للمعالجة أن تكون فعالة في حالة تمثيل النماذج في البيانات التسلسلية [7].
2.3.3. شبكة الذاكرة الطويلة/القصيرة الأمد Long Short-Term Memory (LSTM) Network
هي نوع خاص من الشبكات العصبية التكرارية التي تملك خلايا ذاكرة تعمل على التقاط الاعتماديات طويلة الأمد في البيانات ليتم تذكر المعلومات عبر الفترات الزمنية الطويلة [11].
3.3.3. خوارزمية Bidirectional LSTM

هي نوع خاص من شبكات RNN تدعى Bidirectional LSTM تستخدم من أجل تحديد الحالة الشعورية للجملة عن طريق التعامل مع كل جملة على أنها سلسلة من الكلمات المترابطة دلاليا. هذا النوع الخاص من الذاكرة الطويلة القصيرة الأمد LSTM يتميز بقدرة على فهم الجملة باتجاهين زمنيين من الماضي إلى الحاضر ومن الحاضر إلى الماضي [11].
4.3. تصنيف مزاج الأغنية بالاعتماد على الخصائص الصوتيةSong mood classification based on Acoustic

استخدمنا قاعدة بيانات Spotify التي تحوي الاغنية مع السمات الصوتية. ولكنها لا تحوي على الحالة الشعورية للأغنية. اعتمدنا طريقة العنقدة Clustering للحصول على الحالة الشعورية بالاعتماد على أربع سمات صوتية وهي (Danceability، Energy، acousticness، Valence)، تم انشاء أربع عناقيد باستخدام خوارزمية KMeans. ويوضح الشكل رقم 1 توزع الحالات الشعورية بالنسبة لسمتي danceability وenergy:
 
الشكل 1 توزع الحالات الشعورية الأربعة بالاعتماد على سمتي Danceability وEnergy
oاللون الأزرق يدل على الشعور السعيد Happy حيث يكون danceability وenergy ذات قيم مرتفعة.
o    اللون الأحمر يدل على الشعور حزين Sad حيث يكون danceability وenergy ذات قيم منخفضة.
o    اللون الأخضر يدل على الشعور غاضب Angry حيث يكون energy مرتفع وdanceability منخفض.
o    اللون الأصفر يدل على الشعور حيادي Relax حيث يكون danceability وenergy ذات قيم معتدلة.
وبعد علمية العنقدة قمنا بإضافة عمود المزاج Mood إلى قاعدة البيانات وهو معنون labeled بأرقام كل منها يعبر عن حالة شعورية. ثم قمنا ببناء مصنف البيانات الصوتية بالاعتماد على قاعدة البيانات الجديدة التي أنشأتها
تم اختيار بيانات الدخل وهي السمات الأربعة الأكثر أهمية التي استخدمناها في عملية العنقدة، أما الخرج فكان الحالة الشعورية. بعدها دربنا النموذج Model على مجموعة مختلفة من المصنفات وذلك من اجل اختبار أفضل دقة. يوضح الشكل 2 الخطوات المتبعة في استخراج السمات وتحديد المزاج وبعدها عملية تصنيف الأغاني
 
الشكل 2 مخطط مراحل تصنيف الأغاني بالاعتماد على الخصائص الصوتية
5.3. تصنيف مزاج الأغنية بالاعتماد على كلمات الأغنيةSong mood classification based on lyrics

تم تدريب هذا النموذج Model على قاعدة بيانات كلمات الأغنية تحوي على عدد كبير من كلمات الأغاني. تمت عملية معالجة النص وفق المراحل التالية [12]:
o    مرحلة التحليل اللغوي للنص او استخراج الرموز Token Extraction في هذه المرحلة تم تحليل النص واختيار المصطلحات المميزة وتسمى هذه العملية Tokenization. ونتج عن هذه العملية مجموعة من الكلمات ذات المعنى الدلالي.
o    مرحلة التجزيع Stemming يشير إلى اقتطاع جزء من نهاية الكلمة وإزالة اللواحق المشتقة واعادتها إلى الشكل الأساسي للكلمة كما ورد في القاموس اللغوي.
o    نقوم بعدها بإزالة كلمات التوقف واستخدام ترجيح المصطلحات TFIDF. ومعالجة اللغات الطبيعية NLP تتضمن جمع المعارف حول كيفية فهم البشر واستخدامهم للغة. الهدف من معالجة اللغات الطبيعية هو قراءة اللغات البشرية وفهمها وادراكها بطريقة قيمة واستخلاص المعنى المطلوب.
o    تم تقسيم العينات إلى بيانات تدريب واختبار وتتألف عملية التدريب من ثلاث مراحل تمت على التوازي Pipeline وهذه المراحل هي: عملية ترجيح المصطلحات واستخراج السمات باستخدام التابع TfidfVectorizer، واختيار أفضل السمات.
o    دربنا النموذج Model على مجموعة مختلفة من المصنفات وذلك من اجل اختبار أفضل دقة. ومن ثم قمنا بتصنيف النص إلى أربع مشاعر الأساسية الأربعة وهي (سعيد، حزين، حيادي، غاضب).
يوضح الشكل رقم 3 مراحل تصنيف الأغاني بالاعتماد على كلمات الأغنية بداية من استخراج الكلمات ومعالجة النص وصولاً إلى التصنيف وإعطاء الخرج
 
الشكل 3 مخطط مراحل تصنيف الأغاني بالاعتماد على كلمات الأغنية
6.3. موديل تصنيف مزاج الأغنية بالاعتماد على الجملSong mood classification based on Sentence
استخدمنا قاعدتي بيانات الجمل وكلمات الأغاني لتدريب النموذج Model، ومن أجل عمليات معالجة النصوص استخدمنا خوارزميات معالجة اللغات الطبيعية NLP، وبعدها حضرنا الكلمات لندخلها إلى شبكة RNN. المرحلة التالية كانت بتقسيم الأغنية إلى جمل وتحديد عدد الكلمات المطلوب في كل جملة. قمنا بتحديد التسلسل الزمني للكلمات لأخذ الكلمات بالشكل الصحيح. يوضح الشكل رقم 4 مراحل تصنيف الأغاني بالاعتماد على الجملة الكاملة للأغنية بداية من استخراج الكلمات ومعالجة النص وتطبيق قيود دلالية وصولاً إلى التصنيف وإعطاء الخرج النهائي
 
الشكل 4 مخطط مراحل تصنيف الأغاني بالاعتماد على الجملة الكاملة للأغنية
 نظرا لأن كمية الجمل الحيادية relax في الكلام المحكي أكثر من الجمل الحاوية على مشاعر سلبية أو إيجابية فإن المصنف LSTM سينحاز نوعا ما للصنف RELAX ولحل هذه المشكلة تم الاعتماد على Sentiment Analyzer خاص بمكتبة NLTK يعطي 4 بارامترات تتعلق بإيجابية وسلبية وحيادية وقطبية كل جملة وبالنسبة للبارامترات الثلاث الأولى فهي تتراوح بين المجال [0-1]. فإذا أعطى مصنف LSTM تصنيف Relax يتم تطبيق القيود المذكورة للتأكد أن الجملة فعلا Relax أو يتم تغيير تصنيفها ليصبح Sad أو Happy حسب قيم البارامترات. من جهة ثانية تم وضع قيود كذلك على الصنف Happy نظرا لوجود نوع من الانحياز تجاه الجمل السعيدة بحيث يتم التأكد أنها بالفعل جمل سعيدة إذا حققت القيود المذكورة. فإذا أعطى مصنف LSTM تصنيف Happy يتم التأكد من بارامترات الحيادية والسلبية والإيجابية والقطبية فإن لم تكن القطبية موجبة وقيم الإيجابية فوق عتبة معينة سيتم إعادة النظر بهذه الجمل وتغيير تصنيفها لتصبح Relax أو Sad. تم وضع بعض القيود على خوارزمية BidirectionalLstm المستخدمة في تحديد الحالة الشعورية لكل جملة وذلك لتحسين دقة التصنيف وقد قمنا بذلك عن طريق أخذ 4 متغيرات بعين الاعتبار وهي:
Positive: مقدار إيجابية الجملة. Negative مقدار سلبية الجملة. Neutral: مقدار حيادية الجملة. Compound: القطبية والتي تؤخذ قيم سالبة في الجمل الحزينة والغاضبة. تم استخراج المتغيرات السابقة عن طريق خوارزمية تحليل المشاعر Sentiment Analyzer. وهذه القيود موضحة في الجدول رقم 1:
الجدول 1القيود الموضوعة على المصنف بالاعتماد على الجمل

إن استخدام القيود السابقة ساعد على رفع دقة الخوارزمية بمقدار 0.3% حيث أصبحت الدقة 90%. وأخيراً قمنا بإنشاء نموذج التعلم العميق وهو عبارة عن شبكة عصبية تكرارية RNN حيث استخدمنا شبكة Bidirectional LSTM والشكل رقم 5 يوضح بينة هذا النموذج:
 
الشكل 5 موديل Bidirectional LSTM

تبدأ البينة العصبية الكاملة للخوارزمية بطبقة التضمين Embedding تعقبها 3 طبقات من Bidirectional LSTM مع استخدام Drop Out بينية لتفادي حالة Overfitting وبعد ذلك تأتي طبقة الخرج ب 5 عصبونات للإشارة للأصناف الخمسة التي تم تدريب الخوارزمية عليها وهي: Angry, Sad, Relax, Love, Happy لاحقا سيتم اعتبار كل من Love وHappy كحالة واحدة. تم استخدام تابع تنشيط SoftMax على الخرج وتحديد Categorical Cross Entropy لحساب الخسارة Loss بالإضافة لاستخدام تقنية Early Stopping لإيقاف الخوارزمية عن التدريب عند عدم وجود أي تحسن إضافي بالإداء. اعتمدت الخوارزمية على 25 دورة تدريبية وبسبب وجود تقنية Early Stopping تم التوقف عند الدورة 19. بالنسبة للجمل فقد تمت معالجتها وفق Text Hammer وتم أخذ جميع الجمل بعدد كلمات ثابت وهو شعاع مكون من 300 قيمة وفي حال كانت الجمل أقل من ذلك تم حشو أصفار لتجسيد عدم وجود كلمات كافية وتحقيق البعد المطلوب.

المنهجية المقترحة
في هذا البحث تم اقتراح نهج جديد لتصنيف الأغاني يعتمد على دمج عدة مصنفات مع بعضها ضمن نموذج شامل Fusion Model ويوضح الشكل رقم 6 المخطط العام للمنهجية المقترحة حيث تم استخلاص عدة مدخلات من كل أغنية وهي:
 
الشكل 6 المخطط العام للمنهجية المقترحة
كلمات الأغنية Lyrics: خضعت الكلمات لمعالجة تحضيرية وتم استخدام خوارزمية Random Forest. الخصائص الصوتية Acoustic: تم استخلاص مجموعة من الخصائص الصوتية ومن ثم تم استخدام خوارزمية SVM. الجمل Sentence: تم استخلاص الجمل المكونة للأغنية، وقد خضعت هذه الجمل لمعالجة تحضيرية ومن ثم تم استخدام خوارزمية LSTM مع مجموعة قيود. مصنف الدمج Fusion Model: استقبل هذا المصنف دخله من مخرجات المصنفات السابقة لتحديد التصنيف النهائي حيث أرسل كل مصنف أربعة قيم تمثل احتمالية لمزاج الأغنية (happy sad, angry, relax,) من وجهة نظر المصنف وقام مصنف الدمج بتحليل جميع المدخلات باستخدام خوارزمية Random Forest ومن ثم قام بتحديد التصنيف النهائي.
 

up


 

 
   الاختبارات والمناقشة


من أجل التحقق من فعالية الطريقة المقترحة تم اجراء عدة اختبارات لاختبار نماذج تصنيف الأغاني، حيث قمنا بتحقيق النظام باستخدام لغة Python وتجريبها على مواقع بث الأغاني وقواعد بيانات الأغاني.
1.5. اختبار تصنيف مزاج الأغنية بالاعتماد على البيانات الصوتية
في البداية تم الوصول إلى واجهة المطورين في موقع Spotify وهي شركة تقدم خدمات بث الموسيقى وتوفر الوصول إلى ملايين الأغاني والفيديوهات وحصلنا على الأغاني وقمنا باستخراج السمات الصوتية. بعدها أدخلنا هذه السمات إلى النموذج Model الذي أنشأناه وهنا استخدمنا Random Forest Classifier وكان الخرج عبارة عن صنف الحالة الشعورية للأغنية.
2.5. اختبار تصنيف مزاج الأغنية بالاعتماد على كلمات الأغنية
قمنا بتحديد اسم الأغنية ثم حصلنا على كلمات هذه الأغنية من خلال تمرير معلومات حساب يصل إلى قواعد بيانات ومحركات بحث للأغاني. ثم طبقنا عمليات معالجة اللغات الطبيعية على الكلمات، ومررناها إلى نموذج تصنيف مزاج الأغاني بالاعتماد على الكلمات وهو Random Forest Classifier.
3.5. اختبار تصنيف مزاج الأغنية بالاعتماد على المعنى الدلالي للجمل
من أجل اختبار تصنيف الحالة الشعورية للأغنية بالاعتماد على الجمل كاملة، استخرجنا كلمات الأغنية وقمنا بالعمليات المختلفة لمعالجة الكلمات ثم قسمنا الأغنية إلى مجموعة جمل بعدد محدد من الكلمات، وطبقنا عليها قيود Sentiment Analyzer وحددنا الخرج باستخدام خوارزمية Bidirectional LSTM.
4.5. المصنف النهائي للأغاني
استقبل هذا المصنف دخله من مخرجات المصنفات السابقة لتحديد التصنيف النهائي حيث أرسل كل مصنف أربعة قيم تمثل احتمالية لمزاج الأغنية (happy sad, angry, relax,) من وجهة نظر المصنف وقام مصنف الدمج بتحليل جميع المدخلات باستخدام خوارزمية Random Forest ومن ثم قام بتحديد التصنيف النهائي. قمنا بدمج المصنفات الثلاثة وكانت دخل في مصنف نهائي Fusion Classification وحصلنا على الخرج النهائي وهو الحالة الشعورية للأغنية. ويمثل الشكل رقم (7) مثال لتصنيف أغنية، حيث تم تصنيف هذه الأغنية بالاعتماد على الخصائص الصوتية وبعدها تم تصنيف الأغاني بالاعتماد على الكلمات ومن ثم الجمل والتصنيف النهائي بأخذ خرج المصنفات الثلاث والنتيجة هي الشعور النهائي.
 
الشكل 7اختبار المصنف النهائي
   النتائج
 بالنسبة للدقة التي وصلنا لها في مرحلة تصنيف الأغاني: اولاً تصنيف الأغاني بالاعتماد على السمات الصوتية Acoustic، حيث أن بعد إنشاء قاعدة البيانات الجديد باستخدام Clustering، وتدريبها على موديلات تعلم الآلة لتصنيف المزاج أعطت الدقة الموضحة في الجدول رقم 2
الجدول 2 دقة موديلات تعلم الآلة لتصنيف المزاج بالاعتماد على السمات الصوتية والكلمات


حيث أن استخدام مصنف SVM اعطى دقة عالية على هذه البيانات الكبيرة. أما بالنسبة لتصنيف الأغاني بالاعتماد على الكلمات Lyrics، فقمنا بعد عمليات معالجة النص بتدريب البيانات على موديلات تعلم الآلة وكانت النتائج كالتالي موضحة بالجدول2 وبتجريب عدة خوارزميات تعلم آلة أعطت خوارزمية Random Forest أفضل دقة. وبالنسبة لتصنيف الأغاني بالاعتماد على الجمل Sentences. تم الوصول لدقة 90% على كل من بيانات التدريب والتقييم. حيث يمثل الشكل رقم 8 منحني الدقة لبيانات التدريب والاختبار الخاصة بنموذج تصنيف الجمل.
 
الشكل 8 حساب دقة نموذج الجمل
أما نتائج المصنف النهائي وهو ناتج دمج النماذج Models الثلاثة والتي كانت دخل لموديل جديد باستخدام تعلم الآلة وهذا المصنف هو Random Forest Classifier، النتائج موضحة بالشكل رقم 9:
 
الشكل 9 مصفوفة الارتباك Confusion Matrix لموديل الدمج
وجدنا من الشكل رقم 9 أن عدد مرات الخطأ لكل صنف صغيرة جداً مقارنة مع عدد مرات الإصابة، وهذا جدول رقم 3 يوضح رقم الصنف مع اسم الصنف.
الجدول 3 اسم الصنف الموافق لرقم الصنف في مصفوفة الارتباك


يوضح الشكل رقم 10 تقرير التصنيف Classification Report لمصنف الدمج النهائي للكلمات والبيانات الصوتية وتم حساب f1-score لكل صنف على حدة، ومن ثم قيمة الدقة النهائية كانت 97%.
 
الشكل 10 تقرير التصنيف النهائي
عند مقارنة طريقتنا مع عدة نماذج في الجدول رقم 4، بعضها يصنف الحالة الشعورية للأغنية بالاعتماد على الكلمات فقط أو على البيانات الصوتية فقط أو تصنيفها بالاعتماد على دمج الكلمات والبيانات الصوتية. تبين أن النموذج المقترح أعطى دقة أعلى من النماذج السابقة.
الجدول 4 المقارنة مع طرق مستخدمة في دراسات أخرى
 
 


up


 

     الخلاصة


قدمنا في هذا البحث نموذج جديد لتصنيف الحالة الشعورية للأغاني بالاعتماد على دمج عدة مصنفات مع بعضها ضمن نموذج شامل Fusion Model حيث تم استخلاص ثلاث مدخلات من كل أغنية وهذه المدخلات هي: الدخل الأول هو عبارة عن خرج مصنف مزاج الأغاني بالاعتماد على كلمات الأغنية وقد حقق دقة 88%. أما الدخل الثاني فكان خرج مصنف مزاج الأغاني بالاعتماد على الخصائص الصوتية وبعد التحسين بعملية العنقدة وصل لأعلى دقة وكانت 99%. وبالنسبة للدخل الثالث فهو من مصنف الأغاني بالاعتماد على الجمل Sentences وكانت الدقة في هذا النموذج 90%. وفي النهاية استقبل مصنف الدمج مخرجات المصنفات السابقة لتحديد التصنيف النهائي حيث أرسل كل مصنف أربعة قيم تمثل احتمالية مزاج الأغنية (happy, sad, angry, relax) من وجهة نظر المصنف وقام مصنف الدمج بتحليل جميع المدخلات ومن ثم قام بتحديد التصنيف النهائي.
يمكن إنجاز العمل المستقبلي في اتجاهات عديدة ومختلفة. قد يكون التطوير هو الجمع بين كميات كبيرة من البيانات المصنفة وغير المصنفة لتطوير أنظمة من شأنها دمج منهجيات التعلم شبه الخاضع للإشراف. فيما يتعلق بالبيانات، فإن استخدام البيانات التي تحتوي على كلمات ومحاذاة الصوت سيضيف أيضًا قيمة كبيرة. يمكن أن يكون الاتجاه الآخر للتطوير المستقبلي هو إدارة الإشارة الصوتية ومعالجتها. وفي النهاية يمكن تطبيق النماذج والمعرفة المكتسبة من هذا العمل على المزيد من مهام استرجاع المعلومات الموسيقية MIR مثل (تصنيف النوع، ووضع العلامات الموسيقية، وتصنيف الفنان) أو في مشاكل أخرى متعددة الوسائط مثل مهمة الكشف عن المشاعر من الفيديو.
 


up


 

 Reference


[1]     T. Li، M. Ogihara و G. Tzanetakis، 2011، Music Data Mining.
[2]     Y. Xie و . L. Ding, 2018  ، "A Survey of Music Personalized Recommendation System،" Advances in Intelligent Systems Research, volume 147.
[3]     J. G. P. H. Cyril Laurier,2008 ، Multimodal Music Mood Classification using Audio and Lyrics.
[4]     S. Brilis، E. Gkatzou، A. Koursoumis، K. Talvis، K. Katia و I. Karydis, 2017 ، " Mood Classification Using Lyrics and Audio: A Case-Study in Greek Music".
[5]     R. Akella, ، 2019"MUSIC MOOD CLASSIFICATION USING CONVOLUTIONAL NEURAL NETWORKS".
[6]     L. Parisi، S. Francia، S. Olivastri و M. S. Tavella, 2019 ، "EXPLOITING SYNCHRONIZED LYRICS AND FEATURES FOR MUSIC EMOTION DETECTION".
[7]     K. Pyrovolakis، P. Tzouveli و G. Stamou, 2022 ، "Multi-Modal Song Mood Detection with Deep Learning".
[8]     Y. LeCun و . Y. Bengio, 2015 ، "Deep learning،" nature14539
[9]     K. Arulkumaran، M. P. Deisenroth، M. Brundage و A. A. Bharath، 2017 "A Brief Survey of Deep Reinforcement Learning".
[10]     V. Murthy، D. B. V. Vardhan، K. Sarangam و P. V. p. Reddy, 2013 ، "A COMPARATIVE STUDY ON TERM WEIGHTING METHODS FOR AUTOMATED TELUGU TEXT CATEGORIZATION WITH EFFECTIVE CLASSIFIERS،" IJDKP.
[11]     A. N. Shewalkar, 2018 ، "COMPARISON OF RNN, LSTM AND GRU ON SPEECH RECOGNITION DATA".
[12]     D. M. J.Garbade, 2018 ، "A Simple Introduction to Natural Language Processing،" Becoming Human: Artificial Intelligence Magazine.
[13]     K. Arulkumaran، M. P. Deisenroth، M. Brundage و A. A. Bharath, 2017 ، "A Brief Survey of Deep Reinforcement Learning".
[14]     C. D.Manning، P. Raghavan و H. Schütze, 2008 ، An Introduction to Information Retrieval، New York: Cambridge University Press.


up