توليد تحريك لِوجه يتزامن مع كلام مُدخَل باللغة العربية
 
  م. إياس راضي  
د. أميمة الدكاك
د. مدحت الصوص
 

الملخص


يهدف البحث إلى توليد تحريك لنموذج وجه بشريّ ثلاثي الأبعاد يتزامن مع إشارة كلاميّة بالّلغة العربيّة، يختصّ بمنطقة الشّفاه والفكّ. ينقسم البحث إلى قسمين: 1- معالجة الإشارة الكلاميّة لتعرُّف الصّوتيمات (الفونيمات) ومُدَدها، 2- مقابلة الصّوتيمات مع الفيزيمات المناسبة والتّنقل بين الفيزيمات حسب مدّة كل صوتيم. تمَّ الاعتماد في القسم الأوّل على نموذج ماركوف المخفي ذي ثلاث حالات لكل صوتيم، مع نموذج خليط غاوسي، بحيث يكون دخل النّموذج تصنيفات سمات ميل كيبستروم MFCCs، وخرجه صوتيمات الكلام مقسّمة زمنيّاً. وتمَّ الاعتماد في القسم الثّاني على نموذج استيفاء الأشكال مع مراعاة التّداخل الزمنيّ بين الفيزيمات لتحقيق التّرابط النّطقيّ، وتمَّ وضع صيغة جديدة لحساب شدّة ظهور الفيزيم والفترة الّتي يبقى فيها محافظاً على شكله، تعتمد على مدّة الصّوتيم ومتوسّط مُدَدَه. كانت دقّة تعرُّف الصّوتيمات 86.09% على مستوى الإطار حسب صيغة مُعدّل الخطأ في تعرُّف الصّوتيمات، وتمَّ إجراء تقييم فردي لنتائج التّحريك بواسطة 75 مستخدم، وكانت النّتيجة أنَّ 56% من المستخدمين كان تقييمهم 80% وما فوق لجودة مطابقة الكلام مع حركات الشّفاه، و57% من المستخدمين كان تقييمهم 80% وما فوق لواقعيّة التّحريك. كما تمَّت المقارنة مع طريقة أخرى لحساب شدّة الفيزيم تعتمد على تردُّد الصوت Frequency والشّدّة Intensity، وكانت النّتيجة أنَّ 65% من المستخدمين كان تقييمهم لصالح التّحريك النّاتج عن الطّريقة المُطبَّقة في هذا البحث.
نستنتج أنه إذا كانت دقّة التّحريك عالية فإن دقّة تعرُّف الصّوتيمات حتماً عالية، لكنَّ العكس ليس بالضّرورة صحيحاً، فلعمليّة التّحريك محدّداتها الخاصّة الّتي من شأنها إنتاج مزامنة دقيقة بين الحركة والكلام، مثل معرفة شدّة الفيزيم وتحقيق التّرابط النّطقيّ والفترة التي يبقى فيها الفيزيم محافظاً على شكله، إذاً عمليّة الانتقال من صوتيمات الكلام إلى التّحريك ليست عمليّة تقابل بحتة.


  up
 

Abstract

The research aims to generate an animation of a 3D human face model that synchronizing to an Arabic speech signal, and specializing in lips and jaw area. The research is divided into two parts: 1- speech signal processing in order to phonemes recognition and their durations, 2- mapping between phonemes and visemes and making interpolation between visemes according to phonemes durations. In the first part, the three-states hidden Markov model and Gaussian Mixture Model for each phoneme was used, where the model input is Mel Frequency Cepstral Coefficients (MFCCs), and the output is phonemes and their durations. In the second part, the Blend Shapes model was used, taking into account the temporal overlap between visemes to achieve co-articulation, and a new formula was developed to calculate the viseme amplitude and the period during which it remains in its shape. This formula depends on the phoneme duration and its average. The accuracy of phonemes recognition was 86.09% at the frame level according to the Phone Error Rate formula (PER), and an individual evaluation of animation was made by 75 users, and the result was that 56% of users rated 80% and above for the quality of synchronization between speech and lip movements, and 57% of users rated 80% and above for the realism of animation. A comparison with another method for calculating the viseme amplitude based on sound frequency and intensity was also made, and the result was that 65% of users preferred the animation that is generated by the method applied in this research.
We conclude that if the animation accuracy is high, then the phonemes recognition accuracy is inevitably high, but the opposite is not necessarily true, because the process of animation has determinants that would produce an accurate synchronization between movement and speech, such as the viseme amplitude, co-articulation and the period during which the viseme remains in its shape, so the process of generating animation from phonemes is not a purely mapping process.



up

 

المقدّمة


يُعتبر حقل التّحريك مهمّاً للغاية لأنّه يسعى لتوصيل فكرة أو عاطفة ما إلى المشاهد بأسلوب فنّي، ولن يتحقّق ذلك إلا بضبط جميع مكوّنات المشهد وتصويرها بأفضل صورة ممكنة. وحيث أنَّ الوجه البشريّ هو الوسيلة الأولى للتواصل، فلا شكَّ أنَّ لعمليّة تحريكه الأولويّة قبل تحريك باقي العناصر، فهو تركيبة حيويّة معقّدة جدّاً نستطيع من خلاله التّعبير عن إيحاءاتنا وفهم إيحاءات الآخرين، إذ يمكننا التمييز بين أي تغيُّر طفيف في الملامح، الأمر الذي يجعل تحريكه من أصعب مهمّات التّحريك، ويبقى التّحدي الكبير هو إنتاج تحريك للوجه لا يختلف عمّا هو عليه في الواقع.
يفتقر العالم العربيّ لصناعة التّحريك بشكلٍ عام، وتزداد المشكلة عندما نتحدّث عن تحريك الوجه، فكثيراً ما نلاحظ في أفلام التّحريك عدم تطابق حركات الشفاه مع الكلام المنطوق. عولجت هذه المشكلة على نطاق واسع بالنسبة للّغة الإنكليزية، وظهرت أبحاث اختصت في لغات أخرى، إلا أنَّ الأبحاث التي تناولت اللغة العربية كانت محدودة جداً، ما كان حافزاً لنا للعمل على هذا البحث.
تتمُّ في هذا البحث دراسة إمكانية توليد تحريك تلقائي لنموذج وجه بشري ثلاثي الأبعاد، يتزامن مع إشارة كلاميّة باللغة العربية. تمَّ اختيار الفضاء الثلاثي الأبعاد لأنه يوفر شعوراً بالعمق ومزيداً من معلومات المشهد كالألوان والإضاءة والظّلال، وتمَّ اختيار الّلغة العربيّة لتكون لغة الدّخل كمحاولة لتعزيز تحريك الوجه في عمليّات صناعة أفلام الرّسوم المتحرّكة النّاطقة بالّلغة العربيّة، كما تمَّ الاعتماد على الإشارة الكلاميّة فقط لتحقيق أكبر قدر من التّلقائية وسهولة الاستخدام.


  up
 

الدّراسة المرجعيّة

1.    يمكن تصنيف الأعمال ذات الصّلة بالبحث وفق ثلاثة مناهج رئيسيّة بالنّظر إلى الطّريقة المُتَّبعة في تحريك الوجه المتكلّم.
1.2. المنهج الإجرائي


يتمُّ في هذه النّماذج [1، 2] تقسيم الكلام إلى سلسلة من الصّوتيمات ومقابلتها مع مجموعة من الفيزيمات. عادة تتمُّ مقابلة عدّة صوتيمات مع فيزيم واحد، وظهرت محاولة لربط عدّة صوتيمات مع عدّة فيزيمات [3]. ميزة هذه النّماذج أنّها لا تحتاج إلى بيانات حركة كاملة، بل تحتاج لمجموعة أشكال الفيزيمات، إلّا أنّها تعتمد في دقّتها على دقّة نظام تعرُّف الصّوتيمات، ويجب مراعاة التّرابط النّطقيّ بينها.


2.2. المنهج المقاد بالبيانات


يتمُّ في هذه النماذج تجميع أجزاء من بيانات حركة الوجه لتتناسب مع الكلام المُدخَل، إمّا بتدريب النّماذج الإحصائيّة، مثل نموذج ماركوف المخفي HMM [4]، والنّماذج ثلاثيّة الأبعاد القابلة للتّحويل 3DMM [5]، ونموذج المظهر النّشط AAM [6]، والشّبكات العصبونيّة العميقة DNNs [7، 8، 9]، أو بتنظيم قاعدة بيانات حركة الوجه في مجموعات تناسب السّياق [10]. تعطي هذه النّماذج دقّة عالية لأنها تعتمد على بيانات حركة حقيقيّة، لكنَّ النّتائج محدودة بالبيانات المتاحة.


3.2. المنهج القائم على التقاط الأداء


تعتمد هذه النّماذج [11، 12] على التقاط الحركة من متحدّث بشريّ ونقلها إلى نموذج وجه رقمي، ويمكن أيضاً الاعتماد على الإشارة الصّوتية لتحسين النّتائج. تعطي هذه النّماذج دقّة عالية في التّحريك، لكنّها تقتضي وجود المتحدّث دائماً، وتحتاج لجهد إضافي لتصحيح الأخطاء النّاتجة عن معالجة الفيديو.
تمَّ في هذه البحث الاعتماد على المنهج الإجرائيّ وذلك لسببين، الأوّل: إنَّ افتقارنا لبيانات حركة حقيقيّة خاصّة بالّلغة العربيّة جعلنا نبتعد عن المنهج المقاد بالبيانات، على الرّغم أنَّ الأخير قد يعطي نتائج أفضل من المنهج الإجرائي. الثّاني: نظراً لضرورة تحقيق إعادة الاستخدام، فقد تمَّ الابتعاد عن المنهج المقاد بالأداء، لأن هذا المنهج يحتاج لوجود الممثّل دائماً.


 

 الكلمات المفتاحية

 التّحريك الكلامي، الكلام المرئي، تحريك الوجه، الرأس المتكلم، تعرُّف الصوتيم، سمات ميل كيبستروم، استيفاء الأشكال، نموذج ماركوف المخفي، مزامنة الشفاه.

 

Keywords

Speech Animation, Visual Speech, Facial Animation, Talking Head, Phoneme Recognition, MFCC, Blend Shapes, Hidden Markov Model, Lip Syncing.


  up
 

المراجع

[1]     C. Charalambous, Z. Yumak and A. F. van der Stappen, "Audio-driven emotional speech animation for interactive virtual characters," Computer Animation and Virtual Worlds, vol. 30, p. e1892, 2019.
[2]     P. Edwards, C. Landreth, E. Fiume and K. Singh, "JALI: an animator-centric viseme model for expressive lip synchronization," ACM Trans. Graph., vol. 35, pp. 127:1-127:11, 2016.
[3]     S. L. Taylor, M. Mahler, B.-J. Theobald and I. Matthews, "Dynamic Units of Visual Speech," in Proceedings of the ACM SIGGRAPH/Eurographics Symposium on Computer Animation, Goslar: DEU, Eurographics Association, 2012, p. 275–284.
[4]     L. Wang, W. Han and F. Soong, "High quality lip-sync animation for 3D photo-realistic talking head," Acoustics, Speech, and Signal Processing, 1988. ICASSP-88., 1988 International Conference on, pp. 4529-4532, 2012.
[5]     T. Ezzat, G. Geiger and T. Poggio, "Trainable Videorealistic Speech Animation," ACM Trans. Graph., vol. 21, p. 388–398, 2002.
[6]     R. Anderson, B. Stenger and V. Wan, "Expressive Visual Text-To-Speech Using Active Appearance Models," Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2013.
[7]     T. KARRAS, T. AILA, S. LAINE, A. HERVA and J. LEHTINEN, "Audio-Driven Facial Animation by Joint End-to-End Learning of Pose and Emotion," ACM Trans. Graph., vol. 36, p. 12, 2017.
[8]     S. TAYLOR, T. KIM, Y. YUE, M. MAHLER, J. KRAHE, A. G. RODRIGUEZ, J. HODGINS and I. MATTHEWS, "A Deep Learning Approach for Generalized Speech Animation," ACM Trans. Graph., vol. 36, p. 11, 2017.
[9]     Y. Chai, Y. Weng, L. Wang and K. Zhou, "Speech-driven facial animation with spectral gathering and temporal attention," Frontiers of Computer Science, 2021.
[10]     B. Christoph, C. M. and S. Malcolm, "Video Rewrite: driving visual speech with audio," Proceedings of the 24th annual conference on Computer graphics and interactive techniques, 1997.
[11]     T. Weise, S. Bouaziz, H. Li and M. Pauly, "Realtime Performance-Based Facial Animation," ACM Trans. Graph., vol. 30, p. 77, 2011.
[12]     S. Ravikumar, "Performance Driven Facial Animation with Blendshapes," 2017.
[13]     N. Halabi, "Modern standard Arabic phonetics for speech synthesis," p. 143, 2016.
[14]     M. Antal, "SPEAKER INDEPENDENT PHONEME CLASSIFICATION IN CONTINUOUS SPEECH," Studia Universitatis Babeş-Bolyai. Informatica, vol. 49, 2004.
[15]     G. Schwarz, "Estimating the Dimension of a Model," The Annals of Statistics, vol. 6, pp. 461 -- 464, 1978.
[16]     A. Dempster, N. Laird and D. Rubin, "Maximum Likelihood from Incomplete Data Via the EM Algorithm," Journal of the Royal Statistical Society: Series B (Methodological), vol. 39, pp. 1-22, 1977.
[17]     A. Viterbi, "Error bounds for convolutional codes and an asymptotically optimum decoding algorithm," IEEE Transactions on Information Theory, vol. 13, pp. 260-269, 1967.
[18]     T. Larsson, m. and H. , "MakeHuman-Additions," 2020.
[19]     P. Damien, N. Wakim and M. Egea, "Phoneme-viseme mapping for Modern, Classical Arabic language," in 2009 International Conference on Advances in Computational Tools for Engineering Applications, 2009, pp. {547-552.
[20]     G. Bailly, "Learning to speak. Sensori-motor control of speech movements.," Speech Commun, vol. 22, pp. 251-267, 1997.


  up
 

النّتائج والمناقشة


1.4. نتائج مرحلة تعرُّف الصوتيمات
تمَّ إجراء التّقييم باستخدام صيغة مُعدّل الخطأ في تعرُّف الصّوتيمات PER حسب المعادلة 8 والمعادلة 9.


 

حيث S(Substitutions): عدد الإطارات المستبدلة، D(Deletions): عدد الإطارات المحذوفة، I(Insertions): عدد الإطارات المُدخلة، N: عدد الإطارات الكُليّة.
يبيّن الشكل 5 نتيجة الدّقة باستخدام صيغة PER على مستوى الإطارات.


2.4. نتائج مرحلة التّحريك


تقييم جودة المزامنة والواقعية
تمَّ إجراء تقييم لجودة مطابقة الكلام مع حركات الشّفاه وواقعيّة التّحريك (مدى قربه ليكون وجهاً بشرياً)، من خلال استطلاع رأي 75 مستخدم، وطُلِب منهم وضع درجة من أصل 5 درجات (ضعيف 20%، وسط 40%، جيد 60%، جيد جداً 80%، ممتاز 100%)، فكانت النّتيجة أنَّ 56% من المصوّتين كان تقييمهم 80% وما فوق بالنّسبة لجودة المطابقة، و57% من المصوّتين كان تقييمهم 80% وما فوق بالنّسبة لواقعيّة التّحريك.
 

 

 


المقارنة مع الطريقة المقدمة في [1] لحساب شدّة الفيزيم


 

الشكل 5: الدقة باستخدام صيغة PER على مستوى الإطارات لمرحلة تعرف الصوتيمات


تمّ تطبيق طريقة [1] لحساب شدّة الفيزيم من خلال التّردُّد Frequency والشّدّة Intensity، وتوليد التّحريك المقابل ومقارنته مع التّحريك النّاتج من هذا العمل على نفس الملف، وتمَّ التّصويت دون دراية من المصوّتين أيّ الفيديوهين يتبع لطريقة [1] وأيُّهما يتبع لهذا العمل فكانت النّسبة 65:35 لصالح الطّريقة المُقدَّمة في هذا البحث.


3.4. مناقشة


•    تمَّ تحقيق مستوىً عالٍ من التّلقائية، حيث يتمُّ إنتاج التّحريك من خلال إشارة كلاميّة فقط.
•    يمكن القول أنّه إذا كانت دقّة التّحريك عالية فإنَّ دقّة نظام تعرُّف الصّوتيمات هي حتماً عالية، ولكنَّ العكس ليس بالضّرورة صحيحاً.
•    تعتبر الدّقة الّتي تمَّ التوصّل إليها جيّدة جدّاً بالنّسبة لأوّل دراسة لتحريك الوجه من خلال إشارة كلاميّة فقط وبالّلغة العربيّة.




  up