BASE TTS نجح في فهم طريقة التعبير عن المشاعر صوتياً ونطق الكلمات غير الإنجليزية دون تدريب

أمازون تكشف عن نموذج ذكاء اصطناعي يطور نطقه للكلمات ذاتياً

صورة صممتها "الشرق" باستخدام الذكاء الاصطناعي للتعبير عن فكرة تحويل النصوص إلى مقاطع صوتية مسموعة - Microsoft Copilot
صورة صممتها "الشرق" باستخدام الذكاء الاصطناعي للتعبير عن فكرة تحويل النصوص إلى مقاطع صوتية مسموعة - Microsoft Copilot
القاهرة-الشرق

كشفت مجموعة من الباحثين بقطاع أبحاث الذكاء الاصطناعي في أمازون Amazon AGI عن نموذج ذكي جديد، قادر على تعليم نفسه كيفية نطق كلمات ورموز وعبارات لم يتدرب عليها من قبل.

بحسب الورقة البحثية، فإن نموذج BASE TTS، والمتخصص في تحويل النصوص إلى كلام مسموع، تمكن من تطوير قدراته ذاتياً في التعامل مع كلمات غير إنجليزية، وفهم الرموز وعلامات الترقيم، إلى جانب قدرته على التعبير الصوتي عن المشاعر المختلفة.

وأشار فريق أمازون البحثي إلى تدريب النموذج على 100 ألف ساعة من حديث البشر بلغات مختلفة، 90% منها باللغة الإنجليزية، ثم تدريب نموذجين أصغر حجماً، أحدهما على 10 آلاف ساعة، والآخر على ألف ساعة فقط.

النموذج الفائز

واختبر الباحثون النماذج الثلاث للتوصل إلى النموذج الأكثر إظهاراً لعلامات التعلم الذاتي وتطوير قدرات لم يتدرب عليها من خلال قواعد بيانات التدريب، وكان النموذج الأكثر تطوراً هو متوسط الحجم، المُدرب على 10 آلاف ساعة من الحديث المسموع.

وتتمثل القدرات، التي أذهلت الباحثين، في إدراك النموذج كيفية نطق عبارات يتطلب توصيل معناها الحديث بالهمس، وكذلك كيفية التنقل بين العبارات والجمل عند قراءة نص مزود بعلامات الترقيم الإنجليزية، إلى جانب ذلك استطاع نموذج BASE TTS التعامل باحترافية مع بعض الكلمات الفرنسية التي توسطت جملاً مكونة من كلمات إنجليزية.

ولا يزال النموذج في مرحلة البحث والتطوير، ولم يتم إطلاقه تجارياً للمستخدمين.

وأوضح الباحثون أن نموذج BASE TTS هو من نوع "النماذج القابلة للبث Streamable"، حيث لا يقوم بالتحويل المباشر للعبارات النصية إلى حديث مسموع، ويعمل بمعدل بطيء بعض الشيء.

كذلك يقوم الباحثون بفصل البيانات المتعلقة بالمشاعر التي تقف وراء الكلمات في ملفات منفصلة عن تلك الخاصة بالتكوين النصي للكلمات نفسها، وهو ما يجعل النموذج بطيئاً مقارنة بالنماذج التجارية المتخصصة في تحويل النصوص إلى مقاطع مسموعة.

وشهدت نماذج الذكاء الاصطناعي المتخصصة في إنشاء الأصوات الرقمية تطوراً واسعاً خلال العام الماضي، الأمر الذي حذر منه خبراء الأمن المعلوماتي بالتزامن مع اقتراب إجراء الانتخابات الرئاسية في العديد من دول العالم، وأهمها الانتخابات الرئاسية الأميركية بحلول نوفمبر.

تصنيفات

قصص قد تهمك