باحثون يطورون تقنية تستخلص الصوت من الصور ومقاطع الفيديو الصامتة

أداة Side Eye تلتقط انكسار الضوء الناتج عن الموجات الصوتية

time reading iconدقائق القراءة - 3
صورة توضيحية لأداة Side Eye الجديدة - Northeastern University
صورة توضيحية لأداة Side Eye الجديدة - Northeastern University
القاهرة-محمد عادل

طور فريق بحثي أداة برمجية جديدة يمكنها استخلاص الصوت وإعادة بناء موجاته من خلال الفيديوهات الصامتة وحتى الصور.

وبحسب الدراسة، قام فريق من الباحثين في جامعة نورث إيسترن بتطوير أداة تعتمد على نظام تعليم الآلة بإمكانها التعرف على جنس المتحدث في أي صورة أو مقطع مصور صامت، وكذلك تحديد الكلام الذي يتم النطق به خلال الموقف المصور.

وأشار كيفن فو، أستاذ الهندسة الكهربائية وهندسة الكمبيوتر وعلوم الكمبيوتر في جامعة نورث إيسترن، إلى أن الحصول على الصوت من الصور وحتى مقاطع الفيديو الصامتة، أصبح ممكناً باستخدام الأداة الجديدة والتي تحمل اسم "Side Eye".

فكرة فريدة

وشرح فو أن صوت المتحدث وموجاته يتسببان في انحناء وكسر موجات الضوء وأشعته، وبالتالي خلال عملية التصوير إذا تمكنت عدسة الكاميرا من التقاط كم كبير من البيانات من هذا التغير في أشعة الضوء، يصبح من السهل إعادة بناء الموجات الصوتية والتعرف على جنس المتحدث، وفي بعض الأحيان يصبح من الممكن تحديد هويته بدقة.

وأشار الفريق إلى أن فكرة الأداة الفريدة جاءت من مسلسل الخيال العلمي "Fringe"، والذي تناول في إحدى حلقاته تعاون مجموعة من الباحثين مع مكتب التحقيقات الفيدرالي لتطوير أداة جديدة بإمكانها استخلاص موجات الصوت عبر رصد التغيرات التي أحدثتها الموجات الصوتية في طبيعة جزيئات وبناء لوح زجاجي.

وذكر فو، الذي يعد الباحث الرئيسي في الدراسة، إلى أن الأداة تستخدم تقنية الثبات في التصوير (image stabilization) لتتمكن من رصد التغيرات والاهتزازات الناتجة عن الموجات الصوتية التي تؤثر على مستشعر التصوير خلال عملية التقاط الصورة أو الفيديو، بالإضافة إلى تقنية فتحة الكاميرا الدوارة Rolling Shutter.

تعليم الآلة

 التقنية الثانية تعتبر الأساس في عمل الأداة الجديدة من حيث استخدامها لالتقاط أكبر كمية من البيانات خلال عملية التصوير على طريقة كاميرات الهواتف الذكية التي تقوم بالتقاط كمية كبيرة من تفاصيل الصورة على عدة مراحل خلال ثوانٍ معدودة.

وأوضح فو أن الهواتف تقوم بالتقاط بكسلات الصور بمعدل صف واحد في كل مرة، وبالتالي مع تكرار تلك العملية الآلاف من المرات، يصبح من السهل جمع كمية كبيرة من البيانات والتفاصيل الدقيقة عن المشهد خلال لحظة التصوير.

دقة نتائج الأداة الجديدة تعتمد بشكل رئيسي على تدريبها على كمية كبيرة من البيانات المتنوعة من حيث طريقة نطق مختلف الكلمات عبر أشخاص مختلفين ومتنوعين من حيث الجنس والخلفيات الثقافية.

وإذا رغبنا في معرفة ما إذا كان شخص ما قد أجاب على سؤال معين بنعم أو لا، سيكون من اللازم تدريب تلك الأداة على طريقة قول كلمتي "نعم" و "لا" من جانب عدة أشخاص، وبالتالي تتمكن الأداة من معرفة إجابة الشخص المطلوب عبر تحليل صورة له تم التقاطها خلال إجابته على السؤال.

تصنيفات

قصص قد تهمك