استمعت منظمة العفو الدولية إلى أصوات الناس. ثم ولدت وجوههم.

Pin
Send
Share
Send

هل سبق لك أن كونت صورة ذهنية لشخص لم يسبق لك رؤيته ، بناءً على صوته فقط؟ يمكن للذكاء الاصطناعي (AI) القيام بذلك الآن ، وتوليد صورة رقمية لوجه الشخص باستخدام مقطع صوتي قصير فقط كمرجع.

تم تدريب الشبكة المسماة Speech2Face ، وهي شبكة عصبية - جهاز كمبيوتر "يفكر" بطريقة مشابهة للدماغ البشري ، من قبل العلماء على ملايين مقاطع الفيديو التعليمية من الإنترنت والتي أظهرت أكثر من 100000 شخص مختلف يتحدثون.

كتب باحثون في دراسة جديدة أن مجموعة Speech2Face تعلمت من مجموعة البيانات هذه الارتباطات بين الإشارات الصوتية وبعض السمات الجسدية في وجه الإنسان. ثم استخدم الذكاء الاصطناعي مقطعًا صوتيًا لوضع نموذج لوجه واقعي يطابق الصوت.

تم نشر النتائج على الإنترنت في 23 مايو في arXiv preprint jounral ولم تتم مراجعة الأقران.

لحسن الحظ ، لا يعرف الذكاء الاصطناعي (حتى الآن) بالضبط ما يبدو عليه فرد معين بناءً على صوته وحده. أفاد مؤلفو الدراسة أن الشبكة العصبية تتعرف على علامات معينة في الكلام تشير إلى الجنس والعمر والعرق ، وهي سمات يشاركها الكثير من الناس.

وكتب العلماء "على هذا النحو ، لن ينتج النموذج سوى وجوه ذات مظهر متوسط". "لن تنتج صور لأفراد معينين."

لقد أظهرت منظمة العفو الدولية بالفعل أنها يمكن أن تنتج وجوهًا إنسانية دقيقة بشكل غريب ، على الرغم من أن تفسيراتها للقطط مرعبة قليلاً بصراحة.

لم تتطابق الوجوه التي تم إنشاؤها بواسطة Speech2Face - التي تواجه جميعها وتعبيرات محايدة - بدقة مع الأشخاص وراء الأصوات. لكن الدراسة تلتقط عادة الفئات العمرية الصحيحة والأعراق والأجناس للأفراد ، وفقا للدراسة.

ومع ذلك ، كانت تفسيرات الخوارزمية بعيدة عن الكمال. أظهر Speech2Face "أداء مختلط" عندما واجهت اختلافات في اللغة. على سبيل المثال ، عندما استمعت منظمة العفو الدولية إلى مقطع صوتي لرجل آسيوي يتحدث الصينية ، أنتج البرنامج صورة لوجه آسيوي. ومع ذلك ، عندما تحدث الرجل نفسه باللغة الإنجليزية في مقطع صوتي مختلف ، ولّد الذكاء الاصطناعي وجه رجل أبيض ، حسبما ذكر العلماء.

أظهرت الخوارزمية أيضًا تحيزًا بين الجنسين ، وربط الأصوات منخفضة الصوت مع الوجوه الذكورية والأصوات عالية الصوت مع الوجوه الأنثوية. وكتب الباحثون ، لأن مجموعة بيانات التدريب لا تمثل سوى مقاطع الفيديو التعليمية من موقع يوتيوب ، فإنها "لا تمثل بالتساوي جميع سكان العالم".

وذكرت سلايت أن مصدر قلق آخر حول مجموعة بيانات الفيديو هذه نشأ عندما فوجئ شخص ظهر في مقطع فيديو على يوتيوب عندما علم أن شبهه قد تم دمجه في الدراسة. اكتشف نيك سوليفان ، رئيس التشفير في شركة أمن الإنترنت Cloudflare في سان فرانسيسكو ، وجهه بشكل غير متوقع باعتباره أحد الأمثلة المستخدمة لتدريب Speech2Face (والتي أعادت الخوارزمية إنتاجها تقريبًا تقريبًا).

لم يوافق سوليفان على الظهور في الدراسة ، ولكن تعتبر مقاطع فيديو YouTube في مجموعة البيانات هذه متاحة على نطاق واسع للباحثين لاستخدامها دون الحصول على أذونات إضافية ، وفقًا لـ Slate.

Pin
Send
Share
Send