تم إنشاء هذه الرسوم المتحركة الموناليزا بواسطة منظمة العفو الدولية ، وهي مرعبة

Send

الابتسامة الغامضة المطلية لـ "الموناليزا" معروفة في جميع أنحاء العالم ، لكن هذا الوجه الشهير أظهر مؤخرًا مجموعة جديدة مذهلة من التعبيرات ، مقدمة من الذكاء الاصطناعي (AI).

في مقطع فيديو تمت مشاركته على YouTube في 21 مايو ، تظهر ثلاث مقاطع فيديو أمثلة مقلقة على الموناليزا وهي تحرك شفتيها وتدير رأسها. تم إنشاؤها بواسطة شبكة عصبية تلافيفية - نوع من الذكاء الاصطناعي الذي يعالج المعلومات مثلما يفعل الدماغ البشري ، لتحليل الصور ومعالجتها.

قام الباحثون بتدريب الخوارزمية على فهم الأشكال العامة لسمات الوجه وكيفية تصرفها بالنسبة لبعضها البعض ، ثم تطبيق هذه المعلومات على الصور الثابتة. وكانت النتيجة تسلسل فيديو واقعي لتعبيرات الوجه الجديدة من إطار واحد.

بالنسبة لفيديو الموناليزا ، تعلمت منظمة العفو الدولية حركة الوجه من مجموعات بيانات لثلاثة أشخاص بشريين ، وتنتج ثلاثة رسوم متحركة مختلفة تمامًا. في حين كان لا يزال من الممكن التعرف على كل من المقاطع الثلاثة باسم الموناليزا ، إلا أن الاختلافات في مظهر وسلوك نماذج التدريب قدمت "شخصيات" مميزة إلى "الصور الحية" ، إيجور زاخاروف ، مهندس بمعهد سكولكوفو للعلوم والتكنولوجيا ، و شرح مركز سامسونج للذكاء الاصطناعي (كلاهما في موسكو) ، في الفيديو.

كما أنتج زاخاروف وزملاؤه رسومًا متحركة من صور أيقونات ثقافية من القرن العشرين مثل ألبرت أينشتاين ومارلين مونرو وسلفادور دالي. وصف الباحثون النتائج التي توصلوا إليها ، والتي لم تتم مراجعتها من قبل الأقران ، في دراسة نُشرت على الإنترنت في 20 مايو / أيار في مجلة arXiv قبل الطباعة.

الوجوه المألوفة تأخذ تعابير غير مألوفة. (حقوق الصورة: E. Zakharov et al.)

إنتاج مقاطع فيديو أصلية مثل هذه ، والمعروفة باسم deepfakes ، ليس بالأمر السهل. الرؤوس البشرية معقدة هندسيًا وديناميكية للغاية ؛ كتب مؤلفو الدراسة أن النماذج ثلاثية الأبعاد للرؤوس بها "عشرات الملايين من المعلمات".

علاوة على ذلك ، فإن نظام الرؤية البشرية جيد جدًا في تحديد "حتى الأخطاء الطفيفة" في الرؤوس البشرية المصممة بنموذج ثلاثي الأبعاد ، وفقًا للدراسة. تؤدي رؤية شيء يبدو تقريبًا بشريًا - ولكن ليس تمامًا - إلى إثارة شعور بالقلق العميق الذي يعرف باسم تأثير الوادي الخارق.

لقد أثبتت منظمة العفو الدولية سابقًا أن إنتاج ملفات عميقة مقنعة أمر ممكن ، لكنها تتطلب زوايا متعددة للموضوع المرغوب. للدراسة الجديدة ، قدم المهندسون الذكاء الاصطناعي إلى مجموعة بيانات كبيرة جدًا من مقاطع الفيديو المرجعية التي تظهر الوجوه البشرية أثناء العمل. أسس العلماء معالم الوجه التي يمكن تطبيقها على أي وجه ، لتعليم الشبكة العصبية كيف تتصرف الوجوه بشكل عام.

ثم قاموا بتدريب الذكاء الاصطناعي على استخدام التعبيرات المرجعية لرسم خريطة لحركة ميزات المصدر. وأفاد الباحثون أن هذا مكن الذكاء الاصطناعي من خلق محاكاة عميقة حتى عندما كان لديها صورة واحدة فقط للعمل من خلالها.

كما أن المزيد من صور المصدر قدمت نتيجة أكثر تفصيلاً في الرسوم المتحركة النهائية. كتب العلماء أن مقاطع الفيديو التي تم إنشاؤها من 32 صورة ، بدلاً من صورة واحدة ، حققت "الواقعية المثالية" في دراسة مستخدم.

Send