مقالات الأسهم

تعود أيقونات هوليوود الماضية في صفقات استنساخ الصوت بالذكاء الاصطناعي


يولد نجوم من العصر الذهبي لهوليوود من جديد من خلال صفقات استنساخ صوت الذكاء الاصطناعي لعقارات المشاهير، وهي علامة على كيفية معالجة بعض مخاوف “الغرب المتوحش” بشأن انتحال شخصية الذكاء الاصطناعي غير المصرح به من خلال نماذج الأعمال الجديدة.

قامت شركة ElevenLabs، وهي شركة ناشئة في مجال تكنولوجيا الصوت تمولها شركات رأس المال الاستثماري بما في ذلك Andreessen Horowitz وSequoia، بإبرام صفقات متعددة مع عقارات الممثلين الأسطوريين لأداة IconicVoices التي تتيح للمستخدمين قراءة الأصوات المولدة بالذكاء الاصطناعي لهم عبر تطبيق كتاب صوتي. ومن بين النجوم بيرت رينولدز وجودي جارلاند وجيمس دين والسير لورانس أوليفييه.

تقوم شركة ElevenLabs، التي تم إطلاقها في عام 2023، بإنشاء ملفات صوتية للكتب والمقالات الإخبارية وشخصيات ألعاب الفيديو والإنتاج المسبق للأفلام ووسائل التواصل الاجتماعي والإعلانات. تعمل الشركة بالفعل مع ناشرين بما في ذلك نيويورك تايمز وواشنطن بوست، وفي وقت سابق من هذا العام، تم اختيار الشركة من قبل ديزني للانضمام إلى برنامج التسريع الخاص بها.

وقال سام سكلار، عضو فريق النمو في ElevenLabs: “تحتاج إلى حوالي 30 دقيقة من الصوت عالي الجودة لإنشاء نسخة صوتية احترافية”، ويتم إنشاء الأصوات من كتالوج المشاهير. بمجرد إنشائه، يمكن استدعاؤه لقراءة النص (المقالات أو ملفات PDF أو ePubs أو النشرات الإخبارية أو أي محتوى نصي آخر). ومع ذلك، لا يمكن تصدير الصوت والمحتوى، حيث يتم الاستماع بالكامل إلى تطبيق القراءة

يمكن للمستخدم، على سبيل المثال، أن يكون لديه مقالات يرويها له جيمس دين داخل التطبيق، لكن لا يمكن للمستخدمين الوصول إلى الأصوات لأي محتوى غير موجود بالفعل في التطبيق.

يمكن أن تساعد هذه الأنواع من الصفقات في وضع الحدود لمستقبل يكون فيه المحتوى الصوتي الناتج عن الذكاء الاصطناعي أقل إثارة للجدل وأكثر من مجرد منطقة خاضعة للرقابة والتنظيم. يستخدم Google Play وApple Books الأصوات التي تم إنشاؤها بواسطة الذكاء الاصطناعي إلى حد ما بالفعل، على الرغم من وجود عقبات كبيرة أمام إعادة إنشاء وتيرة الصوت البشري والتنغيم والعاطفة.

ابتليت صناعة الذكاء الاصطناعي بالمخاوف بشأن استخدام أصوات المشاهير، حيث قامت شركة OpenAI بتغيير وجهتها في ماي بعد أن اتهمت الممثلة سكارليت جوهانسون الشركة بسرقة صوتها بعد أن رفضت عروض ترخيصها.

وقال سكلار: “نحن ندرك جيدًا المخاطر المرتبطة بالوسائط الاصطناعية ونأخذ الاستخدام الآمن لأدواتنا على محمل الجد”. تشمل الضمانات الإشراف النشط على المحتوى، والمساءلة القابلة للتنفيذ من خلال الحظر، وأحكام خاصة لحماية تأثير صوت الذكاء الاصطناعي على انتخابات عام 2024.

بين الجيل الحالي من الممثلين، لا يزال هناك قلق كبير يحيط باستخدام الذكاء الاصطناعي في توليد المحتوى الصوتي. أثار الممثلون الصوتيون لألعاب الفيديو مخاوف، وكان للإضراب السينمائي والتلفزيوني العام الماضي جذور كبيرة في المخاوف بشأن استخدام الذكاء الاصطناعي. يعد استخدام الأصوات المميزة التي تبيعها العقارات أحد مجالات السوق التي من المحتمل أن تتجنب هذه المزالق، مما يمثل مصدر دخل جديد من الذكاء الاصطناعي بدلاً من تدفق الدخل المفقود بسبب الذكاء الاصطناعي.

يعد استخدام أصوات المشاهير المتشابهة مشكلة تسبق الذكاء الاصطناعي، مثل حالة فريتو لاي عام 1988 التي استخدمت صوت توم ويتس المشابه في إعلاناتهم، وحالة ويتس الأخرى في عام 2007، بعد أن رفض ويتس نفسه منذ فترة طويلة الصفقات الإعلانية. يقدم الذكاء الاصطناعي طريقًا أسهل لإنشاء أصوات متشابهة، والدعاوى القضائية الأخيرة المرفوعة ضد شركة Lovo الناشئة للذكاء الاصطناعي بسبب الاستخدام غير المناسب وغير المعوض لممثلي الصوت في توليد أصوات الذكاء الاصطناعي هي تذكير بأن عالم توليد الصوت بالذكاء الاصطناعي من المرجح أن يظل معقدًا إلى حد ما. ، قضية قضائية. Â (نفى Lovo المزاعم الواردة في الدعوى وأشار أيضًا إلى نموذج تقاسم الإيرادات الذي يقدمه للممثلين للأصوات المستنسخة.)

وقال ستيف كوهين، الشريك في بولوك آند كوهين الذي يمثل الممثلين الصوتيين في دعوى قضائية غير ذات صلة تزعم استنساخ الأصوات دون إذن، إنه من الصعب تقييم الحماية في بعض الأماكن دون مراجعة اللغة المحددة لعقود IconicVoices.

تشير ElevenLabs إلى الطريقة التي تحصل بها أداة IconicVoices الخاصة بها على الأذونات وتنظم استخدام الأصوات.

وقال كوهين: “إن منح الإذن باستخدام صوت الشخص هو أحد الأساسيات”. “أعتقد أن العوامل الرئيسية هي الإذن والتعويض والسيطرة.”

وقال كوهين إن القوانين الجديدة الأكثر وضوحًا قد تكون أيضًا مثبطًا للأشخاص الذين يميلون إلى تخصيص صوتهم بشكل غير لائق، “ليس للأشرار المتشددين، ولكن للحالات المتطرفة”. لكنه أضاف نقلاً عن بيت ديفيس في كتابه “كل شيء عن إيف”، “اربطوا أحزمة الأمان، ستكون الرحلة مليئة بالمطبات”.

إن مدى واقعية الأصوات المستنسخة هي أيضًا قضية متطورة. ويقول العديد من الخبراء إنه نظرًا لأن الذكاء الاصطناعي لا “يعرف” ما يقوله، فإن جودة الأداء محدودة. وقال سكلار إن المستوى الأخير لجودة الكلام لدى ElevenLabs لا يمكن تمييزه عن الكلام البشري الحقيقي. وقال “إن أدوات تحويل النص إلى كلام من ElevenLabs يمكنها فهم سياق الكلمات”.

إن جودة الذكاء الاصطناعي لا تقل جودة عن النماذج التي تم تدريبه عليها، وتصبح مجموعات البيانات الصوتية للممثلين جزءًا من العملية.

قال نعمان دولات أباد، زميل ما بعد الدكتوراه في مختبر علوم الكمبيوتر والذكاء الاصطناعي في معهد ماساتشوستس للتكنولوجيا والذي لديه بحث مكثف في توليد الصوت بالذكاء الاصطناعي: “تستمد النماذج العصبية قدراتها من محاكاة وحفظ الفروق الدقيقة والأنماط الموجودة في بيانات التدريب الخاصة بها”. “إن جودة وتنوع بيانات التدريب تؤثر بشكل كبير على أداء النموذج.”

يمكن للإلقاء الصوتي لنجوم السينما أن يضيف إلى تقليد الذكاء الاصطناعي والتعلم من خلال توفير نوع من “مجموعات البيانات الصوتية عالية الجودة للتدريب وضبط النماذج الكبيرة” التي قال دولات أباد إنها ضرورية لهذه العملية. لكنه أعرب عن تحفظات بشأن ” “الصوت البشري” باعتباره الاختبار الصحيح للمجال الصوتي للذكاء الاصطناعي، لأن ذلك يمكن أن يعزز العلاقة العدائية بين الأصوات البشرية والأصوات الاصطناعية.

لا يزال الممثلون الصوتيون منقسمين بشأن التكنولوجيا، حيث يرفض البعض النظر في أي صفقات، لكن آخرين يقولون إن فرص استنساخ أصواتهم لإنتاج أسرع وأرخص لبعض أشكال الكتب الصوتية لا يمكن تجاهلها. وقالت ميشيل كوب، المدير التنفيذي لاتحاد ناشري الصوت، إن “تكنولوجيا الذكاء الاصطناعي يمكن أن تساعد في سير العمل. الذكاء الاصطناعي ليس أداة جديدة للمواهب الصوتية والمنتجين والناشرين، حيث يستخدمه الكثير منهم لتحسين مراقبة الجودة في مرحلة ما بعد الإنتاج”. سي ان بي سي العام الماضي.

أظهرت النماذج التوليدية الحديثة تطورات كبيرة مقارنة بالتكرارات السابقة، مما يزيد من صعوبة التمييز بين الأصوات المزيفة والأصوات الحقيقية عن طريق الأذن وحدها، وفقًا لدولات آباد. وأضاف أن الترخيص الصوتي باستخدام الذكاء الاصطناعي يمكن أن يخفف عبء العمل عن الممثلين الصوتيين، دون أن يحل محلهم، حيث إنهم “يتدخلون في العملية من خلال التركيز على تقديم تصحيح أو تحسين للجوانب التي لا توصف مثل التنغيم والدفء والتأكيد، والتي لا تزال تمثل تحديات”. Â

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى