يستمر الذكاء الاصطناعي في التقدم بسرعة فائقة ولا يمكن إيقافه. إذا كنا قد قمنا بتحميل أشياء حول البرامج التي تولد الفيديو فقط عن طريق وضع علامات على النصوص، فقد قامت Meta الآن بتفجير كل شيء باستخدام Audiobox، وهو برنامج لاستنساخ وإنشاء أصوات موثوقة من الصفر من خلال الذكاء الاصطناعي.
إذا كنت تريد معرفة المزيد عن Audiobox وكيفية إنشاء أصوات الذكاء الاصطناعي والمخاطر التي يمكن أن تنطوي عليها هذه التقنية، فننصحك بمواصلة قراءة هذا المقال.
ما هو أوديو بوكس؟
صندوق الصوت هي خدمة التعريف لتكون قادرة توليد الأصوات بشكل عام، تقليد الآخرين الموجودين بالفعل. وهذا يعني أنه "استنساخ" صوتي للذكاء الاصطناعي ويمكن الاعتماد عليه أيضًا.
ليست المرة الأولى التي تتغزل فيها الشركة بهذه الفكرة، فمنذ فترة أطلقت Voicebox، لكن الصحيح أنها لم تكن متقدمة أو كاملة مثل هذا الحل الآخر.
باستخدام Audiobox، يعلق Meta على ذلك يمكنك تسجيل الأصوات من الصفر واستنساخها في بضع ثوانولكن للقيام بذلك، يجب على المستخدم تسجيل نفسه وهو يقرأ نصًا محددًا.
يتم ذلك لأنه نص تمت دراسته أكثر من اللازم ويسمح لنا بالحصول على فروق دقيقة في الصوت، بالإضافة إلى كونه وسيلة لتجنب سرقة الهوية وقدوم أي طفل من الجيران واستنساخ صوتك بشكل أساسي.
اليوم، Audiobox قادر على تحقيق المعالم التالية:
- توليد soundscapes من النص: على سبيل المثال. "إعادة إنشاء طريق توسكان مع السيارات القديمة والطيور في الخلفية"
- إنشاء صوتيات مع tأونو والإيقاع الملموس: "إصدار صوت طفل بنبرة عالية ونبرة أنفية"
- ربط صوت مع أ خاصية البيئة: "تظاهر بأن هذا الطفل داخل كهف وله صدى"
كيف يتم استنساخ الأصوات من خلال الذكاء الاصطناعي؟
إن عملية استنساخ الصوت باستخدام الذكاء الاصطناعي ليست بعيدة عن أي طريقة ذكاء اصطناعي موجودة في السوق اليوم، تعتمد على بنية Transformer التي تحدثنا عنها في هذه المقالة الأخرى.
ما تفعله بنية المحول هو السماح بتحليل النموذج للتركيز على أجزاء معينة من المدخلات عند تنفيذ المهام. يتم حساب الانتباه من خلال الأوزان المخصصة لأجزاء مختلفة من المدخلات، ويتم تعلم هذه الأوزان أثناء التدريب.
دعونا نتخيل خط تجميع، حيث يقوم أحد المشغلين بجمع الصوت، ويقوم الآخر بمعالجته، ويقوم آخر بتحليله، وهكذا حتى يتم إجراء استنساخ دقيق. حسنًا، هذه هي الطريقة التي ستعمل بها بنية المحولات عند تطبيقها على توليد الكلام باستخدام الذكاء الاصطناعي. وإذا ركزنا على الخطوات ستكون كالتالي:
جمع البيانات
انهم بحاجة تسجيلات صوتية واسعة النطاق للشخص الذي سيتم استنساخ صوته. كلما كانت مجموعة البيانات أكبر وأكثر تنوعًا، كان النموذج الناتج أفضل.
المعالجة المسبقة لها
التسجيلات الصوتية تتم معالجتها لاستخراج الميزات ذات الصلةمثل النغمة والتنغيم والسرعة وغيرها من الخصائص التي تحدد الصوت.
نماذج التعلم العميق:
يتم استخدام نماذج التعلم العميق، مثل الشبكات العصبية المتكررة (RNN)، لتعلم الأنماط المعقدة في البيانات الصوتية. يمكن تدريب هذه النماذج لالتقاط تنوع الصوت ودقته.
التدريب النموذجي
يتم تدريب النموذج باستخدام مجموعة البيانات المجمعة. أثناء التدريب، يقوم النموذج بتعديل أوزانه ومعاييره وفقًا لما هو مطلوب تقليل الفرق بين الصوت الناتج والصوت الحقيقي للمتحدث المستهدف.
توليد الصوت
بمجرد تدريبه، يمكن للنموذج توليد صوت اصطناعي يقلد الصوت الأصليل. يمكنك تقديم نص كمدخل، وسيقوم النموذج بإنشاء الكلام المقابل.
كيف يمكننا استخدام Audiobox في إسبانيا؟
لاستخدام هذه الخدمة الجديدة في إسبانيا، سيتعين علينا ببساطة القيام بذلك الدخول إلى موقع Audioboxقم بالتسجيل ويمكننا الآن استخدامه من الكمبيوتر. وبطبيعة الحال، سيكون لدينا بعض التحفظات التي يجب أن نعرفها:
- حاليا يعمل فقط مع الصوت باللغة الإنجليزية، لأنه بيتا
- ومن المرجح أن والنتيجة النهائية هي شيء آليوهو أمر طبيعي لأنه لم يتم صقله بالكامل بعد.
هل هناك مخاطر في استخدام برامج مثل Audiobox؟
يمثل استنساخ الصوت باستخدام الذكاء الاصطناعي العديد من المخاطر والتحديات الأخلاقية، وقبل كل شيء يرتبط بحالة الإنسان، حيث لن يتمكن الجميع من الاستفادة بشكل جيد من هذا النوع من التكنولوجيا، وهو أمر خطير إذا وقع في الأيدي الخطأ. وتحديداً فإن المخاطر الكبيرة التي نراها عند استخدام برنامج من هذا النوع هي ما يلي:
الاحتيال وسرقة الهوية
يمكن استخدام القدرة على استنساخ الأصوات للتنفيذ الاحتيال وسرقة الهوية في المكالمات الهاتفية أو الرسائل الصوتية أو التسجيلات الصوتية.
وقد يكون لهذا عواقب وخيمة من حيث الأمن والثقة، خاصة في الوقت الذي أصبحت فيه الإجراءات عن بعد أو شراء المنتجات عبر الهاتف أكثر شعبية.
التضليل والتلاعب
يمكن استخدام تقنية استنساخ الصوت لإنشاء تسجيلات صوتية مزيفة من أجل ذلك نشر معلومات مضللة أو التلاعب بالرأي العام. وهذا يثير مخاوف في سياق المعلومات الخاطئة والتلاعب بالواقع.
يمكن أن يؤثر ذلك على الأفراد أو الشركات أو حتى الشخصيات العامة، الذين يمكن أن يروا أصواتهم تُستخدم لإنشاء محتوى كاذب ومثير للاهتمام، مثل تسجيل صوتي لرئيس يعترف برشاوى عندما لم يفعل ذلك مطلقًا في الحياة الواقعية، على سبيل المثال، مع ما يترتب على ذلك من تداعيات قانونية وقانونية. وسائل الإعلام التي من شأنها أن تنطوي على ذلك.
التصيد والهندسة الاجتماعية
يمكن استنساخ الصوت المستخدمة في هجمات التصيد والهندسة الاجتماعية، حيث يحاول المهاجمون خداع الأشخاص للاعتقاد بأنهم يتفاعلون مع شخص يثقون به، وذلك لمحاولة الحصول على بياناتهم لأشياء غير قانونية.
لنتخيل أن الهاكرز يطلبون من شخص تحويل سريع أو بيزوم بصوت طفل لأنهم بحاجة إلى إيداع سريع، أو يطلبون لحظة كلمة مرور البنك "لرؤية شيء عن الحساب" مثلا.
المسائل القانونية والمسؤولية
يمكن أن يؤدي سوء استخدام استنساخ الصوت إلى مشكلات قانونية وتحديات تتعلق بالمسؤولية، مثل قد يصبح تحديد صحة التسجيلات الصوتية أكثر تعقيدًا. وعلى الرغم من أنه كانت هناك حاجة في السابق إلى خبراء وخبراء لمعرفة مدى صحة هذه الأصوات، إلا أنه يجب الآن أخذ عامل الأصوات المستنسخة في الاعتبار عند إجراء التجارب.
من جانبنا، علينا فقط أن ننتظر لنرى كيف يتطور هذا الأمر وما إذا كانت Meta ستتعامل مع المشكلة الأمنية. في الوقت الحالي أعلنوا أن المشروع سيكون مغلق المصدر، لذلك ننصح ببعض الحذر عندما يتعلق الأمر باستخدام صوتنا لهذا، حيث أننا لسنا واضحين بالضبط ما هو الاستخدام الذي ستقدمه الشركة للبيانات المجمعة. .