مشروع مايكروسوفت الجديد VibeVoice يكتب بودكاست مدته 90 دقيقة بصوت بشري من مجرد نص

مشروع مايكروسوفت الجديد "VibeVoice" – ثورة في تحويل النص إلى صوت بشړي طويل المدى

في خطوة تُعد نقلة نوعية في عالم الذكاء الاصطناعي، كشفت شركة مايكروسوفت عن إطلاق مشروعها المفتوح المصدر الجديد VibeVoice، وهو نظام متطور لتحويل النصوص المكتوبة إلى كلام بشړي قادر على إنتاج مقاطع صوتية طويلة تصل مدتها إلى 90 دقيقة، مع إمكانية إشراك أربعة متحدثين مختلفين في الجلسة الواحدة. هذه القفزة التقنية تفتح الباب أمام استخدامات متعددة، تبدأ من البودكاست والكتب الصوتية، ولا تنتهي عند التعليم، الألعاب التفاعلية، أو حتى الغناء الاصطناعي.

فهم المشروع: ما الذي يميز VibeVoice؟

لطالما كانت تقنيات Text-to-Speech (TTS) محدودة بعدة جوانب، أهمها قصر مدة التوليد الصوتي وصعوبة تحقيق التناغم بين أكثر من متحدث. غير أنّ VibeVoice يأتي ليكسر هذه الحواجز، إذ جرى تصميمه خصيصًا لإنتاج تسجيلات طويلة ومتعددة الشخصيات مع الحفاظ على طبيعية الصوت وانسيابه.

الابتكار التقني وراء VibeVoice

1. معمارية جديدة لمعالجة الصوت

يعتمد VibeVoice على مزيج من النماذج اللغوية الكبيرة (LLMs) إلى جانب مُرمّز صوتي منخفض التردد يعمل بسرعة 7.5 هرتز. هذه التقنية تمنحه القدرة على التعامل مع سلاسل نصية طويلة دون أن يفقد جودة الصوت أو يتأثر التناسق الزمني بين الكلمات.

2. دعم مقاطع مطوّلة

على عكس أنظمة TTS التقليدية التي تعجز غالبًا عن إنتاج تسجيل يتجاوز بضع دقائق، يمكن لـ VibeVoice أن يحافظ على الأداء والوضوح عبر تسجيل يصل إلى ساعة ونصف. هذا الأمر يُعتبر بالغ الأهمية لمجالات مثل البودكاست أو الكتب الصوتية.

3. تعدد المتحدثين

واحدة من أبرز سمات المشروع هي دعمه لأربعة أصوات مختلفة ضمن جلسة واحدة. وبهذا يمكن للنظام توليد حوار طبيعي بين عدة شخصيات، ما يقربه أكثر من الأداء البشري الواقعي.

4. اللغات المدعومة والتجريب العابر للغات

تم تدريب النموذج أساسًا على الإنجليزية والصينية، لكن الاختبارات أظهرت أنه قادر على توليد أصوات بلغات أخرى عبر تقنيات التحويل، كما يمكنه توليد أداء غنائي وهو مجال لا يزال نادرًا في النماذج المفتوحة المصدر.

الفرص والتطبيقات العملية

1. إنتاج البودكاست

بدلاً من الحاجة إلى فريق من المذيعين أو الممثلين الصوتيين، يمكن باستخدام VibeVoice كتابة نص كامل لحلقة بودكاست، وترك النظام يتولى تحويله إلى محتوى صوتي احترافي بتوزيع الأدوار بين عدة أصوات.

2. الكتب الصوتية

صناعة الكتب الصوتية تشهد نموًا كبيرًا عالميًا، لكن تكلفتها لا تزال مرتفعة بسبب حاجة الناشرين إلى مؤدين محترفين. VibeVoice يمكن أن يخفض هذه التكلفة بشكل جذري ويتيح للكتّاب المستقلين إنتاج نسخ صوتية من مؤلفاتهم بجودة عالية.

3. التعليم عن بعد

في بيئة التعليم الإلكتروني، يمكن للنظام توليد محاضرات صوتية متعددة الأصوات، مما يعطي طابعًا حيويًا للمادة العلمية ويعزز التفاعل مع المتعلمين.

4. الألعاب والتطبيقات الترفيهية

تطوير ألعاب الفيديو أو العوالم الافتراضية يتطلب تسجيل ساعات طويلة من الحوارات. بفضل هذا النظام، يمكن للشركات الناشئة توفير ميزانية ضخمة كانت تُصرف على تسجيل الأصوات البشرية.

5. إنتاج موسيقي وغنائي

الخاصية الغنائية التي كشف عنها النظام قد تفتح مجالًا جديدًا في صناعة الموسيقى الرقمية، من خلال إمكانية توليد مقاطع غنائية تجريبية أو مساعدة الفنانين في صياغة أفكار صوتية أولية.

الخاتمة: خطوة نحو عصر جديد من التفاعل الصوتي

لا شك أن VibeVoice يمثل نقلة نوعية في ميدان تحويل النص إلى كلام. بفضل قدرته على توليد تسجيلات طويلة ومتعددة المتحدثين بجودة طبيعية، يفتح المشروع أمامنا آفاقًا جديدة تمتد من التعليم إلى الترفيه والمحتوى الإعلامي.