في خطوة جديدة تعكس طموحات أمازون في عالم الذكاء الاصطناعي، كشفت الشركة عن نموذج صوتي مبتكر يُدعى Nova Sonic. يتميز هذا النموذج بقدرته على معالجة الصوت بشكل مباشر، وإنتاج كلام طبيعي وسلس أشبه بالحديث البشري. كما أن النموذج يوحد تقنيات فهم الكلام وتوليد الصوت في نموذج واحد، مما يفتح آفاقًا جديدة لتطبيقات الذكاء الاصطناعي الصوتية الأكثر واقعية وطبيعية.
نقلة نوعية في نماذج الصوت بالذكاء الاصطناعي
منذ أكثر من عقد، كانت أمازون في طليعة الشركات التي تطور تقنيات الذكاء الاصطناعي الصوتي، بدءًا من مساعدها الشهير Alexa، وصولًا إلى خدمات AWS مثل Lex وPolly وConnect. ولكن مع إطلاق Nova Sonic، ترتقي الشركة بتجربة المستخدم إلى مستوى جديد كليًا من التفاعل البشري.
النموذج الجديد لا يركز فقط على “ما يُقال”، بل أيضًا على “كيف يُقال”. حيث يتعامل مع نبرة الصوت، الأسلوب، والإيقاع، مما يمنحه القدرة على محاكاة المحادثات البشرية بشكل غير مسبوق.
نموذج موحد: فهم وتوليد الصوت من مصدر واحد
على عكس النماذج التقليدية التي تعتمد على ثلاث مراحل (تحويل الكلام إلى نص، المعالجة النصية، ثم تحويل النص إلى كلام)، يعمل Nova Sonic كنموذج موحد، ما يُبسط عملية التطوير ويُحافظ على السياق الصوتي الكامل.
هذا يسمح للنموذج بإنتاج ردود صوتية تتكيف مع نبرة المتحدث، وتعكس الحالات العاطفية، وتتفاعل مع توقفات أو مقاطعات المستخدم بسلاسة.
أداء عالي ينافس عمالقة الذكاء الاصطناعي
وفقًا لتقارير رسمية من أمازون، يتفوق Nova Sonic في اختبارات الأداء على نماذج صوتية من شركات كبرى مثل OpenAI وجوجل. وتشمل هذه المقارنات سرعة الاستجابة، دقة التعرف على الكلام، وجودة المحادثة.
لم يعد المستخدمون بحاجة إلى تحمل الصوت الآلي الجاف كما كان الحال مع الإصدارات الأولى من مساعد Alexa أو Siri. Nova Sonic يمثل نقلة نوعية نحو تجربة صوتية طبيعية وأكثر تفاعلية.
متاح عبر Amazon Bedrock بواجهة API ثنائية الاتجاه
يتوفر Nova Sonic عبر منصة Amazon Bedrock، المخصصة لبناء تطبيقات الذكاء الاصطناعي للمؤسسات. من خلال واجهة API جديدة ثنائية الاتجاه، يمكن للمطورين دمج النموذج بسهولة في تطبيقاتهم.
وتقول أمازون إن Nova Sonic هو النموذج الصوتي الأكثر توفيرًا للتكاليف، حيث تقل تكلفته بنسبة تصل إلى 80% مقارنة بنموذج GPT-4o من OpenAI، مما يجعله خيارًا مثاليًا للشركات.
يدعم Alexa+ ويعمل بكفاءة في البيئات الواقعية
جزء من مكونات Nova Sonic أصبح بالفعل جزءًا من مساعد أمازون الصوتي المطور Alexa+، بحسب تصريحات روهيت براساد، نائب الرئيس الأول ورئيس العلماء في قسم الذكاء الاصطناعي العام (AGI) لدى أمازون.
يمتاز النموذج بقدرته على فهم السياق الصوتي بدقة عالية. فسواء تحدث المستخدم ببطء، أخطأ في النطق، أو كان في بيئة مليئة بالضجيج، يستطيع Nova Sonic إدراك نية المتحدث. ففي اختبار Multilingual LibriSpeech، حقق النموذج معدل خطأ في الكلمات بلغ 4.2% فقط عبر خمس لغات: الإنجليزية، الفرنسية، الإيطالية، الألمانية، والإسبانية.
استخدامات متعددة في مجالات واقعية
1. مساعد سفر ذكي
يمكن لنموذج Nova Sonic التفاعل مع استفسارات العملاء حول الرحلات، والتعرف على مشاعر القلق بشأن التكاليف، والرد بنبرة مطمئنة مع تقديم معلومات حقيقية ومحدثة عن الأسعار.
2. مساعد ذكي للأعمال
يعرض تقارير الأعمال من بيانات داخلية بصوت طبيعي، ويطرح أسئلة متابعة بشكل تلقائي دون الحاجة إلى إعادة صياغة الطلبات، مما يوفر تجربة حوارية سلسة وطبيعية.
مرونة في التعامل مع السياقات الطويلة واللهجات المختلفة
يدعم Nova Sonic ما يصل إلى 32 ألف رمز من سياق المحادثة الصوتية، مما يتيح له تتبع الحوارات الطويلة بدقة. إضافة إلى ذلك، يستخدم نموذج تمرير ديناميكي يسمح له بالحفاظ على تسلسل المحادثة بسلاسة. من ناحية أخرى، تستمر الجلسة الواحدة لمدة تصل إلى 8 دقائق، مما يمنح المستخدمين وقتًا كافيًا للتفاعل الطبيعي.
كما يتميز النموذج بقدرته على فهم لهجات متعددة، بما في ذلك الإنجليزية الأمريكية والبريطانية، مما يجعله مناسبًا لمجموعة واسعة من المستخدمين. علاوة على ذلك، يقدم أصواتًا معبرة بصيغ ذكورية وأنثوية تضيف طابعًا بشريًا إلى المحادثة. والأهم من ذلك، أن Nova Sonic يستطيع التفاعل مع المقاطعات دون فقدان سياق الحديث، مما يحافظ على سلاسة وواقعية التفاعل الصوتي.
خطوة نحو الذكاء الاصطناعي العام AGI
تشير أمازون إلى أن تطوير Nova Sonic يأتي ضمن استراتيجيتها لبناء نماذج ذكاء اصطناعي عامة (AGI)، قادرة على أداء مهام البشر على الحواسيب. كما تخطط الشركة لإطلاق نماذج قادمة تدعم الصوت، الصور، الفيديو، والبيانات الحسية الأخرى.
وقد أطلقت أمازون مؤخرًا نموذجًا آخر باسم Nova Act، يستخدم المتصفح لتقديم تجارب ذكية ضمن خدمات مثل Alexa+ وميزة اشتر من أجلى (Buy for Me).
يعتبر Amazon Nova Sonic خطوة متقدمة في مجال المساعدات الصوتية الذكية، بفضل الدمج الذكي بين الفهم الصوتي والتوليد اللحظي للكلام. ومع توفره الآن للمطورين عبر منصة Bedrock، سيكون لهذا النموذج تأثير كبير في مجالات مثل السياحة، التعليم، الرعاية الصحية، وخدمة العملاء.
إنه ببساطة المستقبل الجديد للتفاعل الصوتي بالذكاء الاصطناعي.




