كشفت جوجل عن خطوة جديدة تعزز مكانتها في مجال الذكاء الاصطناعي الصوتي، حيث أعلنت عن إطلاق نموذج الصوت الأصلي (Native Audio Model) ضمن واجهة Gemini Live API بنسخته التجريبية. يمثل هذا التحديث نقلة نوعية في عالم المحادثات التفاعلية، إذ يَعِد بجعل التجربة الصوتية أكثر طبيعية وواقعية، مع تقليل الأخطاء وتحسين دقة استجابة الوكلاء الصوتيين في الزمن الحقيقي.
إضافة ميزات أساسية آخرى
كشفت الشركة أن التحديث يتضمن ميزتين محوريتين:
- تحسين وظائف الاتصال (Function Calling) لزيادة الدقة في ربط المحادثات بالخدمات الخارجية.
- تعزيز انسيابية المحادثات الصوتية لتصبح أكثر قرباً من التفاعل البشري.
تحسين وظائف الاتصال
تسمح ميزة Function Calling للنظام بالاتصال ببيانات وخدمات خارجية، مثل حجز المواعيد أو جلب معلومات مباشرة.
التحديث الجديد يضاعف من دقة هذه العمليات، مما يقلل من الأخطاء في السيناريوهات المعقدة متعددة الوظائف، وهو أمر حاسم لضمان موثوقية التفاعلات الصوتية.
محادثات أكثر طبيعية
أضافت جوجل تحسينات تسمح للنموذج بالتعامل مع المقاطعات والتوقفات بشكل أفضل، حيث يمكن للواجهة التوقف مؤقتاً عند وجود ضوضاء أو أسئلة جانبية، ثم استئناف المحادثة بمجرد أن يكون المستخدم جاهزاً، مما يقلل من الطابع الآلي ويجعل التجربة أكثر إنسانية.
دعم لغات وأصوات متعددة
النموذج الصوتي الجديد يدعم أكثر من 24 لغة ويتيح اختيار أصوات مختلفة، بما يصل إلى 30 صوتاً. كما يقدم إمكانيات متقدمة للتعرف على المتحدثين المتعددين، مما يفتح المجال لاستخدامه في المحادثات الجماعية والتطبيقات العالمية.
تقليل من الانقطاعات غير الصحيحة
أكدت جوجل أن النموذج يقلل من المقاطعات غير المقصودة عندما يتوقف المستخدم للتفكير أو يلتزم الصمت. كما بات قادراً على التمييز بين التوقفات الطبيعية والمقاطعات المقصودة والاستجابة لها بذكاء.
إضافة ميزة التفكير للاستفسارات المعقدة
تخطط جوجل لإطلاق ميزة Thinking Mode التي تمنح النظام وقتاً إضافياً لمعالجة الاستفسارات المعقدة متعددة المراحل. كما ستجعل هذه الميزة النموذج قادراً على تقديم إجابات أكثر دقة وعمقاً، خصوصاً في الأسئلة التقنية أو البحثية.
استخدامات عملية متنوعة
يمهد هذا التحديث الطريق أمام استخدامات متعددة تشمل:
- المساعدات المنزلية الذكية وخدمة العملاء عبر المحادثة الصوتية.
- مراقبة العمليات الصناعية والبث الصوتي المباشر.
- إنشاء محتوى صوتي مثل البودكاست أو تحويل النصوص إلى أصوات طبيعية عالية الجودة.
الأمان والشفافية
أشارت الشركة إلى أن جميع المخرجات الصوتية من Gemini تحمل علامة مائية اصطناعية (SynthID)، تضمن الشفافية وتساعد على تتبع المحتوى المولَّد صوتياً. هذه الخطوة تأتي في إطار التزام جوجل بمعايير المسؤولية والحوكمة في تطوير تقنيات الذكاء الاصطناعي.
الأسئلة الشائعة (FAQ)
1. ما هو نموذج الصوت الأصلي في Gemini Live API من جوجل؟
نموذج الصوت الأصلي هو تحديث جديد أطلقته جوجل ضمن Gemini Live API يتيح للمستخدمين التفاعل الصوتي بشكل طبيعي وسلس، مع دعم لغات متعددة وتقليل الأخطاء في المحادثات الفورية.
2. كيف يحسن نموذج الصوت الأصلي دقة المحادثات الصوتية؟
يعمل التحديث على مضاعفة دقة Function Calling، مما يسمح بالاتصال بالخدمات الخارجية مثل حجز المواعيد أو جلب المعلومات بشكل أسرع وأكثر موثوقية.
3. ما هي اللغات التي يدعمها نموذج الصوت الأصلي من جوجل؟
النموذج يدعم أكثر من 24 لغة ويتيح للمستخدمين اختيار ما يزيد عن 30 صوتاً مختلفاً، مما يجعله مناسباً للتطبيقات العالمية والمحادثات متعددة الثقافات.
4. هل يمكن استخدام Gemini Live API في البيئات المليئة بالضوضاء؟
نعم، يدعم النموذج ميزة Proactive Audio التي تقلل من تأثير الضوضاء والمحادثات الجانبية، مما يضمن استمرارية التفاعل الصوتي بدقة حتى في البيئات المزدحمة.
5. ما هي ميزة “Thinking Mode” التي تخطط جوجل لإطلاقها؟
ميزة التفكير Thinking Mode تمنح النموذج وقتاً إضافياً لمعالجة الاستفسارات المعقدة متعددة المراحل، ما يساعد على تقديم إجابات أكثر دقة وعمقاً مقارنة بالمحادثات التقليدية.
يُعد إطلاق نموذج الصوت الأصلي في Gemini Live API خطوة استراتيجية من جوجل لتطوير مستقبل المحادثات الصوتية.
هذا التحديث يفتح الباب أمام تجارب أكثر طبيعية، ويعزز من موثوقية التطبيقات الذكية التي تعتمد على الذكاء الاصطناعي في التواصل الفوري.




