تجعل Google برنامج ترميز الكلام منخفض معدل البت الخاص به من Lyra عامًا


المزيج شبه الآخر من جودة الصوت العالية ومعدل البت المنخفض متاح الآن للجميع.

جوجل ليرا

أصدرت Google شفرة المصدر التجريبية لبرنامج ترميز الصوت Lyra على GitHub ، مما يجعل معالجة الصوت ذات معدل البت المنخفض عالية الجودة متاحة لجميع المطورين. يعد برنامج الترميز أكثر فائدة في المواقف المقيدة والنطاق الترددي حيث يلزم حفظ أكبر قدر ممكن من البيانات.

ليرا: تقريبًا لا شيء أبدًا يبدو جيدًا

يعمل برنامج ترميز الصوت على مبدأ توفير الكلام الأكثر طبيعية بأقل معدل بيانات ممكن. ينجح في إنشاء مستويات مخيفة تقريبًا من إعادة إنتاج الصوت بمعدلات بت منخفضة تصل إلى 3 كيلوبت في الثانية. تستخدم Google ضغط Lyra في الوقت الفعلي بالفعل في تطبيق Duo الخاص بها، على الرغم من عدم إلقاء اللوم عليك لعدم إدراكك للاختلاف عن صوت النطاق الترددي العادي.

https://www.youtube.com/watch؟v=IO4_beqtWDY

لإثبات مدى جودة Lyra مقارنة ببرامج الترميز الأخرى ، تقدم Google أمثلة عبر ملف مشاركة مدونة مقارنة برنامج ترميز الضغط المدفوع بالتعلم الآلي ببدائل أخرى تبلغ 3 و 6 كيلوبت في الثانية.

إنه فرق ليلة واحدة في اليوم ، وسيكون منح المطورين حول العالم هذه الأدوات محركًا مهمًا في تحسين جودة الاتصال حيث يكون النطاق الترددي نادرًا. إنه أيضًا حافز ممتاز للمطورين الذين يتطلعون إلى إنشاء تطبيقات جديدة في الأسواق الناشئة ، وهو أمر من المؤكد أن Google ستغطيه في هذا العام مؤتمر Google I / O الافتراضي المجاني عبر الإنترنت.

تم تصميم الكود المصدري التجريبي حاليًا مع وضع أجهزة Arm 64 بت في الاعتبار ، على الرغم من أن الأمثلة ستعمل أيضًا على أنظمة Linux x86 64 بت. يتم توفير الكود المصدري موثقًا بالكامل ، على الرغم من أنه في مرحلة تجريبية ، وتوفر صفحة GitHub إرشادات التثبيت وكيفية إنشاء Lyra على Linux لأهداف Arm 64 بت.

للحصول على شفرة مصدر Lyra beta ، توجه إلى ملف صفحة Lyra GitHub.

كيف يعمل ليرا؟

في حين أن العملية الفعلية التي تستخدمها Lyra هي مزيج معقد بشكل لا يصدق من نماذج التعلم الآلي المدربة على آلاف الساعات من بيانات الكلام وتحسينات تقنية ترميز الصوت الحالية ، فإن النظرية بسيطة للغاية.

كل 40 مللي ثانية ، يتم أخذ الميزات من الكلام وضغطها حتى 3 كيلو بت في الثانية. تمثل هذه الميزات نقاط طاقة الكلام عبر الطيف الترددي الأقرب إلى استجابة الكلام السمعي البشري – الأشياء التي نحتاج إلى التعرف عليها وفهمها عندما يتحدث شخص ما.

الجزء الرئيسي مما يجعل Lyra مميزًا هو كيفية استخدام هذه المعلومات:

ومع ذلك ، فإن برامج الترميز المعيارية التقليدية ، والتي تستخرج ببساطة من المعلمات الحرجة للكلام والتي يمكن استخدامها بعد ذلك لإعادة إنشاء الإشارة عند الطرف المستقبل ، تحقق معدلات بت منخفضة ، ولكنها غالبًا ما تبدو آلية وغير طبيعية. أدت أوجه القصور هذه إلى تطوير جيل جديد من النماذج المولدة للصوت عالية الجودة التي أحدثت ثورة في المجال من خلال القدرة ليس فقط على التمييز بين الإشارات ، ولكن أيضًا توليد إشارات جديدة تمامًا.

بعد الإرسال ، تعيد Lyra بناء الشكل الموجي عن طريق ملء ما هو مفقود باستخدام هذه العملية ، بينما بطريقة ما لا تكون معقدة للغاية من الناحية الحسابية.

من ناحية أخرى ، إنها أعجوبة تكنولوجية ستعمل في أي مكان تقريبًا. ومن ناحية أخرى ، ما زلت غير مقتنع بنسبة 100٪ أنه ليس سحرًا.

شخص يجري مكالمة فيديو
10 ميزات Google Duo يجب أن تستخدمها حقًا

يعد Google Duo أحد أفضل تطبيقات مكالمات الفيديو المتوفرة. يحتوي على الكثير من الميزات ، وإليك الميزات التي نعتقد أنه يجب عليك استخدامها حقًا.

اقرأ التالي


عن المؤلف

تم النشر في
مصنف كـ Uncategorized

اترك تعليقًا

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *