اصل ماجرا
Google DeepMind مدل DiffusionGemma را معرفی کرد؛ این مدل زبانی ۲۶ میلیارد پارامتری بهصورت Mixture of Experts تنها ۳.۸ میلیارد پارامتر را در زمان استنتاج فعال میکند و میتواند بلوکهای متنی را بهصورت موازی تولید کند. این روش باعث میشود سرعت تولید متن تا چهار برابر مدلهای خودبازگشتی هماندازه شود و برای کارهای غیرخطی مثل حل سودوکو یا ویرایش درونخطی مناسب باشد.
متن کامل ترجمهشده
یک روز دیگر، یک مدل AI دیگر از گوگل. این بار، گوگل DeepMind یک عضو جدید از خانواده مدل باز Gemma 4 منتشر کرده است، اما آن را به طور بنیادی متفاوت از بقیه مجموعه است. DiffusionGemma محصولات را به صورت خطی مانند بسیاری از مدل های AI تولید نمی کند. در عوض، آن را می تواند یک بلوک کامل از متن را به صورت پارامتر تولید کند. گوگل می گوید این باعث می شود سریع تر و موثرتر در زمانی که بر روی نرم افزار محلی مانند یک Nvidia DGX یا یک GPU بازی خشن است. اکثر مدل های AI طراحی شده اند تا خودروسگرافیکی باشند - آنها متن را به سمت راست یک تیکن در یک زمان تولید می کنند. DiffusionGemma با مدل های تولید تصویر، که با استاتیک شروع می شود و سپس آن را برای ایجاد محتوای مورد نظر غیرفعال می کند. این مدل یک زمینهDiffusionGemma در زمینه مدل های باز گوگل بسیار بزرگ است. این یک مدل Mixture of Experts (MoE) است که در مجموع 26 میلیارد پارامتر دارد، اما تنها 3.8 میلیارد در هنگام تأکید فعال می شود. این بدان معنی است که باید در بخش 18GB RAM یک GPU با کیفیت بالا قرار گیرد. در آزمایش با یک RTX 5090، DiffusionGemma حدود 700 تیکن در هر ثانیه می فرستد. با یک تیکن Nvidia H100 AI، DiffusionGemma می تواند 1,000+ تیکن در هر ثانیه تولید کند. این حدود چهار برابر تولید مدل های Gemma خودرویی با اندازه ی مشابه است. این رویکرد به تولید متن از پوند حافظه به کامپیوتر تغییر می دهد، تا 256 تیکن در کنار هم تولید می کند. گوگل می گوید این یک افزایش قابل اندازه گیری در وظایف غیر خطی مانند ترمیم در خطانیمیشن بالا نشان می دهد که DiffusionGemma چگونه برای حل پازل های Sudoku تنظیم شده است، که یک وظیفه ناشناخته ای برای مدل های استاندارد AI خودداری کننده است، زیرا هر تیکن به تیکن های آینده بستگی دارد.
چرا مهمه؟
سرعت و کارایی بالاتر در پردازش متن محلی میتواند هزینههای زیرساختی را کاهش داده و کاربردهای پیشرفته AI را در دستگاههای شخصی گسترش دهد.
به درد کی میخوره؟
developers, data_scientists, tech_leads, entrepreneurs, general
تو عمل چی کار کنیم؟
توسعهدهندگان میتوانند برنامههای تعاملی و پردازشهای زمانحساس را با سرعت چهار برابر نسبت به مدلهای خودبازگشتی پیادهسازی کنند، بدون نیاز به سرورهای پرهزینه.
نظر Blue IT News
DiffusionGemma با تولید همزمان بلوکهای متنی، مسیر جدیدی برای مدلهای زبانی باز میکند و نشان میدهد که رویکردهای غیرخطی میتوانند کارایی را بهویژه در سختافزارهای محلی بهطور چشمگیری ارتقا دهند.
<div class=“disclosure”> این صفحه ترجمه و تفسیر کاملی از گزارش اصلی Ars Technica است که توسط تیم تحریریه بلو آی تی نیوز به فارسی ترجمه و تحلیل شده. برای مشاهده نسخه اصلی، به منبع مراجعه کنید. </div>