گوگل دیپ‌مایند مدل DiffusionGemma را عرضه کرد؛ هوش مصنوعی محلی ۴ برابر سریع‌تر اجرا می‌شود.

اصل ماجرا

Google DeepMind مدل DiffusionGemma را معرفی کرد؛ این مدل زبانی ۲۶ میلیارد پارامتری به‌صورت Mixture of Experts تنها ۳.۸ میلیارد پارامتر را در زمان استنتاج فعال می‌کند و می‌تواند بلوک‌های متنی را به‌صورت موازی تولید کند. این روش باعث می‌شود سرعت تولید متن تا چهار برابر مدل‌های خودبازگشتی هم‌اندازه شود و برای کارهای غیرخطی مثل حل سودوکو یا ویرایش درون‌خطی مناسب باشد.

متن کامل ترجمه‌شده

یک روز دیگر، یک مدل AI دیگر از گوگل. این بار، گوگل DeepMind یک عضو جدید از خانواده مدل باز Gemma 4 منتشر کرده است، اما آن را به طور بنیادی متفاوت از بقیه مجموعه است. DiffusionGemma محصولات را به صورت خطی مانند بسیاری از مدل های AI تولید نمی کند. در عوض، آن را می تواند یک بلوک کامل از متن را به صورت پارامتر تولید کند. گوگل می گوید این باعث می شود سریع تر و موثرتر در زمانی که بر روی نرم افزار محلی مانند یک Nvidia DGX یا یک GPU بازی خشن است. اکثر مدل های AI طراحی شده اند تا خودروسگرافیکی باشند - آنها متن را به سمت راست یک تیکن در یک زمان تولید می کنند. DiffusionGemma با مدل های تولید تصویر، که با استاتیک شروع می شود و سپس آن را برای ایجاد محتوای مورد نظر غیرفعال می کند. این مدل یک زمینهDiffusionGemma در زمینه مدل های باز گوگل بسیار بزرگ است. این یک مدل Mixture of Experts (MoE) است که در مجموع 26 میلیارد پارامتر دارد، اما تنها 3.8 میلیارد در هنگام تأکید فعال می شود. این بدان معنی است که باید در بخش 18GB RAM یک GPU با کیفیت بالا قرار گیرد. در آزمایش با یک RTX 5090، DiffusionGemma حدود 700 تیکن در هر ثانیه می فرستد. با یک تیکن Nvidia H100 AI، DiffusionGemma می تواند 1,000+ تیکن در هر ثانیه تولید کند. این حدود چهار برابر تولید مدل های Gemma خودرویی با اندازه ی مشابه است. این رویکرد به تولید متن از پوند حافظه به کامپیوتر تغییر می دهد، تا 256 تیکن در کنار هم تولید می کند. گوگل می گوید این یک افزایش قابل اندازه گیری در وظایف غیر خطی مانند ترمیم در خطانیمیشن بالا نشان می دهد که DiffusionGemma چگونه برای حل پازل های Sudoku تنظیم شده است، که یک وظیفه ناشناخته ای برای مدل های استاندارد AI خودداری کننده است، زیرا هر تیکن به تیکن های آینده بستگی دارد.

چرا مهمه؟

سرعت و کارایی بالاتر در پردازش متن محلی می‌تواند هزینه‌های زیرساختی را کاهش داده و کاربردهای پیشرفته AI را در دستگاه‌های شخصی گسترش دهد.

به درد کی می‌خوره؟

developers, data_scientists, tech_leads, entrepreneurs, general

تو عمل چی کار کنیم؟

توسعه‌دهندگان می‌توانند برنامه‌های تعاملی و پردازش‌های زمان‌حساس را با سرعت چهار برابر نسبت به مدل‌های خودبازگشتی پیاده‌سازی کنند، بدون نیاز به سرورهای پرهزینه.

نظر Blue IT News

DiffusionGemma با تولید هم‌زمان بلوک‌های متنی، مسیر جدیدی برای مدل‌های زبانی باز می‌کند و نشان می‌دهد که رویکردهای غیرخطی می‌توانند کارایی را به‌ویژه در سخت‌افزارهای محلی به‌طور چشمگیری ارتقا دهند.

<div class=“disclosure”> این صفحه ترجمه و تفسیر کاملی از گزارش اصلی Ars Technica است که توسط تیم تحریریه بلو آی تی نیوز به فارسی ترجمه و تحلیل شده. برای مشاهده نسخه اصلی، به منبع مراجعه کنید. </div>