«استدلال تشبیهی نوظهور در Transformers»

اصل ماجرا

تحقیقی جدید نشان داد که در استدلال تشبیهی، مدل‌های بزرگتر گاهی عملکردشان کاهش می‌یابد. نتایج روی مدل‌های کوچک تا بزرگ گوگل Gemma و Meta Llama تأیید شد و دلیلش «همسویی هندسی» در فضای تعبیه است نه تعداد پارامترها. این یافته نشان می‌دهد عصر رشد صرف با مقیاس‌پذیری به پایان رسیده.

متن کامل ترجمه‌شده

این ویدئو به طور کلی در مورد بحران های هسته ای که در حال حاضر در صنعت AI قرار دارد، بحث می کند: «قانون گسترش (Scaling Law) ممکن است در سه سال گذشته، تمام صنعت AI (OpenAI، گوگل، Anthropic، xAI و غیره) در یک باور هسته ای ساخته شده اند - مدل را بزرگ کنید، پارامترهای بیشتری را اضافه کنید، داده های بیشتری بخورید، انرژی بیشتری را وارد کنید، مدل به طور خودکار باهوش تر خواهد شد 00:00. این هم یک توافق گذشته است: در سه سال گذشته، تمام صنعت AI (OpenAI، Google، Anthropic، xAI و غیره) در یک باور هسته ای ساخته شده اند - مدل را بزرگ کنید، پارامترهای بیشتری را اضافه کنید، داده های بیشتری را تغذیه کنید، مدل به طور کامل باهوش تر خواهد شد 00:44 شروع می شود. بهترین مطالعه نشان میدر این مقاله اشاره شده است که آیا یک مدل باید در فضای داخلی خود (به عنوان مثال در فضای متحرک) توانایی تفکیک را داشته باشد، نه اندازه (به اندازه) آن است، بلکه اینکه آیا در دوره آموزش، یک ساختار داخلی خاص تشکیل می شود، که به عنوان “تعداد جغرافیایی” نامیده می شود (به عنوان مثال در سطح جغرافیایی) 05:21 است. - این بدان معنی است که یک مدل باید در فضای داخلی خود (به عنوان مثال در فضای متحرک) توانایی تفکیک داشته باشد، نه اندازه (به اندازه) آن است. - عدم اطمینان: آیا این ساختار نمی تواند از طریق صرف افزایش قدرت و پول ایجاد شود، به عنوان “تعداد جغرافیایی” (به عنوان مثال در سطح جغرافیایی) تضمین می شود، این بستگی به کیفیت داده ها، تعداد روابط در آموزش آغاز می شود و تنظیمات بهینه سازی

چرا مهمه؟

افزایش سایز مدل دیگر تضمین هوشمندتر شدن نمی‌کند؛ فقط حجم داده و تنظیمات خاص می‌تواند همسویی هندسی را ایجاد کند. پژوهشگران، مهندسان مدل و سرمایه‌گذاران تحت تأثیر این تغییر قرار می‌گیرند؛ چون استراتژی سرمایه‌گذاری و مسیر تحقیقاتی باید از «بزرگ‌کردن صرف» به «بهبود ساختار داخلی» تغییر یابد. خواننده باید این تحول را درک کند تا از تلفات مالی ناشی از ادامهٔ سرمایه‌گذاری بی‌هدف در مقیاس‌پذیری جلوگیری کند.

به درد کی می‌خوره؟

• پژوهشگران هوش مصنوعی • مهندسان مدل‌های زبانی • مدیران فنی شرکت‌های فناوری • سرمایه‌گذاران و تحلیل‌گران بازار فناوری

تو عمل چی کار کنیم؟

با دانستن این نکته، می‌توان به جای صرف هزینه برای بزرگ‌کردن مدل، روی بهبود کیفیت داده، تنظیمات بهینه‌سازی و طراحی معماری متمرکز شد. تیم‌ها می‌توانند آزمایش‌های همسویی هندسی را در مراحل اولیه اجرا کنند و از سقوط عملکرد در مقیاس‌های بزرگ جلوگیری نمایند.

نظر Blue IT News

سرمایه‌گذاری هوشمند در AI دیگر به صرف قدرت محاسبه نیست؛ تمرکز بر ساختارهای داخلی و داده‌های هدفمند، کلید پیشرفت پایدار خواهد شد.

<div class=“disclosure”> این صفحه ترجمه و تفسیر کاملی از گزارش اصلی Dev است که توسط تیم تحریریه بلو آی تی نیوز به فارسی ترجمه و تحلیل شده. برای مشاهده نسخه اصلی، به منبع مراجعه کنید. </div>