بهینه‌سازی هزینه توکن: هزینه استنتاج LLM را بدون کاهش کیفیت کاهش دهید

اصل ماجرا

هزینه پردازش مدل‌های زبانی می‌تونه با حذف الگوهای زائد کاهش پیدا کنه، بدون اینکه کیفیت خروجی کم بشه. راهکارها شامل کش کردن پرامپت ثابت، بازیابی هوشمند محتوا، محدود کردن طول پاسخ، استفاده از مدل‌های مناسب برای هر کار و کاهش هزینه لاگ‌هاست. اجرای این موارد می‌تونه تا ۵۰٪ صرفه‌جویی در هزینه ایجاد کنه.

متن کامل ترجمه‌شده

یک نسخه از بهبود هزینه تیکن وجود دارد که من توصیه نمی کنم: کاهش مقدار تیکن با کاهش کیفیت دستورالعمل سیستم شما، زمینه های دریافت شده یا فرمت پاسخ شما وجود دارد. این رویکرد هزینه را کاهش می دهد و کیفیت را به طور مساوی کاهش می دهد. شما هیچ چیز را بهینه سازی نکرده اید. شما فقط نتایج بدتر را با قیمت پایین تر پذیرفتید. بهبود هزینه تیکن که ارزش انجام دادن را کاهش می دهد، هزینه را با حذف مدل های ضعیف در حالی که حفظ یا بهبود کیفیت آنچه که مدل در واقع دریافت می کند و تولید می کند. این یک مشکل مهندسی است، نه یک توازن کیفیت. و به طور معمول زباله های قابل توجهی وجود دارد تا قبل از اینکه شما نیاز به انجام هر گونه توازن کیفیت در کل.منبع 1: متغیر متغیر در هر درخواست برای یک سیستم RAG که یک سازمان را خدمت می کند، برخی از متغیرها در سراسر هر درخواست دائمی است: متغیر سیستم که نقش و رفتار عامل را تعریف می کند، حقایق سازمانی که همیشه قابل توجه است، دستورالعمل های شکل گیری. هنگامی که این متغیر بزرگ است و همیشه شامل می شود، آن را بخشی قابل توجهی از هزینه token هر درخواست می شود. متغیر متغیر راه حل است. هر دو Anthropic و OpenAI ارائه متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیرتوصیه های سیستم هایی که با محتوای خاص کاربر یا جلسه خاصی که پیش از آنکه محتوای ثابت به طور موثر ذخیره شود، به طور متحرک ترکیب می شوند. توصیه های بازسازی نشان می دهد که محتوای ثابت در ابتدا و محتوای متحرک در پایان قرار گیرد. برای توزیع های خودپرداز شده با استفاده از vLLM یا زیرساخت های سرویس مشابه، ذخیره سازی پیشگام همان مزایایایی را بدون ذخیره سازی در سطح API فراهم می کند. اصول کلیدی مشابه است: توصیه های ساختاری برای حداکثر کردن طول پیشگام ثابت است. منبع 2: دریافت بیش از حد شیوه های بازاریابی رایج ترین این است که از قسمت های بالا با استفاده از VLLM یا زیرساخت های مشابه استفاده شود. یک پرسشنامه ساده واقعاتی همان تعداد قطعات را به عنوان یک پرسشنامه تجزیه و تحلیل پیچیده دریافت می کند. یک پرسبرای سوالهای ساده که یک یا دو قطعه شامل پاسخ کامل هستند، دریافت هشت قطعه و ارسال همه آنها به مدل، زمینه ای را اضافه می کند که نمی تواند پاسخ را بهبود بخشد و تقریباً صدا را اضافه می کند. بازاریابی متمرکز این زباله را کاهش می دهد. به جای یک قطعه اصلی ثابت، بازاریابی مبتنی بر حداکثر که قطعه ها را بالاتر از حداکثر یک حداکثر مشابهی دریافت می کند. برای سوال هایی که نتایج بالا آشکار و نتایج پایین تر را کاهش می دهند، این نمونه قطعه ها را کمتر دریافت می کند. برای سوال هایی که اطلاعات مربوطه توزیع می شود، آن را بیشتر دریافت می کند. برای نوع های سوالی که مدل قابل پیش بینی است، جستجوی کلمات کلیدی برای حقایق خاصی، در مقابل سوال های تجزیهاتی که نیاز به ترکیب دارند، klasification سوال می تواند سوال های مختلف را به ترتیب هایمنبع 3: طول پاسخ که نیاز کاربران را فراتر می کند طول پاسخ تولید شده قابل کنترل است. رفتار استاندارد بسیاری از مدل های زبان، بدون راهنمایی دقیق طول، این است که پاسخ هایی را تولید کنید که طولانی تر از نیاز است، در مورد نقاطی که می تواند به طور خلاصه تر بیان شود، اضافه کردن هشدارها و صلاحیت هایی که ممکن است برای سوال خاص قابل توجه نیستند، ارائه زمینه ای است که کاربر درخواست نکرده است. برای برنامه های کسب و کار، راهنمایی دقیق طول در دستورالعمل سیستم، دستورالعمل های مشخص در مورد فرمت پاسخ و طول به نیازهای کاربر واقعی محاسبه می شود، تعداد تیکون ها را به طور قابل توجهی کاهش می دهد بدون کاهش کیفیت پاسخ. کاربران که از یک پایگاه دانش برای یک واقعیت خاص درخواست می کنند، نیاز به یک پاسخ 500 کلمه ندارند. آنها نیاز به واقعیت و منبع دارند. تولید ساختار با طرح های تعریف شدهزمینه هایی که برای یک پاسخ خاص قابل توجه نیستند یا خالی یا بدون وجود هستند، به جای استفاده از یک مدل مرزی برای کارهایی که یک مدل کوچکتر، سریع تر، ارزان تر با آنها برخورد می کند، به طور مساوی به وجود می آورد. منبع 4: فرآیند عدم هماهنگی مدل همه درخواست ها نیاز به همان قابلیت مدل ندارند. یک کار ساده استخراج کلمات کلیدی نیازی به همان مدل ندارد که یک ترکیب چند سند پیچیده است. استفاده از یک مدل مرزی برای کارهایی که یک مدل کوچکتر، سریع تر، ارزان تر با آنها برخورد می کند، به طور مساوی گران ترین شکل از زباله در توسعه های AI با حجم بالا است. مدل که کار می کند: یک معماری کاساکد که در آن سوال ها به کوچکترین مدل قابل اطمینان هدایت می شوند. یک مدل سریع، ارزان قیمت، کارهای ساده، طبقه بندی، استخراج، جستجو،نتیجه این است که یک سیاست راه اندازی بر اساس تفاوت های کیفیت مشاهده شده است، نه فرضیه هایی که در مورد چه وظایف “بسیاری” یا “بسیاری” هستند. برای سازمان هایی که در حال انجام استرس خود را میزبان می کنند، اندازه گیری مدل ارائه می دهد یک بهبود مرتبط: یک نسخه اندازه گیری از یک مدل بزرگ می تواند بیشتر وظایف را با کیفیت مشابه با مدل کامل با هزینه های کامپیوتری قابل توجهی پایین تر مدیریت کند. تبادل ارزشمند است که به صورت تجربی ارزیابی شود به جای فرض کردن که اندازه گیری همیشه کیفیت را کاهش می دهد. منبع 5: ثبت نام و نظارت بالا برای سازمان هایی که از API های AI خارجی استفاده می کنند، ثبت سفارشات کامل و پاسخ ها برای اهداف محاسبه و اطمینان ایجاد یک هزینه ثانویه: ذخیره و پردازش داده های حجم تیکن. برای توسعه های حجم بالا، این می تواند قابل توجه باشدکم کردن ژوگرافی های ذخیره شده، هزینه های اضافی را فراهم می کند. برای نیازهای مطابقتی که نیازهای کنترل کامل را تضمین می کنند، گزینه طراحی وجود دارد که هزینه های ثانویه را به طور کامل از بین می برد: حفظ داده ها در محل. ژوگرافی های توسعه self-hosted داده ها را به ذخیره داخلی نشان می دهد، جایی که هزینه های مرزی ذخیره سازی به طور قابل توجهی پایین تر از ذخیره سازی ابر برای داده های ژوگرافی با حجم بالا است، و جایی که نیازهای مطابقت بدون انتقال داده های شخص ثالث به طور جداگانه مورد رضایت قرار می گیرد. جمع آوری آن: یک فرآیند بهبود هزینه ها فرآیند که بهترین نتایج را تولید می کند: از ابتدای به ابتدای به ابتدای به ابتدای به ابتدای به ابتدای به ابتدای به ابتدای به ابتدای بهاین سطح بالا، خطر پایین است و فقط نیاز به تغییرات ساختاری برای جمع آوری سریع است. تنظیمات بازاریابی نظارت و اجرای بازاریابی متمرکز. اندازه گیری کاهش در محیط متوسط دریافت شده در هر سوال. اضافه کردن راهنمای طول پاسخ به خطوط سیستم و اندازه گیری کاهش تورم تولید. راه اندازی مدل رایت اگر حجم سوال به اندازه کافی است تا سرمایه گذاری مهندسی است. منطق راه اندازی و چارچوب ارزیابی هزینه های توسعه غیر منحصر به فرد است که فقط در مقیاس کافی پرداخت می کند. ارزیابی اندازه گیری برای توسعه های خودپرداز پس از بهبود های دیگر در محل است. سازمان هایی که این سلسله را اجرا می کنند به طور منظم 30 تا 50 درصد کاهش هزینه در دسترس هستند قبل از هر گونه تجارت کیفیت مورد نیاز است. تجارت کیفیت، هنگامی که آنها به طور واقعی مورد نیاز است، پس از آن می تواند نسبت به یک نرخ پایه که در حال حاضر به طور

چرا مهمه؟

هزینه توکن‌ها بدون بهبود کیفیت کاهش نیافته؛ صرف‌نظر از بهینه‌سازی، خروجی‌های ضعیف تولید می‌شد. شرکت‌های استفاده‌کننده از RAG، سامانه‌های پرسش‌وپاسخ و برنامه‌های تجاری بزرگ تحت تأثیر این هزینه‌ها قرار دارند. چون هزینه‌های پردازش می‌تونه بخشی بزرگ از بودجه فناوری باشد، دانستن روش‌های حذف ضایعات به صرفه‌جویی واقعی و حفظ کیفیت کمک می‌کند.

به درد کی می‌خوره؟

• مهندسان هوش مصنوعی و پردازش زبان طبیعی • تیم‌های DevOps و زیرساخت • مدیران محصول و کسب‌وکارهای مبتنی بر AI • مسئولین امنیت و حریم‌خصوصی داده

تو عمل چی کار کنیم؟

با خواندن این خبر می‌توانید پرامپت‌های ثابت را در ابتدای درخواست قرار داده و از کش‌کردن آن استفاده کنید، تنظیمات بازیابی را به‌صورت آستانه‌ای یا طبقه‌بندی‌شده بهینه کنید، طول پاسخ‌ها را با دستورهای واضح محدود کنید، کارها را به مدل‌های کوچکتر یا کم‌دقت‌تر هدایت کنید و لاگ‌ها را به‌صورت نمونه‌ای یا محلی ذخیره کنید. این کارها هزینه پردازش را به‌طور ملموسی کاهش می‌دهد.

نظر Blue IT News

به‌کارگیری سلسله‌مراتبی مدل‌ها و کش پرامپت، سریع‌ترین راه برای کاهش هزینه است؛ قبل از هر تغییر ساختاری، ابتدا این دو را پیاده‌سازی کنید.

این صفحه ترجمه و تفسیر کاملی از گزارش اصلی Dev است که توسط تیم تحریریه بلو آی تی نیوز به فارسی ترجمه و تحلیل شده. برای مشاهده نسخه اصلی، به منبع مراجعه کنید.