اصل ماجرا
هزینه پردازش مدلهای زبانی میتونه با حذف الگوهای زائد کاهش پیدا کنه، بدون اینکه کیفیت خروجی کم بشه. راهکارها شامل کش کردن پرامپت ثابت، بازیابی هوشمند محتوا، محدود کردن طول پاسخ، استفاده از مدلهای مناسب برای هر کار و کاهش هزینه لاگهاست. اجرای این موارد میتونه تا ۵۰٪ صرفهجویی در هزینه ایجاد کنه.
متن کامل ترجمهشده
یک نسخه از بهبود هزینه تیکن وجود دارد که من توصیه نمی کنم: کاهش مقدار تیکن با کاهش کیفیت دستورالعمل سیستم شما، زمینه های دریافت شده یا فرمت پاسخ شما وجود دارد. این رویکرد هزینه را کاهش می دهد و کیفیت را به طور مساوی کاهش می دهد. شما هیچ چیز را بهینه سازی نکرده اید. شما فقط نتایج بدتر را با قیمت پایین تر پذیرفتید. بهبود هزینه تیکن که ارزش انجام دادن را کاهش می دهد، هزینه را با حذف مدل های ضعیف در حالی که حفظ یا بهبود کیفیت آنچه که مدل در واقع دریافت می کند و تولید می کند. این یک مشکل مهندسی است، نه یک توازن کیفیت. و به طور معمول زباله های قابل توجهی وجود دارد تا قبل از اینکه شما نیاز به انجام هر گونه توازن کیفیت در کل.منبع 1: متغیر متغیر در هر درخواست برای یک سیستم RAG که یک سازمان را خدمت می کند، برخی از متغیرها در سراسر هر درخواست دائمی است: متغیر سیستم که نقش و رفتار عامل را تعریف می کند، حقایق سازمانی که همیشه قابل توجه است، دستورالعمل های شکل گیری. هنگامی که این متغیر بزرگ است و همیشه شامل می شود، آن را بخشی قابل توجهی از هزینه token هر درخواست می شود. متغیر متغیر راه حل است. هر دو Anthropic و OpenAI ارائه متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیر متغیرتوصیه های سیستم هایی که با محتوای خاص کاربر یا جلسه خاصی که پیش از آنکه محتوای ثابت به طور موثر ذخیره شود، به طور متحرک ترکیب می شوند. توصیه های بازسازی نشان می دهد که محتوای ثابت در ابتدا و محتوای متحرک در پایان قرار گیرد. برای توزیع های خودپرداز شده با استفاده از vLLM یا زیرساخت های سرویس مشابه، ذخیره سازی پیشگام همان مزایایایی را بدون ذخیره سازی در سطح API فراهم می کند. اصول کلیدی مشابه است: توصیه های ساختاری برای حداکثر کردن طول پیشگام ثابت است. منبع 2: دریافت بیش از حد شیوه های بازاریابی رایج ترین این است که از قسمت های بالا با استفاده از VLLM یا زیرساخت های مشابه استفاده شود. یک پرسشنامه ساده واقعاتی همان تعداد قطعات را به عنوان یک پرسشنامه تجزیه و تحلیل پیچیده دریافت می کند. یک پرسبرای سوالهای ساده که یک یا دو قطعه شامل پاسخ کامل هستند، دریافت هشت قطعه و ارسال همه آنها به مدل، زمینه ای را اضافه می کند که نمی تواند پاسخ را بهبود بخشد و تقریباً صدا را اضافه می کند. بازاریابی متمرکز این زباله را کاهش می دهد. به جای یک قطعه اصلی ثابت، بازاریابی مبتنی بر حداکثر که قطعه ها را بالاتر از حداکثر یک حداکثر مشابهی دریافت می کند. برای سوال هایی که نتایج بالا آشکار و نتایج پایین تر را کاهش می دهند، این نمونه قطعه ها را کمتر دریافت می کند. برای سوال هایی که اطلاعات مربوطه توزیع می شود، آن را بیشتر دریافت می کند. برای نوع های سوالی که مدل قابل پیش بینی است، جستجوی کلمات کلیدی برای حقایق خاصی، در مقابل سوال های تجزیهاتی که نیاز به ترکیب دارند، klasification سوال می تواند سوال های مختلف را به ترتیب هایمنبع 3: طول پاسخ که نیاز کاربران را فراتر می کند طول پاسخ تولید شده قابل کنترل است. رفتار استاندارد بسیاری از مدل های زبان، بدون راهنمایی دقیق طول، این است که پاسخ هایی را تولید کنید که طولانی تر از نیاز است، در مورد نقاطی که می تواند به طور خلاصه تر بیان شود، اضافه کردن هشدارها و صلاحیت هایی که ممکن است برای سوال خاص قابل توجه نیستند، ارائه زمینه ای است که کاربر درخواست نکرده است. برای برنامه های کسب و کار، راهنمایی دقیق طول در دستورالعمل سیستم، دستورالعمل های مشخص در مورد فرمت پاسخ و طول به نیازهای کاربر واقعی محاسبه می شود، تعداد تیکون ها را به طور قابل توجهی کاهش می دهد بدون کاهش کیفیت پاسخ. کاربران که از یک پایگاه دانش برای یک واقعیت خاص درخواست می کنند، نیاز به یک پاسخ 500 کلمه ندارند. آنها نیاز به واقعیت و منبع دارند. تولید ساختار با طرح های تعریف شدهزمینه هایی که برای یک پاسخ خاص قابل توجه نیستند یا خالی یا بدون وجود هستند، به جای استفاده از یک مدل مرزی برای کارهایی که یک مدل کوچکتر، سریع تر، ارزان تر با آنها برخورد می کند، به طور مساوی به وجود می آورد. منبع 4: فرآیند عدم هماهنگی مدل همه درخواست ها نیاز به همان قابلیت مدل ندارند. یک کار ساده استخراج کلمات کلیدی نیازی به همان مدل ندارد که یک ترکیب چند سند پیچیده است. استفاده از یک مدل مرزی برای کارهایی که یک مدل کوچکتر، سریع تر، ارزان تر با آنها برخورد می کند، به طور مساوی گران ترین شکل از زباله در توسعه های AI با حجم بالا است. مدل که کار می کند: یک معماری کاساکد که در آن سوال ها به کوچکترین مدل قابل اطمینان هدایت می شوند. یک مدل سریع، ارزان قیمت، کارهای ساده، طبقه بندی، استخراج، جستجو،نتیجه این است که یک سیاست راه اندازی بر اساس تفاوت های کیفیت مشاهده شده است، نه فرضیه هایی که در مورد چه وظایف “بسیاری” یا “بسیاری” هستند. برای سازمان هایی که در حال انجام استرس خود را میزبان می کنند، اندازه گیری مدل ارائه می دهد یک بهبود مرتبط: یک نسخه اندازه گیری از یک مدل بزرگ می تواند بیشتر وظایف را با کیفیت مشابه با مدل کامل با هزینه های کامپیوتری قابل توجهی پایین تر مدیریت کند. تبادل ارزشمند است که به صورت تجربی ارزیابی شود به جای فرض کردن که اندازه گیری همیشه کیفیت را کاهش می دهد. منبع 5: ثبت نام و نظارت بالا برای سازمان هایی که از API های AI خارجی استفاده می کنند، ثبت سفارشات کامل و پاسخ ها برای اهداف محاسبه و اطمینان ایجاد یک هزینه ثانویه: ذخیره و پردازش داده های حجم تیکن. برای توسعه های حجم بالا، این می تواند قابل توجه باشدکم کردن ژوگرافی های ذخیره شده، هزینه های اضافی را فراهم می کند. برای نیازهای مطابقتی که نیازهای کنترل کامل را تضمین می کنند، گزینه طراحی وجود دارد که هزینه های ثانویه را به طور کامل از بین می برد: حفظ داده ها در محل. ژوگرافی های توسعه self-hosted داده ها را به ذخیره داخلی نشان می دهد، جایی که هزینه های مرزی ذخیره سازی به طور قابل توجهی پایین تر از ذخیره سازی ابر برای داده های ژوگرافی با حجم بالا است، و جایی که نیازهای مطابقت بدون انتقال داده های شخص ثالث به طور جداگانه مورد رضایت قرار می گیرد. جمع آوری آن: یک فرآیند بهبود هزینه ها فرآیند که بهترین نتایج را تولید می کند: از ابتدای به ابتدای به ابتدای به ابتدای به ابتدای به ابتدای به ابتدای به ابتدای به ابتدای بهاین سطح بالا، خطر پایین است و فقط نیاز به تغییرات ساختاری برای جمع آوری سریع است. تنظیمات بازاریابی نظارت و اجرای بازاریابی متمرکز. اندازه گیری کاهش در محیط متوسط دریافت شده در هر سوال. اضافه کردن راهنمای طول پاسخ به خطوط سیستم و اندازه گیری کاهش تورم تولید. راه اندازی مدل رایت اگر حجم سوال به اندازه کافی است تا سرمایه گذاری مهندسی است. منطق راه اندازی و چارچوب ارزیابی هزینه های توسعه غیر منحصر به فرد است که فقط در مقیاس کافی پرداخت می کند. ارزیابی اندازه گیری برای توسعه های خودپرداز پس از بهبود های دیگر در محل است. سازمان هایی که این سلسله را اجرا می کنند به طور منظم 30 تا 50 درصد کاهش هزینه در دسترس هستند قبل از هر گونه تجارت کیفیت مورد نیاز است. تجارت کیفیت، هنگامی که آنها به طور واقعی مورد نیاز است، پس از آن می تواند نسبت به یک نرخ پایه که در حال حاضر به طور
چرا مهمه؟
هزینه توکنها بدون بهبود کیفیت کاهش نیافته؛ صرفنظر از بهینهسازی، خروجیهای ضعیف تولید میشد. شرکتهای استفادهکننده از RAG، سامانههای پرسشوپاسخ و برنامههای تجاری بزرگ تحت تأثیر این هزینهها قرار دارند. چون هزینههای پردازش میتونه بخشی بزرگ از بودجه فناوری باشد، دانستن روشهای حذف ضایعات به صرفهجویی واقعی و حفظ کیفیت کمک میکند.
به درد کی میخوره؟
• مهندسان هوش مصنوعی و پردازش زبان طبیعی • تیمهای DevOps و زیرساخت • مدیران محصول و کسبوکارهای مبتنی بر AI • مسئولین امنیت و حریمخصوصی داده
تو عمل چی کار کنیم؟
با خواندن این خبر میتوانید پرامپتهای ثابت را در ابتدای درخواست قرار داده و از کشکردن آن استفاده کنید، تنظیمات بازیابی را بهصورت آستانهای یا طبقهبندیشده بهینه کنید، طول پاسخها را با دستورهای واضح محدود کنید، کارها را به مدلهای کوچکتر یا کمدقتتر هدایت کنید و لاگها را بهصورت نمونهای یا محلی ذخیره کنید. این کارها هزینه پردازش را بهطور ملموسی کاهش میدهد.
نظر Blue IT News
بهکارگیری سلسلهمراتبی مدلها و کش پرامپت، سریعترین راه برای کاهش هزینه است؛ قبل از هر تغییر ساختاری، ابتدا این دو را پیادهسازی کنید.
این صفحه ترجمه و تفسیر کاملی از گزارش اصلی Dev است که توسط تیم تحریریه بلو آی تی نیوز به فارسی ترجمه و تحلیل شده. برای مشاهده نسخه اصلی، به منبع مراجعه کنید.