Context Compression Before the LLM: Cutting Tokens Without Cutting Recall
در سیستمهای RAG، فرستادن همه اسناد بازیابیشده به مدل زبانی هم هزینه را زیاد میکند و هم کیفیت پاسخ را پایین میآورد. پژوهش جدید دو روش فشردهسازی معرفی کرده: استخراجی (حفظ جملات اصلی) و خلاصهساز (بازنویسی چکیده). هر روش نقاط قوت و ضعف خود را دارد و انتخاب نهایی به حساسیت دامنه و محدودیت هزینه بستگی دارد.

چرا مهمه؟
تا حالا بیشتر تیمها اسناد بازیابیشده را بدون تغییر به مدل میدادند و با مشکل «گمشدن در میانه» دست و پنجه نرم میکردند. این مقاله لایهای به نام فشردهسازی متن را معرفی میکند که بین بازیابی و تولید قرار میگیرد. توسعهدهندگان RAG، مهندسان ML و هرکس که با APIهای زبانی کار میکند مستقیماً تحت تأثیر قرار میگیرد. خواننده با یادگیری این روش میتواند هزینه ورودی را تا ۵۰٪ کاهش دهد و پاسخهای دقیقتری بگیرد.
به درد کی میخوره؟
• مهندسان RAG و chatbot • دانشمندان داده و محققان NLP • تیمهای تولید که از LLM استفاده میکنند • مدیران فنی که به دنبال کاهش هزینه API هستند • توسعهدهندگانی که سیستمهای پرسش و پاسخ میسازند
تو عمل چی کار کنیم؟
مخاطب میتواند این دو روش فشردهسازی را در پایپلاین خود پیاده کند. با ابزارهای ارائهشده مثل sentencetransformers و OpenAI میشود سریع نمونه اولیه را ساخت. همچنین با اندازهگیری recall متن فشرده روی دیتاست خود، بهترین نسبت نگهداشت را پیدا کرد و هزینه را بهینه نمود.
نظر BlueIT News
روش ترکیبی (اول فشردهسازی استخراجی بعد خلاصهساز) برای بیشتر تیمها بهترین تعادل دقت و هزینه را ایجاد میکند. پیشنهاد میکنیم پیش از هر انتخابی، حتماً recall متن فشرده را با دادههای خود ارزیابی کنید.