Context Compression Before the LLM: Cutting Tokens Without Cutting Recall۱۴۰۵ تیر ۵, جمعه
هوش_مصنوعی ۲۳ خرداد ۱۴۰۵

Context Compression Before the LLM: Cutting Tokens Without Cutting Recall

در سیستم‌های RAG، فرستادن همه اسناد بازیابی‌شده به مدل زبانی هم هزینه را زیاد می‌کند و هم کیفیت پاسخ را پایین می‌آورد. پژوهش جدید دو روش فشرده‌سازی معرفی کرده: استخراجی (حفظ جملات اصلی) و خلاصه‌ساز (بازنویسی چکیده). هر روش نقاط قوت و ضعف خود را دارد و انتخاب نهایی به حساسیت دامنه و محدودیت هزینه بستگی دارد.

Context Compression Before the LLM: Cutting Tokens Without Cutting Recall

چرا مهمه؟

تا حالا بیشتر تیم‌ها اسناد بازیابی‌شده را بدون تغییر به مدل می‌دادند و با مشکل «گم‌شدن در میانه» دست و پنجه نرم می‌کردند. این مقاله لایه‌ای به نام فشرده‌سازی متن را معرفی می‌کند که بین بازیابی و تولید قرار می‌گیرد. توسعه‌دهندگان RAG، مهندسان ML و هرکس که با APIهای زبانی کار می‌کند مستقیماً تحت تأثیر قرار می‌گیرد. خواننده با یادگیری این روش می‌تواند هزینه ورودی را تا ۵۰٪ کاهش دهد و پاسخ‌های دقیق‌تری بگیرد.

به درد کی می‌خوره؟

• مهندسان RAG و chatbot • دانشمندان داده و محققان NLP • تیم‌های تولید که از LLM استفاده می‌کنند • مدیران فنی که به دنبال کاهش هزینه API هستند • توسعه‌دهندگانی که سیستم‌های پرسش و پاسخ می‌سازند

تو عمل چی کار کنیم؟

مخاطب می‌تواند این دو روش فشرده‌سازی را در پایپلاین خود پیاده کند. با ابزارهای ارائه‌شده مثل sentence‌transformers و OpenAI می‌شود سریع نمونه اولیه را ساخت. همچنین با اندازه‌گیری recall متن فشرده روی دیتاست خود، بهترین نسبت نگهداشت را پیدا کرد و هزینه را بهینه نمود.

نظر BlueIT News

روش ترکیبی (اول فشرده‌سازی استخراجی بعد خلاصه‌ساز) برای بیشتر تیم‌ها بهترین تعادل دقت و هزینه را ایجاد می‌کند. پیشنهاد می‌کنیم پیش از هر انتخابی، حتماً recall متن فشرده را با داده‌های خود ارزیابی کنید.