هوش_مصنوعی ۲۴ خرداد ۱۴۰۵

درگاه یکپارچه هوش مصنوعی با LiteLLM و Ollama ساخته شد

LiteLLM به عنوان سرور پراکسی بیش از صد مدل LLM را از طریق یک نقطه انتهایی در دسترس می‌گذارد. با وصل کردن Ollama برای استنتاج محلی، می‌توان بارگذاری، ردیابی هزینه، محدودیت نرخ و مسیر بازگشت خودکار را به‌دست آورد. تنظیمات فقط با یک فایل yaml و اجرای یک فرمان ساده انجام می‌شود.

چرا مهمه؟

محلی‌سازی مدل‌ها هزینه‌های ابری را کاهش داد. تیم‌های توسعه که هم مدل‌های محلی و هم سرویس‌های ابری استفاده می‌کنند، دیگر نیازی به مدیریت چندین API ندارند. خواننده می‌تواند با یکپارچه‌سازی ساده، کارایی و کنترل هزینه را بالا ببرد.

به درد کی می‌خوره؟

• توسعه‌دهندگان هوش مصنوعی • مهندسان DevOps • مدیران محصول AI • تیم‌های تحقیق و توسعه

تو عمل چی کار کنیم؟

با دنبال کردن راهنمای تنظیمات، می‌توانید یک گیت‌وی واحد راه‌اندازی کنید که درخواست‌ها را بین مدل‌های محلی و ابری توزیع می‌کند، هزینه‌ها را زیر نظر داشته و از بار بیش از حد جلوگیری کنید. این کار باعث می‌شود زمان استقرار سریع‌تر و هزینه زیرساخت کمتر شود.

نظر BlueIT News

پیشنهاد می‌کنیم قبل از اعمال فیلترهای نرخ، الگوهای مصرف واقعی را بررسی کنید تا تنظیمات بهینه‌تری برای تعادل بار و هزینه داشته باشید.