«Claude Code را با مدل‌های محلی ترکیب کرد»

اصل ماجرا

Claude Code برای تکمیل کد، بازنویسی و دیباگ هزینه توکن بالایی می‌گیرد. با تنظیم متغیرهای محیطی می‌توانید درخواست‌ها را به سرورهای محلی مثل Ollama، LM Studio یا llama.cpp هدایت کنید. این کار هزینه را حذف کرده و محدودیت سرعت را برطرف می‌کند.

متن کامل ترجمه‌شده

مدل های محلی در سال 2026 به اندازه کافی خوب هستند. برای کارهایی که Claude Code به صورت روزانه انجام می دهد: تکمیل کد، تجدید نظر، اختراع، توضیح codebase؛ یک مدل اندازه گیری مناسب که به صورت محلی اجرا می شود، بیشتر موارد استفاده واقعی را با هیچ محدودیت قیمت هر تیکن و بدون محدودیت نرخ پوشش می دهد. # معرفی جلسات رمزنگاری آژانتیک گران است. یک جلسات فقط Claude Code - خواندن فایل ها، نوشتن کد، انجام آزمایش ها، تکرار - می تواند 10 تا 50 برابر تیکن بیشتری از یک مکالمه چت ساده را بسوزاند. در مقیاس، این میزان به سرعت افزایش می یابد. محدودیت های نرخ را اضافه کنید که می تواند جریان طولانی مدت در نیمه جلسه کار را متوقف کند، و بستگی به یک API شخص ثالث است که می تواند قیمت ها را تغییر دهد، سیاست های سخت تربرای کارهایی که Claude Code هر روز انجام می دهد – تکمیل کد، تجدید نظر، حذف کد، توضیح codebase – یک مدل اندازه گیری به خوبی انتخاب شده که به صورت محلی اجرا می شود، اکثریت موارد استفاده واقعی را با هزینه ی zero per-token و بدون محدودیت نرخ پوشش می دهد. این مقاله شامل سه پشتیبان پایانی (Ollama، LM Studio، و llama.cpp)، متغیر های محیطی دقیق و فایل های تنظیماتی برای هر یک از آن ها به Claude Code، یک جدول از مدل های قابل اجرا، و اصلاحات حل مشکل برای مشکلات که در واقع به شما خواهد رسید. # چگونه Claude Code به هر مدل محلی متصل میکانیسم ساده تر از بسیاری از راهنمایی ها به نظر می رسد. Claude Code درخواست ها را در فرمت API Anthropic Messages ارسال می کند. به طور پیش فرض این درخواست ها به سرورهای Anthropic می روند. تنظیمبر اساس گزارش رسمی Claude Code، متغیرها که برای این نصب اهمیت دارند عبارتند از: - ANTHROPIC_BASE_URL: همه تماس های API از سرورهای Anthropic را به هر URL که شما تنظیم می کنید هدایت می کند. این را به آدرس سرور محلی خود تنظیم کنید. - ANTHROPIC_API_KEY: کلید API که در عنوان درخواست ارسال شده است. سرور های محلی به طور معمول تصدیق را نادیده می گیرند، بنابراین این به طور معمول به یک زنجیره جایگزین مانند “local” یا “ollama” تنظیم می شود. - ANTHROPIC_AUTH_TOKEN: یک عنوان جایگزین auth. برخی سرور های محلی این را به جای کلید API بررسی می کنند. آن را به همان جایگزین جایگزین تنظیم می کنند. ANTHROPIC_DEFAULT_SONدر ژانویه 2026، Ollama پشتیبانی اصلی برای Anthropic Messages API اضافه کرد، که تغییرات فنی بود که این فرآیند کار را بدون فرآیند ترجمه عملی ساخت. LM Studio یک نقطه پایانی /v1/messages در نسخه 0.4.1 اضافه کرد. llama.cpp برای مدت طولانی پشتیبانی مستقیم از API Anthropic داشته است. هر سه در حال حاضر از پروتکل اصلی Claude Code صحبت می کنند. یک گرافیک معماری پاک نشان می دهد که Claude Code، Ollama، LM Studio، و llama.cpp تصویر توسط نویسنده # Backend 1: Ollama Ollama نقطه شروع صحیح است. آن را با تمام پیچیدگی های مدیریت مدل - دانلود وزن، اندازه گیری، GPU و توزیع CPU، و خدمت - پشت یک رابط خط فرمان ساده (CLI) است. یک دستور برای نصب، یک دستور برای اتمام یک مدل، چند متغیر محیطیپیش فرض - macOS، لینوکس یا ویندوز (WSL2 توصیه می شود در ویندوز) - حداقل 16 گیگابایت RAM برای استفاده عملی (32 گیگابایت توصیه می شود) - GPU با 8+ گیگابایت VRAM برای فرآیند GPU، و یا تنها CPU با RAM کافی - Ollama v0.14.0 یا بعد از آن مورد نیاز برای پشتیبانی API پیام های Anthropic نصب Ollama: # macOS و لینوکس - یک دستور نصب curl -fsSL �URL_0 sh # بررسی نسخه - باید 0.14.0+ برای Claude Code سازگار ollama نسخه # انتظار: ollama نسخه 0.14.x یا بالاتر # ویندوز: دانلود نصبگر از URL_1 # پشتیبانی نایتی ویندوز به طور قابل توجهی در نسخه های اخیر بهبود یافته است پس از نصب، Ollama به طور خودکار به عنوان یک سرویس پشتیبان در پورت 110 لزوم استفاده از GLM-47-flash:latest # Qwen3-Coder — قوی تولید کد و دستورالعمل پس از # نیاز به 20+ GB VRAM برای مدل کامل ollama pull qwen3-coder # Devstral-Small — به طور خاص طراحی شده برای فرآیند کار رمزنگاری آژنتیک # جامعه تست شده برای سازگاری Claude Code # 24B، نیاز به 16+ GB VRAM ollama pull devstral-small-2:24b # بررسی مدل دانلود شده و آماده ollama لیست # نشان می دهد تمام مدل های کشیده شده با اندازه و تاریخ تغییرات خود را // تنظیم Claude Code به استفاده از Ollama گزینه 1: صادرات شلوار ( تنها جلسه پایانی فعلی) # Redirect Claude Code به سرور محلی شما Ollama صادر ANTHROPIC_BESTS_BASE_URL=”�_URL_0” # سرور های محلی نیازی به تصدیق7-flash:latest” export ANTHROPIC_DEFAULT_HAIKU_MODEL=“glm-4.7-flash:latest” export ANTHROPIC_DEFAULT_OPUS_MODEL=“glm-4.7-flash:latest” # Launch Claude Code — آن را در حال حاضر از Ollama به جای Claude API Anthropic استفاده می کند گزینه 2: ~/.claude/settings.json: {en: {en: { “HROPIC_BASE_URL”: “URL_0”: “HRANTOPIC_API_KEY”: “Rollama”, “ANTHOPIC_AUTHOKEN_TOKEN”: ”#_US__gloll_claude”.json: ” {en: { {HORPIC_BASE_URL”: “URL_0”, “HRANTOPاگر می خواهید که یک پروژه خاص از یک مدل متفاوت استفاده کند، در حالی که تنظیمات جهانی خود را در API Anthropic حفظ می کنید: # .env در ریشه پروژه شما — به طور خودکار توسط Claude Code ANTHROPIC_BASE_URL=http://localhost:11434 ANTHROPIC_API_KEY=ollama ANTHROPIC_AUTH_TOKEN=ollama استفاده می کند: # Launch Code with a simple test claude #DEFAULT_SONNET_MODEL=qwen3-coder ANTHROPIC_DEFAULT_HAIKU_MODEL=qwen3-coder ANTHROPIC_API_DEFAULT_OPUSMODEL=WENQE=CODER اتصال را بررسی کنید: # نصب Code ANTHROPIC_DEFAULT_SONNET_MODEL7-flash:latest # 2. Pull مدل (~4 گیگابایت) صادرات ANTHROPIC_BASE_URL=“�URL_0” # 3. Redirect Claude کد صادرات ANTHROPIC_API_KEY=“ollama” # 4. Set placeholder auth صادرات ANTHROPIC_AUTH_TOKEN=“ollama” صادرات ANTHROPIC_DEFAULT_SONNET_MODEL=“glm-4.7-flash:latest” صادرات ANTHROPIC_DEFAULT_HAIKU_MODEL=“glm-4.7-flashlatest” صادرات ANTHROPIC_DEFAULT_OPUS_MODEL=“mglon-4.7-flashestlat” Claude # 5. Launch # 2: Backend LM Studio LM Studio انتخاب صحیح است اگر شما می خواهید یک رابط گرافیک براییا استفاده از نصب کننده CLI برای سرورهای بدون سر نصب و تنظیم LM Studio: # بر روی سرور یا VM بدون یک GUI — CLI نصب curl -fsSL �URL_0║ bash # یا دانلود برنامه دسکتاپ از https://lmstudio.ai برای GUI استفاده از مراحل نصب GUI: - باز کردن LM Studio و جستجو برای یک مدل کدگذاری (برای جستجو “qwen coder” یا “devstral”). - دانلود مدل. LM Studio به طور خودکار انتخاب اندازه گیری را پردازش می کند. - بروید به صفحه Local Server (برای <> آیکون در لبه سمت چپ). - اندازه زمینه را تنظیم کنید. LM Studio توصیه می کند که با حداقل 25،000 تیکن شروع کنید و برای نتایج بهتر افزایش دهید. - کلیک بر روی Start Server. - Port (برای مثال: 1234) را ثبت کنید و نام مدل را دقیقا بهتنظیم کد Claude: # URL پایه را به سرور محلی LM استودیو EXPORT ANTHROPIC_BASE_URL=“�URL_0” EXPORT ANTHROPIC_API_KEY=“lm-studio” EXPORT ANTHROPIC_AUTH_TOKEN=“lm-studio” # نام مدل را با آنچه LM استودیو نشان می دهد برای مدل بارگذاری خود را جایگزین کنید # آن را به طور دقیق کاپی کنید - از جمله هر نسخه واریز یا کشتن برچسب EXPORT ANTHROPIC_DEFAULT_SONNET_MODEL=“qwen2.5-coder-32b-instruct” EXPORT ANTHROPIC_DEFAULT_HAIKU_MODEL: {en: {en: {en: {en:}_inst_inst_inst_U_inst__شروع سرور LM Studio از GUI (تلفه سرور محلی > شروع سرور) # 2. تنظیم تغییرات محیطی صادرات ANTHROPIC_BASE_URL=“�URL_0” صادرات ANTHROPIC_API_KEY=“lm-studio” صادرات ANTHROPIC_AUTH_TOKEN=“lm-studio” صادرات ANTHROPIC_DEFAULT_SONNET_MODEL=“your-model-name-here” صادرات ANTHROPIC_DEFAULT_HAIKU_MODEL=“your-model-name-here” صادرات ANTHROPIC_AUTH_DEFAULT_OPUS_MODEL=“your-model-name-here” # 3. کلمۀ راه اندازی # Backend 3: llamacpp llama.cpp انتخاب صحیح هنگامی که شما نیاز به کنترل مستقیم بر پارامترپیش فرض: - یک فایل مدل GGUF-format (برای دانلود از Hugging Face; جستجو برای “GGUF” نسخه از هر مدل) - CUDA-capable GPU for GPU inference, یا CPU-only for slower inference - CMake and a C++ compiler for source builds (on Linux/CUDA, source is recommended) Install llama.cpp: # macOS — Homebrew is simplest brew install llama.cpp # Linux with CUDA — build from source for best GPU performance git clone URL_0 cd llama.cpp cmake -B build -DGGML_CU=DAON # Enable CUDA acceleration cmake —build —config Release # Build # Binaries in ./build/bin/ # Linux CPU-only build cmake - cmake -Bake build —hubbuild Release5 گیگابایت) # این کوانتزیشن یک تعادل اندازه / کیفیت خوب برای کد گذاری huggingface-cli unsloth/GLM-4.7-Flash-GGUF \ GLM-4.7-Flash-UD-Q4_K_XL.gguf \ —local-dir ./models/ # یا دانلود Qwen3-Coder در Q4 کوانتزیشن (~15 گیگابایت برای 32B) huggingface-cli دانلود Qwen/Qwen3-Coder-32B-Instruct-GGUF \ qwen3-coder-32b-instruct-q4_k_m.gguf \ —local-dir ./models/ Start the llama.cpp server: # Start llama-server with Anthropic API support and a 128K llama context-server \model Qwen/Qwen3-Coder-32gguf \ —alias “glm-4.7-flash” \ —port 8001 \ —ctx-size 32768 \ # کاهش اندازه مکانیسم بر روی CPU برای حفظ حافظه قابل مدیریت —threads 8 # ترکیب CPU core count شما پرچم های کلیدی توضیح داده شده است: - —alias: مجموعه نام مدل Claude Code در درخواست ها خواهد شد. Set- ANTHROPIC_DEFAULT_SONNET_MODELto این را به طور دقیق. - —ctx-size: پنجره مکانیسم در جکنه ها. 131072 = 128K. بزرگتر برای تحلیل codebase بهتر است اما از VRAM استفاده می کند. کاهش اگر شما از اشتباهات حافظه خارج می شود. - —flash-natt: Flash Attention با پردازش توجه به بلوک های کوچک تر VRAM را کاهش می دهد. آن راکلمات کلیدی: کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلمات کلیدی : کلماتjson Export variable only lasts as long as the terminal session. برای یک تنظیم پایدار، استفاده از ~/.claude/settings.json.

[…]

چرا مهمه؟

اولین تغییر این است که دیگر نیازی به پرداخت هزینه توکن برای کارهای روزانه کدنویسی ندارید. توسعه‌دهندگان، تیم‌های DevOps و شرکت‌های کوچک که بودجه محدود دارند تحت تأثیر این روش قرار می‌گیرند. خواننده باید این خبر را جدی بگیرد چون می‌تواند هزینه‌های ماهانه را به صفر برساند و وابستگی به سرویس‌های ابری را کاهش دهد.

به درد کی می‌خوره؟

• توسعه‌دهندگان نرم‌افزار • تیم‌های DevOps • مهندسان داده • مدیران فنی شرکت‌های کوچک

تو عمل چی کار کنیم؟

با دنبال کردن راهنمای تنظیم متغیرهای محیطی می‌توانید Claude Code را به یک مدل محلی متصل کنید، هزینه توکن را حذف کنید و سرعت پاسخ‌ها را تحت کنترل داشته باشید. این کار به شما اجازه می‌دهد تا پروژه‌های کدنویسی طولانی را بدون نگرانی از محدودیت‌های نرخ یا قطعی سرویس‌های ابری ادامه دهید.

نظر Blue IT News

به‌جای انتظار برای به‌روزرسانی‌های بزرگ مدل‌های ابری، امروز می‌توانید با یک نصب ساده Ollama یا LM Studio یک دستیار کدنویسی محلی داشته باشید؛ این مسیر، راه‌حلی پایدار و اقتصادی برای تیم‌های توسعه است.

<div class=“disclosure”> این صفحه ترجمه و تفسیر کاملی از گزارش اصلی Kdnuggets است که توسط تیم تحریریه بلو آی تی نیوز به فارسی ترجمه و تحلیل شده. برای مشاهده نسخه اصلی، به منبع مراجعه کنید. </div>