【OpenCode系统性指南】第11篇：本地模型接入：Ollama + OpenCode

概念图

引言

在前一篇文章中，我们系统梳理了 OpenCode 支持的 75+ 云端模型。但对于很多开发者来说，云端模型存在三个核心痛点：代码隐私、网络依赖、持续费用。

本地模型方案恰好能解决这些问题。通过 Ollama 这一优秀的本地模型运行工具，你可以在自己的电脑上运行强大的 AI 编程模型，代码完全不离本地，无需联网，也不用担心 API 费用。本文将系统性地介绍如何搭建 Ollama + OpenCode 的本地化 AI 编程环境。

一、为什么需要本地模型

1.1 三大核心优势

优势	说明	适用场景
隐私保护	代码和敏感数据完全在本地处理，不发送到任何云端服务器	涉密项目、企业内网开发、安全审计代码
离线使用	无需网络连接，飞机上、偏远地区都能正常使用	出差途中、网络不稳定环境、无外网内网
成本控制	一次性硬件投入后，无任何 API 调用费用	高频使用、预算有限、长期项目

1.2 本地模型 vs 云端模型

维度	本地模型	云端模型
隐私性	★★★★★ 完全本地	★★★☆☆ 数据上传云端
可用性	★★★★★ 无需网络	★★★☆☆ 依赖网络
成本	★★★★☆ 硬件投入	★★★☆☆ 按量计费
能力	★★★☆☆ 受限于硬件	★★★★★ 顶级模型
速度	★★★☆☆ 取决于硬件	★★★★☆ 云端算力强

本地模型不是要替代云端模型，而是提供另一种选择。对于日常编码、代码补全等任务，本地模型已经足够胜任；对于复杂的架构设计、代码重构等需要深度推理的任务，仍建议使用云端顶级模型。

二、Ollama 安装与配置

2.1 各平台安装方法

macOS：

# 方式一：官方脚本（推荐）
curl -fsSL https://ollama.com/install.sh | sh

# 方式二：下载 DMG 安装包
# 访问 https://ollama.com/download/Ollama.dmg

Windows：

# 方式一：PowerShell 脚本
irm https://ollama.com/install.ps1 | iex

# 方式二：下载安装程序
# 访问 https://ollama.com/download/OllamaSetup.exe

Linux：

curl -fsSL https://ollama.com/install.sh | sh

2.2 服务启动与管理

安装完成后，Ollama 会自动在后台启动服务。默认监听端口为 11434。

手动启动服务：

ollama serve

查看服务状态：

# 测试服务是否正常
curl http://localhost:11434/api/tags

# 查看运行中的模型
ollama ps

修改监听地址（可选）：

# 默认只监听 localhost，如需局域网访问
OLLAMA_HOST=0.0.0.0:11434 ollama serve

Ollama 服务运行状态

三、模型选择与拉取

3.1 推荐编程模型

Ollama 模型库提供了丰富的开源模型，以下是针对编程场景的推荐：

模型	尺寸选项	特点	最佳用途
DeepSeek-R1	1.5B/7B/8B/14B/32B/70B	推理能力强，MIT 许可证	复杂逻辑、代码分析
Qwen2.5-Coder	0.5B/1.5B/3B/7B/14B/32B	代码生成专家，40+ 语言	代码补全、生成
Llama 3.2	1B/3B	轻量级，工具调用好	快速响应、简单任务
DeepSeek-Coder	6.7B/33B	代码能力强	代码理解、生成

3.2 模型拉取命令

# 拉取 DeepSeek-R1（默认 7B 版本）
ollama pull deepseek-r1

# 拉取指定尺寸
ollama pull deepseek-r1:7b
ollama pull qwen2.5-coder:7b
ollama pull llama3.2:3b

# 拉取更大尺寸（需要更多显存）
ollama pull qwen2.5-coder:14b
ollama pull deepseek-r1:14b

3.3 模型管理命令

# 列出本地已安装的模型
ollama list

# 查看模型详细信息
ollama show deepseek-r1:7b

# 删除不需要的模型（释放磁盘空间）
ollama rm llama3.2:1b

# 运行模型进行测试
ollama run deepseek-r1
# 进入交互模式后可直接对话测试
# 输入 /bye 退出

3.4 模型选择建议

根据你的硬件配置选择合适的模型：

硬件配置	推荐模型	说明
8GB 内存（无独显）	Llama 3.2:1B, Qwen2.5-Coder:1.5B	轻量级，响应快
16GB 内存（M1/M2 Mac）	DeepSeek-R1:7B, Qwen2.5-Coder:7B	平衡性能与速度
24GB 显存（RTX 3090/4090）	DeepSeek-R1:14B, Qwen2.5-Coder:14B	较强推理能力
48GB+ 显存	DeepSeek-R1:32B, Qwen2.5-Coder:32B	接近云端模型效果

四、OpenCode 本地模型配置

4.1 环境变量配置

最简单的配置方式是设置 LOCAL_ENDPOINT 环境变量：

# 在 ~/.bashrc 或 ~/.zshrc 中添加
export LOCAL_ENDPOINT="http://localhost:11434/v1"

设置后，OpenCode 会自动检测本地模型列表，无需额外配置。

4.2 Agent 级别模型选择

可以为不同的 Agent 指定不同的本地模型，实现精细化的资源分配：

配置文件 ~/.opencode.json：

{
  "agents": {
    "coder": {
      "model": "local.deepseek-r1:7b",
      "reasoningEffort": "high"
    },
    "task": {
      "model": "local.qwen2.5-coder:7b"
    },
    "title": {
      "model": "local.llama3.2:1b"
    }
  }
}

配置说明：

coder：主代码生成 Agent，使用 DeepSeek-R1 获得更好的推理能力
task：任务分解 Agent，使用 Qwen2.5-Coder 擅长代码理解
title：生成对话标题，使用轻量级 Llama 3.2 节省资源

4.3 混合配置方案

本地模型和云端模型可以混合使用，根据任务特点灵活选择：

{
  "agents": {
    "coder": {
      "model": "claude-4-sonnet",
      "reasoningEffort": "high"
    },
    "task": {
      "model": "local.deepseek-r1:7b"
    },
    "title": {
      "model": "local.llama3.2:1b"
    }
  }
}

这种配置方式：

复杂的代码生成任务交给云端顶级模型
简单的任务分解、标题生成使用本地模型
在保证质量的同时降低成本

五、硬件要求与性能建议

5.1 不同规格模型的硬件需求

模型大小	最低内存	推荐内存	GPU 需求	Apple Silicon
1-3B	4 GB	8 GB	集成显卡即可	M1 8GB 即可
7B	8 GB	16 GB	RTX 3060, 8GB VRAM	M1/M2 16GB 流畅
13-14B	16 GB	24 GB	RTX 3080/4070, 12GB VRAM	M1/M2 Max 32GB
32B	32 GB	48 GB	RTX 3090/4090, 24GB VRAM	M2 Ultra 64GB
70B	64 GB	96 GB	2x RTX 3090/4090	需要多设备

官方建议：运行 7B 模型至少需要 8GB 内存，13B 需要 16GB，33B 需要 32GB

5.2 性能优化技巧

1. 使用量化模型

Ollama 默认使用 4-bit 量化，在保持较好性能的同时大幅降低内存需求：

# 查看模型量化信息
ollama show deepseek-r1:7b --modelfile

2. 调整并发参数

# 限制并发请求数（降低内存峰值）
OLLAMA_NUM_PARALLEL=1 ollama serve

# 限制批处理大小
OLLAMA_MAX_LOADED_MODELS=1 ollama serve

3. Apple Silicon 优化

macOS 上 Ollama 会自动使用 Metal 加速，充分利用统一内存架构：

# 查看 Metal 使用情况
ollama run deepseek-r1 --verbose

4. GPU 加速（Linux/Windows）

确保安装了正确的 GPU 驱动和 CUDA（NVIDIA）或 ROCm（AMD）：

# 检查 GPU 是否被识别
nvidia-smi  # NVIDIA

5.3 性能基准参考

在 Apple M2 Max 32GB 上的典型性能：

模型	首 Token 延迟	生成速度	内存占用
Llama 3.2:1B	~0.3s	80 tok/s	~1.5GB
DeepSeek-R1:7B	~0.5s	35 tok/s	~6GB
Qwen2.5-Coder:7B	~0.5s	35 tok/s	~6GB
DeepSeek-R1:14B	~0.8s	18 tok/s	~12GB

小结

三大优势：隐私保护、离线使用、成本控制是选择本地模型的核心理由
Ollama 安装：各平台都有一键安装方案，服务默认监听 11434 端口
模型选择：DeepSeek-R1 推理能力强，Qwen2.5-Coder 代码生成专业，Llama 3.2 轻量快速
OpenCode 配置：通过 LOCAL_ENDPOINT 环境变量连接，支持 Agent 级别的模型分配
硬件建议：7B 模型需 8GB 内存起步，14B 需要 16GB，32B 需要 24GB 显存
混合方案：本地模型处理简单任务，云端模型处理复杂任务，实现最佳性价比

📥 想获取更多 OpenCode 资源？

扫码加入「大熊掌门AI编程会员群」：

企业微信群二维码

进群即领：

📄 Claude Code 入门指南 PDF（群内领）

专栏更新中，后续解锁：

📁 OpenCode 完整配置模板库
📝 5个常用自定义命令模板
📋 AGENTS.md 规则模板
📖 本专栏完整版 PDF 电子书（约20篇文章整合）

群内还有：

每周技术干货分享
问题答疑
付费内容专属优惠