【工具分享】Ollama 开源模型分类汇总与选型指南

8 min

Ollama 支持的各类开源大模型分类汇总与使用推荐

更新时间:2026年5月

简介

Ollama 是一款开源的本地大模型运行工具,支持在 Mac、Linux、Windows 上本地部署运行开源大语言模型。

核心特点

  • 一键运行:一条命令即可拉取并运行模型
  • 跨平台:支持 macOS、Linux、Windows
  • 硬件优化:自动识别并调用 GPU 加速
  • 模型丰富:支持数百种开源模型
  • API 兼容:提供 REST API,方便集成

官方资源


快速开始

安装

系统命令
macOSbrew install ollama 或下载安装包
Windows下载 OllamaSetup.exe
Linuxcurl -fsSL https://ollama.com/install.sh | sh

基础命令

# 查看版本
ollama --version

# 拉取并运行模型
ollama run llama3.1

# 查看已下载的模型
ollama list

# 查看模型信息
ollama show llama3.1

# 删除模型
ollama rm llama3.1

REST API

# 对话生成
curl -X POST http://localhost:11434/api/generate \
  -d '{"model": "llama3.1", "prompt": "你好"}'

# 嵌入生成
curl -X POST http://localhost:11434/api/embeddings \
  -d '{"model": "nomic-embed-text", "prompt": "文本"}'

模型分类

1. 通用大语言模型

最常用的一类,适合日常对话、写作、问答等任务。

模型参数特点热度
Llama 417B ~ 405BMeta 最新旗舰,多模态⭐⭐⭐⭐⭐
Llama 3.370B高性价比,接近 405B 性能⭐⭐⭐⭐⭐
Llama 3.18B / 70B / 405B主流选择,支持工具调用⭐⭐⭐⭐⭐
Llama 3.21B / 3B轻量级,边缘设备⭐⭐⭐⭐
Qwen30.6B ~ 235B阿里最新,中文优化⭐⭐⭐⭐⭐
Qwen2.50.5B ~ 72B成熟稳定,多语言⭐⭐⭐⭐
Gemma 42B ~ 31BGoogle 最新,多模态⭐⭐⭐⭐
Gemma 3270M ~ 27B单 GPU 最强,支持视觉⭐⭐⭐⭐
Mistral7B欧洲最强开源⭐⭐⭐
DeepSeek-V3671B (MoE)国产旗舰,性价比高⭐⭐⭐⭐
GLM-5744B (MoE)智谱最新,代码能力强⭐⭐⭐⭐

运行命令:

ollama run llama3.1          # 通用对话
ollama run qwen3             # 中文对话
ollama run gemma3            # Google 模型
ollama run mistral           # 欧洲模型

2. 推理/思维模型

专门用于复杂推理、数学、代码等需要”思考”的任务。

模型参数特点
DeepSeek-R11.5B ~ 671B推理能力接近 o3
GPT-Oss20B / 120BOpenAI 开源推理模型
Qwen3 (thinking)0.6B ~ 235B原生支持推理模式
Qwen3.50.8B ~ 122B多模态 + 推理
QwQ32BQwen 推理专用
Phi4-Reasoning14B小身材强推理
Cogito3B ~ 70B混合推理模型
DeepScaler1.5B数学推理专精

运行命令:

ollama run deepseek-r1:7b    # 推理任务
ollama run qwq               # Qwen 推理专用

3. 代码生成模型

专精代码编写、调试、重构。

模型参数特点
Qwen3-Coder30B / 480B (MoE)阿里代码模型
Qwen2.5-Coder0.5B ~ 32B成熟稳定
DeepSeek-Coder V216B / 236B (MoE)比肩 GPT4-Turbo
CodeGemma2B / 7BGoogle 代码模型
Codestral22BMistral 代码模型
CodeLlama7B ~ 70BLlama 代码版
Granite-Code3B ~ 34BIBM 企业代码

运行命令:

ollama run qwen3-coder:7b         # 代码生成
ollama run qwen2.5-coder:7b       # Qwen2.5 代码版
ollama run deepseek-coder:6.7b    # DeepSeek 代码

4. 视觉/多模态模型

支持图像理解、图文问答。

模型参数特点
Llama 417B ~ 405BMeta 最新多模态
Llama 3.2 Vision11B / 90BLlama 视觉版
Qwen3-VL2B ~ 235B阿里最强视觉模型
Qwen2.5-VL3B ~ 72B成熟视觉模型
Gemma 4多尺寸Google 视觉增强
LLaVA7B / 13B / 34B经典多模态
MiniCPM-V8B国产轻量视觉

运行命令:

ollama run llama3.2-vision:11b    # Llama 视觉版
ollama run qwen2.5vl:7b           # Qwen 视觉版

5. 嵌入模型

用于文本向量化,常用于 RAG、语义搜索。

模型参数特点
Nomic-Embed-Text最热门嵌入模型
MXBAI-Embed-Large335M高性能嵌入
Qwen3-Embedding0.6B / 4B / 8BQwen 嵌入模型
BGE-M3567M多语言嵌入
Snowflake-Arctic-Embed22M ~ 335M多种尺寸

运行命令:

ollama run nomic-embed-text       # 最常用嵌入
ollama run mxbai-embed-large      # 高性能嵌入

6. 语音/TTS 模型

语音合成相关模型。

模型特点
Qwen3-TTS阿里语音合成,支持克隆/定制

运行命令:

ollama run qwen3-tts:12hz-1.7b-voicedesign   # 1.7B 语音合成
ollama run qwen3-tts:12hz-0.6b-voicedesign   # 0.6B 轻量版

7. 轻量/设备端模型

专为低配置设备优化。

模型参数适合场景
SmolLM2135M ~ 1.7B极低资源
TinyLlama1.1B超小体积
Llama 3.21B / 3B边缘设备
Phi-3 Mini3.8B微软轻量模型
Gemma 3n2B ~ 4B平板/手机

运行命令:

ollama run smollm2:1.7b          # 轻量对话
ollama run tinyllama             # 超小体积

8. 企业/专业模型

面向企业用户的商业级模型。

模型参数提供方
Hermes 33B ~ 405BNous Research
Nemotron-3-Super120B (MoE)NVIDIA
OLMo 27B / 13BAI2 透明开源
Granite 3.1 MoE1B / 3BIBM
Command-R35B对话/RAG 优化

9. MoE 混合专家模型

稀疏激活的大模型,高效率。

模型总参数激活参数
DeepSeek-V3671B37B
Qwen3235BMoE
Mixtral8×7B / 8×22BMoE
GLM-5744B40B

模型推荐速查表

使用场景推荐模型最低配置命令
日常聊天Llama 3.1 8B8GB RAMollama run llama3.1
中文对话Qwen3 4B8GB RAMollama run qwen3
代码生成Qwen3-Coder 7B8GB RAMollama run qwen3-coder
复杂推理DeepSeek-R1 7B8GB RAMollama run deepseek-r1:7b
图像理解Llama 3.2 Vision 11B12GB RAMollama run llama3.2-vision:11b
语音合成Qwen3-TTS 0.6B6GB RAMollama run qwen3-tts:12hz-0.6b-voicedesign
轻量/边缘SmolLM2 1.7B4GB RAMollama run smollm2
嵌入/RAGNomic-Embed-Text4GB RAMollama run nomic-embed-text

硬件配置建议

按模型大小

模型大小显存/内存需求推荐显卡/设备
1B 以下4GBRTX 3060 / Mac M1
3B - 7B8GBRTX 4060 / Mac M2
8B - 13B16GBRTX 4080 / Mac M3 Pro
30B - 70B40GB+RTX 4090 / A100 / Mac M3 Max
100B+80GB+H100 / 多卡

量化对显存的影响

精度显存节省质量影响
FP16基准最佳
INT8-50%轻微下降
INT4/Q4-75%可接受

常见问题

Q: 如何查看所有可用模型?

# 访问官方模型库
open https://ollama.com/library

# 或搜索模型
ollama search llama

Q: 模型下载太慢?

# 设置镜像源(国内)
export OLLAMA_HOST=https://region.ollama.ai

# 或使用代理
export HTTP_PROXY=http://127.0.0.1:7890

Q: 如何同时运行多个模型?

# 在不同端口启动多个实例
OLLAMA_HOST=127.0.0.1:11435 ollama serve

Q: 如何自定义模型参数?

创建 Modelfile

FROM llama3.1

PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096

SYSTEM "你是一个有用的助手"

然后运行:

ollama create my-model -f Modelfile
ollama run my-model

参考资料