Ollama

Name: Ollama
Brand: Ollama
Availability: InStock
Rating: 4.8 (7800 reviews)

新收录

本地大模型运行工具，一键部署Llama 2/Qwen/DeepSeek等开源模型，支持GPU加速。Ollama是本地运行大语言模型的最佳选择。

核心功能

一键部署

GPU支持

模型管理

REST API

跨平台

热加载模型

评分详情

4.8

登录后评分

7800 条评价

易用性

4.8

功能丰富度

4.6

性价比

4.9

替代工具

LM Studio AnythingLLM

登录后参与评论

加载评论中...

能力拓展

一键部署

点击了解该能力的详细应用场景

GPU支持

查看该能力在实际使用中的表现

模型管理

探索该能力如何提升工作效率

REST API

了解该能力的最新更新和优化

提示：大多数AI工具支持API接入，您可以根据需要在第三方应用或自动化工作流中集成使用。该工具提供免费版本，建议先体验再决定是否付费升级。

更新说明

如何使用Ollama

安装Ollama客户端

macOS用户下载 dmg 安装包直接安装，Windows用户使用安装包或WSL2环境，Linux用户运行官方安装命令: curl -fsSL https://ollama.com/install.sh | sh。安装完成后在终端运行 ollama --version 验证

拉取并运行模型

使用 ollama pull 命令下载模型，如 ollama pull llama3.2 或 ollama pull mistral。首次运行自动下载模型文件到 ~/.ollama/models。常用模型: llama3.2(8B)、mistral(7B)、codellama(代码)、nomic-embed-text(向量)

通过API或CLI对话

CLI方式直接运行 ollama run llama3.2 开始对话。支持OpenAI兼容API: 启动服务 ollama serve 后访问 http://localhost:11434/v1/chat/completions。也可配置Ollama作为LangChain、LlamaIndex等框架的后端

立即开始使用

适用场景

隐私敏感的本地AI应用

医疗、金融、法律等行业需要数据不出本地时，使用Ollama部署Llama3/Mistral模型，所有对话数据保存在本地机器，配合LangChain构建内部知识问答系统

开发者本地调试LLM应用

使用Ollama的OpenAI兼容API快速原型开发，切换模型只需修改模型名无需改代码。支持流式输出，便于调试ChatGPT插件或Claude API应用

低配电脑体验大模型

7B参数模型如Llama3.2、Qwen2.5可在8GB显存GPU或16GB内存CPU机器运行，4bit量化后更低。适合没有高端显卡但想本地体验大模型的用户

企业内网AI基础设施

在内网服务器部署Ollama作为统一推理服务，支持多用户并发访问。可通过Modelfile自定义模型提示词模板，Docker容器化部署实现快速扩缩容

使用技巧

GPU加速：确保安装了NVIDIA驱动+CUDA，Ollama自动识别GPU。Mac M系列芯片自动使用Metal加速，无需额外配置
模型量化：生产环境推荐使用4bit量化模型(如*-q4_0)，文件体积减少60%且质量损失最小，显存需求从16GB降至8GB
Modelfile自定义：创建 ./Modelfile 编写FROM基础模型+PARAMETER+SYSTEM+TEMPLATE，可打造专属聊天机器人模板
多模型管理：ollama list 查看已下载模型，ollama rm <model> 删除不需要的模型释放空间，模型默认存储在 ~/.ollama/models/