本地大模型运行工具,一键部署Llama 2/Qwen/DeepSeek等开源模型,支持GPU加速。Ollama是本地运行大语言模型的最佳选择。
7800 条评价
点击了解该能力的详细应用场景
查看该能力在实际使用中的表现
探索该能力如何提升工作效率
了解该能力的最新更新和优化
提示: 大多数AI工具支持API接入,您可以根据需要在第三方应用或自动化工作流中集成使用。 该工具提供免费版本,建议先体验再决定是否付费升级。
最新更新
macOS用户下载 dmg 安装包直接安装,Windows用户使用安装包或WSL2环境,Linux用户运行官方安装命令: curl -fsSL https://ollama.com/install.sh | sh。安装完成后在终端运行 ollama --version 验证
使用 ollama pull 命令下载模型,如 ollama pull llama3.2 或 ollama pull mistral。首次运行自动下载模型文件到 ~/.ollama/models。常用模型: llama3.2(8B)、mistral(7B)、codellama(代码)、nomic-embed-text(向量)
CLI方式直接运行 ollama run llama3.2 开始对话。支持OpenAI兼容API: 启动服务 ollama serve 后访问 http://localhost:11434/v1/chat/completions。也可配置Ollama作为LangChain、LlamaIndex等框架的后端
医疗、金融、法律等行业需要数据不出本地时,使用Ollama部署Llama3/Mistral模型,所有对话数据保存在本地机器,配合LangChain构建内部知识问答系统
使用Ollama的OpenAI兼容API快速原型开发,切换模型只需修改模型名无需改代码。支持流式输出,便于调试ChatGPT插件或Claude API应用
7B参数模型如Llama3.2、Qwen2.5可在8GB显存GPU或16GB内存CPU机器运行,4bit量化后更低。适合没有高端显卡但想本地体验大模型的用户
在内网服务器部署Ollama作为统一推理服务,支持多用户并发访问。可通过Modelfile自定义模型提示词模板,Docker容器化部署实现快速扩缩容
GPU加速:确保安装了NVIDIA驱动+CUDA,Ollama自动识别GPU。Mac M系列芯片自动使用Metal加速,无需额外配置
模型量化:生产环境推荐使用4bit量化模型(如*-q4_0),文件体积减少60%且质量损失最小,显存需求从16GB降至8GB
Modelfile自定义:创建 ./Modelfile 编写FROM基础模型+PARAMETER+SYSTEM+TEMPLATE,可打造专属聊天机器人模板
多模型管理:ollama list 查看已下载模型,ollama rm <model> 删除不需要的模型释放空间,模型默认存储在 ~/.ollama/models/