ollama 部署自己微调过的.safetensors模型

Ollama现已支持直接导入safetensors格式模型，无需转换为GGUF格式。用户需创建Modelfile文件配置导出参数，包括模板设置、系统参数及运行参数（如停止标记、上下文长度等）。使用时通过命令行执行"ollama create"命令加载模型，常见错误包括：Modelfile含中文导致解析失败，以及显存不足引发的CUDA错误（可通过nvidia-smi检查显存占用）

fengyuuuuuu

785人浏览 · 2025-07-20 10:48:29

fengyuuuuuu · 2025-07-20 10:48:29 发布

ollama已经支持safetensors类型直接导入，不需要再转换成GGUF

Modelfile文件

需要一个Modelfile控制导出参数

Modelfile：

FROM .

TEMPLATE """<｜begin▁of▁sentence｜>{{ if .System }}{{ .System }}{{ end }}{{ range .Messages }}{{ if eq .Role "user" }}<｜User｜>{{ .Content }}<｜Assistant｜>{{ else if eq .Role "assistant" }}{{ .Content }}<｜end▁of▁sentence｜>{{ end }}{{ end }}"""

PARAMETER stop "<｜end▁of▁sentence｜>"
PARAMETER num_ctx 4096

Parameter是模型使用时的参数，可用参数如下，有默认值，如果有需求可以自行修改

除了Parameter还有Template、system等参数可以参考：Modelfile 说明文档

ollama/docs/modelfile.md at main · ollama/ollama · GitHub

ollma导入模型

然后启动cmd操作ollama，输入：

cd 你的模型位置
ollama create 你的模型名称 -f Modelfile

报错情况：

1、Modelfile文件中不要有中文，不然会报错Error: EOF

2、Error: llama runner process has terminated: error loading model: unable to allocate CUDA0 buffer。这是显存不够了

nvidia-smi查看显存使用情况

智源数据社区

更多推荐

bert4keras预训练模型加载指南：支持BERT、RoBERTa、ALBERT

🤖 bert4keras是一个轻量级的Keras版Transformer模型库，让你能够快速加载BERT、RoBERTa、ALBERT等主流预训练模型，为自然语言处理任务提供强大支持！## 📋 项目简介bert4keras是一个专为人类设计的keras版transformer实现，核心目标是提供清晰、轻量级的代码，让你能够轻松加载和使用各种预训练模型。无论你是NLP新手还是资深开发者，

智源数据社区

AI大模型微调~笔记本配置

最后提醒：如果只是学习微调小模型（如1.7B），RTX 4060/4070也够用；但若想长期深入，建议尽量投资。注：品牌也可选戴尔Alienware、惠普暗影精灵等，重点看GPU和散热。

智源数据社区

零代码微调大模型：3步掌握LLaMA Factory核心功能

想要轻松微调上百种大型语言模型却担心编程门槛？LLaMA Factory正是为您量身打造的解决方案！作为业界领先的无代码大模型微调框架，LLaMA Factory让技术新手也能快速上手，在图形化界面中完成复杂的模型定制任务。无论您是希望构建个性化AI助手，还是需要针对特定领域优化模型性能，这个工具都能帮您实现从入门到精通的飞跃。## 🚀 快速入门：环境搭建与项目部署### 准备工作检查清