模型的调优

Administrator

2026-05-29

模型

目前的生产场景中，模型调优分为两种，第一种就是公网模型的调优，第二种就是机器学习的模型调优，按照目前的情况来看，我做公网模型的调优的场景会多一点，第二种在生产场景中几乎没有遇到；

公网模型调优：

往往在用 MaxKB 智能体平台中，客户在使用一些公网模型老是发现回答出现幻觉（答非所问、胡编乱造）的场景

1.通过提示词进行约束

你只能根据提供的资料回答问题。
如果资料中没有答案，请回答“资料中没有相关信息”，不要编造。

如果你不确定答案，请明确说明不确定。
不要编造事实、数据、链接、论文、法律条文或 API。
对于缺少依据的信息，请标注为推测。

2.降低温度

如果是类似法律法规这种事实类的回答，需要将temperature设置为0，或者0.2；

3.明确拒答边界

以 RAG 知识库问答场景而言，对于知识库外的问题应该拒绝回答；

如果问题超出资料范围，请不要回答具体结论，只说明无法确认。

本地模型调优：

1.量化版本的选择

当算力有限的时候，可以选择低精度的模型，减少显存占用提升推理速度；通常在 GB10 小盒子中，都会现在 FP8 量化后的模型，比如Qwen3.6-35B-A3B-FP8/Qwen3.5-35B-A3B-FP8 的模型；

2.推理框架选择

Ollama、LM Studio、llama.cpp、VLLM、SGLang、TensorRT-LLM 等推理框架的选择

个人电脑部署小模型：Ollama / LM Studio / llama.cpp

生产环境：vLLM / TensorRT-LLM / SGLang