模型的调优
目前的生产场景中,模型调优分为两种,第一种就是公网模型的调优,第二种就是机器学习的模型调优,按照目前的情况来看,我做公网模型的调优的场景会多一点,第二种在生产场景中几乎没有遇到;
公网模型调优:
往往在用 MaxKB 智能体平台中,客户在使用一些公网模型老是发现回答出现幻觉(答非所问、胡编乱造)的场景
1.通过提示词进行约束
你只能根据提供的资料回答问题。
如果资料中没有答案,请回答“资料中没有相关信息”,不要编造。
如果你不确定答案,请明确说明不确定。
不要编造事实、数据、链接、论文、法律条文或 API。
对于缺少依据的信息,请标注为推测。2.降低温度
如果是类似法律法规这种事实类的回答,需要将temperature设置为0,或者0.2;
3.明确拒答边界
以 RAG 知识库问答场景而言,对于知识库外的问题应该拒绝回答;
如果问题超出资料范围,请不要回答具体结论,只说明无法确认。本地模型调优:
1.量化版本的选择
当算力有限的时候,可以选择低精度的模型,减少显存占用提升推理速度;通常在 GB10 小盒子中,都会现在 FP8 量化后的模型,比如Qwen3.6-35B-A3B-FP8/Qwen3.5-35B-A3B-FP8 的模型;
2.推理框架选择
Ollama、LM Studio、llama.cpp、VLLM、SGLang、TensorRT-LLM 等推理框架的选择
个人电脑部署小模型:Ollama / LM Studio / llama.cpp
生产环境:vLLM / TensorRT-LLM / SGLang