探讨一下不同行业对于模型的选型

12

本章是用来总结一下,AI 迅速发展的这两年,我负责过的项目客户,他们在自己行业中选择的模型和我对这些模型在使用方面的一下看法吧。

教育行业

国内大学中约50个客户左右:(一个客户可能使用的模型系列是多种的)

使用Qwen系列的占65%,使用ChatGPT的有42%,使用方舟的有18%,使用kimi的有5%,使用百度的有2%

其中,Qwen之所以使用这么高,还是因为Qwen-image-Tubro这个文生图和Qwen3-VL-8B的图片理解模型,这几个模型需要的本地算力不算很高且性能强大,在25年中旬火了好一阵,当时处理一些学术PDF 格式的文档或者图片,处理效果是相当不错,GPT是在学术研究中还是遥遥领先,比国内模型还是高出一截的感觉,有些客户他们会用GPT(目前最新的GPT5.5)做的智能体用于实验室里的学术研究,(这里我也问了我的一些硕博同学,他们在实验室中,用GPT居多),还有一些可能是合作的关系,用的一些冷门的模型供应商,天翼云模型、光明大模型等。2%百度用的是PaddleOCR 这个OCR解析模型,他们有一些各种各样格式的文档,需要OCR解析成可入库的文档进行入库。

软件行业

因为本公司就是处于软件行业,而且不同的软件公司他们模型使用方向是不同的,不像教育行业,他们使用场景的大方向是不会变的,比如他们用模型通常就是来处理学术研究,文档解析和一些校园内部的一些智能助手,而软件行业,因为公司的业务不同,他们使用的场景就会很广,这里我就以本公司的使用场景来说,用得最多的是Anthropic占36.6%,其次是OpenAI占20.4%,再到DeepSeek和Google都是占13.6%,阿里云和火山的都是占6.8%,其余的占2.2%。

在代码编程这方面Anthropic我认为还是很权威的,除了它的分值比较高之外,还因为Anthropic的模型内部有严格按照架构规范或特定的代码风格指南进行编写的这个规则,而且有研究发现Anthropic的模型(Claude 4.7)在动手写系统级代码之前,会先自己做验证。这意味着它在执行任务之前会先验证方案的可行性,而不是上来就写,写完再改。这样会更加的可靠。

那在日常的一些复杂逻辑,或者长思考推理的事情OpenAl的模型效果是比较好的。常见的场景就是多agent调用,然后最后处理子agent返回的结果进行最终回答。而Gemini 我认为是用于一些多模态的情况下,比如用户对话需要附带图片然后基于图片内容进行提问的这个场景,那有些客户他们是内网环境用不了外网的Gemini 就会用本地部署的视觉模型,目前是 Qwen3-VL-8B-Instruct 是用的比较多的。

制造行业

制造业的客户大多有自己的算力服务器,或者他们会有意向去采购算力去做一些ai落地的想法,但是他们对模型怎么选是不太了解的,一般也是我们会推荐几款本地部署效果比较好的模型,比如2025年比较火的,Qwen3-235B-A22B-Instruct-2507 这种需要多卡才能跑起来的模型(听说硬件是没赚钱,只赚了软件的钱)因为他们的需求其实是想让模型回复足够快,这样用户在使用的时候体验就不会太差,准确度方面就需要MaxKB在数据处理上面下功夫。而且制造行业他们做的智能体都挺类似的,比如电池制造厂商,在生产的过程中对于一些工艺参数的调优都是依赖工程师的经验和反复试错得来的,所以他们会想将工程师的经验知识转为可以传承和复制的知识库,做的是RAG 的工作,对模型的要求不是很高,按照目前的模型性能是能满足现阶段的效果的。目前制造业做的最多的智能体是一些放在官网上供大众使用的智能客户,内部使用的一些内部知识库智能体,和一些配料助手等,大都如此,大差不差。

医疗行业

医疗行业,其实有点结合了教育行业的些许特征,因为医疗行业不管是制药的,做医疗的,他们都会有学术研究类的文档,有学术研究就离不开OCR 文档解析,文档总类包括临床知识、维修知识、学术研究、医疗器械说明书以及法律法规等,这些文档格式包括docx、pdf和ppt。因为都是内部敏感数据,为了不让数据泄漏,采用本地模型部署进行跑数据,有GPT-4o,Qwen3.6系列,Qwen3.5系列和VL 系列都有用到。