测评人:闵祺寒,周岱严,杨睿凡
一、前言
随着人工智能技术的飞速发展,大语言模型(Large Language Models, LLMs)已成为推动各生产生活领域变革的核心驱动力之一。2024年至2025年间,国内外科技巨头纷纷推出自研大模型,在文本生成、逻辑推理、代码编写、多模态理解等能力上展开激烈角逐。这些模型不仅在技术架构上持续创新,更在实际应用场景中展现出巨大的商业潜力和社会价值。
本报告旨在对当前国内主流大语言模型进行系统性测评,通过标准化的测试方法和多维度的评估体系,客观呈现各模型的能力边界与特色优势,为企业技术选型、学术研究参考以及普通用户选用AI工具提供有价值的参考依据。
二、参评模型介绍
本次测评共选取6款具有代表性的大语言模型,涵盖深度求索、百度、阿里、字节跳动、月之暗面及腾讯等国内顶尖AI研发团队的产品。
1. DeepSeek-V3.2(深度求索)
开发企业:杭州深度求索人工智能基础技术研究有限公司(DeepSeek)
主要特点:
采用混合专家架构(MoE),总参数量达万亿级别,每次推理激活约320亿参数
在数学推理、代码生成和逻辑分析方面表现突出,支持超长上下文窗口(最高256K tokens)
开源策略激进,以高性价比著称,API调用成本显著低于同类闭源模型
支持多模态输入,具备图像理解和文档解析能力
2. 文心一言(百度)
开发企业:百度(Baidu)
主要特点:
基于百度自研的ERNIE系列大模型架构,深度整合百度搜索生态和知识图谱
在中文知识问答、文学创作和本土文化理解方面具有独特优势
支持插件扩展和工具调用(Function Calling),可与百度智能云及第三方服务深度集成
提供多模态版本,支持文生图、语音交互等能力
3. 通义千问 Qwen3-Max-Thinking(阿里云)
开发企业:阿里巴巴达摩院(Alibaba DAMO Academy)
主要特点:
Qwen3系列旗舰版本,采用Thinking模式增强深度推理能力
支持长达百万字符的上下文处理,在文档分析、长文本摘要等任务中表现优异
代码能力突出,支持100+编程语言,在HumanEval等代码评测基准上达到业界领先水平
开源生态完善,衍生出大量垂直领域微调模型,适应多样化行业需求
4. 豆包(字节跳动)
开发企业:字节跳动(ByteDance)
主要特点:
依托字节跳动强大的内容生态,在短视频脚本创作、社交媒体文案生成方面独具特色
语音交互能力出色,支持多种方言识别和情感化语音合成
与抖音、飞书等产品深度整合,提供原生的办公协作和内容创作体验
模型响应速度快,在实时对话和多轮交互场景中流畅度较高
5. Kimi Chat(月之暗面)
开发企业:月之暗面科技有限公司(Moonshot AI)
主要特点:
以超长上下文处理能力著称,标准支持200万字上下文窗口,领先行业水平
擅长长文档分析、论文解读、法律合同审查等需要处理海量文本的场景
在复杂推理和多步骤任务执行中表现稳定,具备较强的指令跟随能力
专注于对话质量优化,支持联网搜索和文件上传解析
6. 元宝(腾讯)
开发企业:腾讯(Tencent)
主要特点:
基于腾讯混元大模型架构,融合腾讯在社交、游戏、内容领域的深厚积累
在角色扮演、创意写作和情感陪伴类应用中表现生动自然
与微信、QQ、腾讯文档等国民级应用生态无缝衔接
多模态能力全面,支持图像生成、视频理解及3D内容创作,在娱乐和社交场景应用广泛
三、测评方法
(1)测评维度
本次测评从以下5个核心维度对模型进行综合评估,每个维度满分10分:
复杂需求解析力: 识别任务中隐性矛盾与多重约束,并理清其优先级的能力。
思维过程可见性: 展示推理步骤、权衡不同方案,使思考路径清晰透明的能力。
具体化与可操作性: 将抽象目标转化为带有细节、可被执行和验证的具体措施的能力。
交互中的适应性 (追问后): 在对话中有效整合反馈,对方案进行连贯迭代和优化调整的能力。
创新与发散能力: 在方案设计中给出不常见思路,或在基础要求上发散的能力
(2)测试场景
在6个典型应用场景(Demo)中对各模型进行实测,场景涵盖生活、职业、个人规划等方面
四、测评结果
各demo结果
Demo 1:北京旅游
为一家 5 人设计北京 5 天旅行( 外公外婆70 多岁,儿子儿媳35 岁,女儿 6 岁),要求:外公外婆不能走太多路,需适配轮椅通道,女儿要有趣味互动项目,父母想兼顾文化体验与拍照出片,预算人均 1500 元(含住宿交通门票餐饮),住宿需近地铁且有电梯,每天行程不超过 6 小时,避开网红扎堆景点。 追:1.老人不想去长城,车程太长;2. 预算超了,酒店换经济型(含电梯 + 近地铁);3.增加户外自然场景;4. 每天中午要留 1 小时给孩子午睡。
各模型表现:
- 1.DeepSeek:
复杂需求解析力: 8/10
deepseek提及的“尺木神奇世界”票价昂贵,直接超出预算。规划时间的时候只考虑了游玩时间而忽视了通勤时间。
思维过程可见性: 7/10
deepseek还是给出了比较清晰的选择理由的。比如“我会重点考虑那些经过无障碍改造的场所”等语句和链接的列举。但是其对于单个的景点选择却没有理由解释。
具体化与可操作性: 6/10
deepseek没有指明酒店价格、品牌,只是模糊的提供推荐区域范围,且对于餐饮、门票、交通的信息都较模糊,没有经过仔细核实就“估计”,空想程度高。
交互中的适应性 (追问后): 9/10
deepseek的重组方案能力还是比较好的,最后给出的方案没有很强的割裂感。
- 2.文心一言:
复杂需求解析力: 6/10
文心一言出行时间几乎每日超标,且没能考虑无障碍的要求,甚至没有能避开网红景点,能力较差。值得一提的是,文心一言是6个ai中唯一一个在第一版方案中提出要去长城的,显得有点呆板(看到北京就想到长城)。
思维过程可见性: 7/10
文心一言概括出了选择的方向,但没有对单个景点进行具体分析。
具体化与可操作性: 6/10
文心一言多次提及把"豆汁"作为正餐,没有考虑到很多人不喜欢喝豆汁,不会尝试第二次,且豆汁不适合作为正餐。虽然提出的建议有一些问题,但充满细节的方案又弥补了这一点,不过需要用户自己一一核实,只能说勉强及格。
交互中的适应性 (追问后): 7/10
文心一言的适应性较差,如果把通勤时间计算在午餐里,每天只预留30 分钟吃饭(在旅游期间这基本上做不到),如果计算在午睡时间里,则做不到每天午睡1小时,方案逻辑连贯性差。
- 3.通义千问:
复杂需求解析力: 7/10
没有避开网红景点。
思维过程可见性: 9/10
推理过程比较清晰。
具体化与可操作性: 5/10
就留30分钟吃午饭太局促了。而且餐饮预留的钱也比较少。
交互中的适应性 (追问后): 9/10
逐步迭代方案,适应性强。
- 4.豆包:
复杂需求解析力: 9/10
豆包在这一方面的表现较好,不过仍有瑕疵(第三天的时间安排仓促)。总体上达成了用户给出的要求。
思维过程可见性: 9/10
豆包在推荐景点时会给出该景点的亮点和推荐理由,较为直观。后续修改方案时给出的替换项也有理由支撑。
具体化与可操作性: 7/10
列出了门票价格,具体直观。提出的方案具有可执行性。但是没考虑通勤时间,导致实际可能无法执行。
交互中的适应性 (追问后): 9/10
最后生成的方案得到了有效整合,满足了用户所有需求。
- 5.Kimi:
复杂需求解析力: 6/10
方案给每个人预留700机动,代价是体验的缺失,为了省钱而省钱。
思维过程可见性: 7/10
在克扣花费的时候缺少理由(如为什么要删掉某一个环节)。
具体化与可操作性: 8/10
细节很丰富,具体到什么店多少钱,甚至考虑了通勤时间,就是午睡和吃饭太仓促了。
交互中的适应性 (追问后): 8/10
三次反馈都做了结构性调整:降预算、换自然、加午睡。
- 6.元宝:
复杂需求解析力: 5/10
留30分钟吃饭不可行。也没能避开网红景点。
思维过程可见性: 8/10
展示了推理步骤。
具体化与可操作性: 6/10
依旧没考虑通行时间。
交互中的适应性 (追问后): 8/10
用户每轮追加需求都能在极短时间内整合进原有框架,且保持文本结构清晰。
总结: 总体来说,在demo1中,各个模型的表现都不尽如人意。在面对6小时限制的时候,只有kimi和千问考虑了通勤时间。Ds、豆包和kimi避开了网红景点,但kimi又有过度追求省钱导致旅行体验大打折扣的缺点。这说明大语言模型在面对隐形限制条件的现实问题时仍有提升空间。
Demo 2:家庭育儿沟通协调
小王的家庭构成包括一对30多岁的上班族夫妻、帮忙带孩子的祖父母和2岁的孩子。现在在育儿观念上发生严重冲突:老人习惯“追着喂饭、哭闹即抱”,妻子坚持“科学育儿、建立规矩”,家庭气氛紧绷。要求:作为沟通中间人,请先分析双方的核心心理需求;设计“家庭沟通周会”议程,包括会议目标、流程、规则等,以促进理解与合作;为小王草拟两段话,一段用于私下安抚父母,一段用于与妻子达成育儿战线统一。追:如果父母以“回老家”作为要挟,请帮小王制定一个包含育儿嫂预算与应急社交安排的“应急备选方案”。父母同意退让,但要求每月支付 2000 元“劳务补偿”,妻子认为这伤害了亲情,请提供一个协调此矛盾的沟通方案。
各模型表现:
- 1.DeepSeek:
复杂需求解析力: 9/10
做到了分别解析四方需求并给出方案,对需求的洞察较为中肯。
思维过程可见性: 9/10
展现了清晰的思维步骤。周会的环节设计也有原因解释,逻辑清晰可见。
具体化与可操作性: 6/10
生成的话术虽然逻辑可行,但是ai味太重了,过于文绉绉。总的来说有一定参考价值,但是有脱离实际之嫌。
交互中的适应性 (追问后): 9/10
在打感情牌的时候表现相当不错,找的切入点立足实际。
- 2.文心一言:
复杂需求解析力: 9/10
对于妻子和父母心理的剖析比较深刻。
思维过程可见性: 7/10
家庭周会方案提出有点生硬,没有告诉用户每一个步骤设计的用意。
具体化与可操作性: 6/10
说话太端着了,“祖辈宠爱日"等设想不切实际,不契合一家人生活在一起的随意感。
交互中的适应性 (追问后): 9/10
角色扮演得不错,面对"要挟"和"金钱分歧"等突发压力提出的方案大多有参考价值。
- 3.通义千问:
复杂需求解析力: 9/10
对妻子、丈夫、父母的心理需求剖析很彻底。能识别出目标。
思维过程可见性: 8/10
深度思考过程还是比较清晰的。
具体化与可操作性: 5/10
说话不够接地气,感觉不像一家人而是在语文课本里认识的。6个ai中唯一一个在最后父母提出2000元要求的时候一分钱没给的,补偿方案是教孩子方言和带老人吃火锅,一方面老人生日出去吃诚意没那么足,另一方面教孩子方言会不会让孩子有点紊乱呢?考虑到妻子追求科学育儿,可能会对这件事有点顾虑。老人生日出去庆祝这样一件小事居然被当作补偿方案,有被觉得抠门的嫌疑,综合看来这个台阶递的不够好,甚至有可能激化家庭矛盾(如有了小家不顾父母)。
交互中的适应性 (追问后): 8/10
一直在现有方案的基础上进行迭代和调整,这部分还不错。
- 4.豆包:
复杂需求解析力 :9/10
对需求的平衡做的相当到位。
思维过程可见性: 8/10
提出建议的理由并没有完全展现,不过一部分可以通过用户自身的常识和推理来弥补。
具体化与可操作性: 8/10
说话很圆滑,很贴近现实生活,给人的感觉像一个精明的"社会人”。给出的方案也很具体,可执行性高。提出"禁止翻旧账"等建议相当实际,不是瞎套公式,有参考价值。
交互中的适应性 (追问后): 10/10
对角色身份的拿捏特别到位。没有特别明显的问题。
- 5.Kimi:
复杂需求解析力: 9/10
能够识别任务的关键点。
思维过程可见性: 7/10
推理过程略显生硬。但总体上给出了行为背后的逻辑和理由。
具体化与可操作性: 7/10
一般,“情绪气象台"之类的方案太尬了,不具有实操价值。但是提出了一些矛盾转移的方法还是比较合理的。
交互中的适应性 (追问后): 8/10
不知道为什么突然蹦出几个英语单词……
- 6.元宝:
复杂需求解析力: 9/10
做到了同时平衡"老人(尊重感/有用性)"、“妻子(科学育儿/掌控欲)"、“孩子(健康成长)“以及"小王(角色不缺位/家庭和谐)“四个维度的核心诉求。
思维过程可见性: 8/10
推理过程比较清晰明了。
具体化与可操作性: 6/10
给出的话术太端着了,不够接地气,和交谈场合不搭。方向可以参考。
交互中的适应性 (追问后): 8/10
迭代过后生成的方案富有逻辑性。
总结: 在demo2中,豆包的表现最为出色,“见人说人话,见鬼说鬼话”,像一个圆滑的社会人。其他ai的能力则相对弱些,有话术过于书面化/方案尴尬不像一家人等问题(文心一言、千问、元宝比较严重)。这表明不同模型的发展侧重点不同,豆包可能是社交性特化地最好的。
Demo 3:手工制品小微创业启动
一位擅长制作原创皮革钥匙扣和手机壳的业余爱好者,希望在业余时间(每周约10小时)尝试通过线上渠道销售作品并建立个人品牌,赚取额外收入。目前零经验,启动资金3000元。请为其制定一个为期三个月的启动方案,涵盖:
平台选择与店铺搭建核心步骤
首批产品定价与成本控制策略
从零启动的初期引流方法
个人品牌故事与视觉风格构建建议
设计一个简单的“月度运营复盘”清单,用于持续优化
追问:
我发现制作耗时远超预期,导致定价缺乏竞争力。请帮助分析是优化流程、提价还是调整产品线。
有顾客提出定制需求,但与现有产品差异大。请分析利弊,并制定是否接受定制及如何收费的决策框架。
三个月后,销量未达预期。请提供一套诊断思路和2-3个具体的调整策略。
各模型表现:
- 1.DeepSeek:
复杂需求解析力: 9/10
完美洞察了"业余爱好者"与"商业变现"之间的矛盾。它不仅看到了3000元的预算限制,更精准识别了"每周10小时"的时间瓶颈,因此坚决反对做"大而全"的电商,直接锁定"闲鱼+小红书"的轻量化路径,极其精准。
思维过程可见性: 7/10
每个建议前都清晰地展示了提出建议的原因,如为什么不建议开店、为什么要做内容等。通过层层递进的文字说明,让用户能够跟随它的思路,理解每一个决策涉及到的考虑因素。
具体化与可操作性: 9/10
提供了非常具体的操作步骤,如"前两周专注养号”、“发布3-5款定制款”、“每周至少发布2条视频"等,且大量运用举例、一句话概括,让用户能够快速理解并执行。
交互中的适应性 (追问后): 9/10
在追问环节,对每个问题提出了多处可能的原因,并针对不同原因提供了具体的解决方案,如针对"耗时"问题,提出了"优化手工流程”、“调整产品线"等多种层级的建议,方便用户根据实际情况选择执行。并且,结尾还对用户进行鼓励,增强了用户的信心和动力。
- 2.文心一言:
复杂需求解析力: 3/10
严重失误。虽然第一阶段尚可,但第二阶段完全丧失了对"小微创业"语境的把控。用户明明只有3000元预算,它却建议引入"激光切割机+CAD”、“AGV机器人”、“建设恒温恒湿车间”,完全脱离了用户画像。
思维过程可见性: 3/10
没有任何思维过程可见性,直接陈列结论,而没有阐述任何理由;并且,结论本身与用户场景完全不符,显示出它在理解用户需求方面的严重缺陷。
具体化与可操作性: 3/10
第一次交互提供的方案基本具体,但是金额分配等过于生硬,没有提供调整空间;第二次交互时,虽然给出了具体的数据(如温度控制在22度),但对于在出租屋做手工的用户而言,这些建议的可操作性为零,属于"正确的废话”。
交互中的适应性 (追问后): 2/10
极差。首次交互时尚可针对场景答复;但当追问时,面对用户提出的"耗时"痛点,它没有提供适合个人的手工优化技巧,而是直接建议上工业流水线。这种无法根据上下文调整回复层级的问题,是严重的交互失败。
- 3.通义千问:
复杂需求解析力: 8/10
非常敏锐地捕捉到了"资金少"和"零经验"的特点。方案中反复强调"不买专业设备”、“用手机拍”,并精准指出小红书用户是为故事买单而非为时长买单,通过重构定价逻辑来解决业余爱好者的收入焦虑。
思维过程可见性: 8/10
展示了比较清晰的电商运营思维。特别是在分析"为什么不提价"时,通过对比"用户感知价值"和"人工成本"的矛盾,推导出必须优化流程而非简单涨价的结论,逻辑链条完整且具有说服力。
具体化与可操作性: 9/10
战术层面的建议非常落地。例如提出"佣金制KOC"替代"免费送样”,以及"15元小样测试市场"的策略,都是电商实战中非常有效的低成本手段,用户可以直接照做,试错成本极低。
交互中的适应性 (追问后): 8/10
应对非常灵活。面对定制需求,给出了"分级收费"的具体策略;面对销量不佳,给出了"两周行动清单”,这种分阶段的急救包非常适合陷入迷茫的新手,但在情绪价值的提供上略逊于DeepSeek。
- 4.豆包:
复杂需求解析力: 7/10
对平台规则的解析是其强项,准确识别了小红书新号冷启动的流量机制。但在对"业余时间极度有限"这一核心约束的理解上,不如DeepSeek那样决绝(如直接建议砍掉耗时款),显得稍微有些保守。
思维过程可见性: 8/10
擅长用结构化的方式展示思考。使用了大量的表格和矩阵(如定制决策矩阵、三层漏斗模型)来辅助决策,让用户能看到每一个建议背后的权重和依据,这种呈现方式让复杂的决策过程变得透明。
具体化与可操作性: 7/10
操作步骤清晰,如"前三天养号"、“发布求助帖"等都是很实用的技巧。给出的定价公式(成本x3倍)简单易用,但部分建议(如跨平台引流)对于只有10小时的兼职者来说工作量偏大,执行难度稍高。
交互中的适应性 (追问后): 7/10
在追问中提供的"定制请求评估表"是一个很好的理性工具,帮助用户量化决策。但在解决销量问题时,策略略显常规化(如"优化封面”、“蹭热点”),虽然方向正确,但缺乏让人眼前一亮的针对性策略。
- 5.Kimi:
复杂需求解析力: 5/10
存在明显的判断偏差。在启动阶段建议搭建"微信小程序店铺",对于一个只有3000元预算、零经验且没跑通闭环的个人来说,这增加了不必要的门槛和维护成本,未能精准匹配"极简启动"的需求。
思维过程可见性: 6/10
逻辑平铺直叙,更多是在罗列"应该做什么",而缺乏对"为什么选A不选B"的深度辩证分析。方案看起来面面俱到,但缺乏重点,用户很难从中读懂资源分配的优先级。
具体化与可操作性: 5/10
建议偏向宏观,落地性较弱。例如"加入兴趣社群"、“异业合作"等建议,对于社恐或零资源的个人来说,缺乏具体的执行话术和路径,用户看后可能仍不知道第一步该迈向哪里。
交互中的适应性 (追问后): 6/10
追问回答中规中矩,提出了"时间审计"和"钩子产品"的概念,属于标准的教科书式答案。虽然没有犯大错,但也缺乏针对该用户具体痛点(如心态焦虑、具体工艺瓶颈)的定制化调整。
- 6.元宝:
复杂需求解析力: 5/10
存在明显的判断偏差。在启动阶段建议搭建"微信小程序店铺”,对于一个只有3000元预算、零经验且没跑通闭环的个人来说,这增加了不必要的门槛和维护成本,未能精准匹配"极简启动"的需求。
思维过程可见性: 6/10
逻辑平铺直叙,更多是在罗列"应该做什么",而缺乏对"为什么选A不选B"的深度辩证分析。方案看起来面面俱到,但缺乏重点,用户很难从中读懂资源分配的优先级。
具体化与可操作性: 5/10
建议偏向宏观,落地性较弱。例如"加入兴趣社群"、“异业合作"等建议,对于社恐或零资源的个人来说,缺乏具体的执行话术和路径,用户看后可能仍不知道第一步该迈向哪里。
交互中的适应性 (追问后): 6/10
追问回答中规中矩,提出了"时间审计"和"钩子产品"的概念,属于标准的教科书式答案。虽然没有犯大错,但也缺乏针对该用户具体痛点(如心态焦虑、具体工艺瓶颈)的定制化调整。
总结: DeepSeek表现最优,精准识别瓶颈并给出轻量化方案;文心一言严重失误,脱离用户场景建议工业流水线;通义千问和豆包各有亮点,但均在特定维度逊于DeepSeek。这主要反应模型在小微创业领域的适应性差距,以及在解析力上存在的断层,部分模型在面对非常规生产场景时无法感知差异。
Demo 4:本科大学生学业战略规划
我是上海交通大学人工智能学院的一名大二本科生,正处在大学最关键的十字路口,非常焦虑,希望你能作为我的学业战略顾问提供深度分析。 我的现状与困境: 课程与科研:GPA中等偏上(大约3.8/4.3),对课程涉及的方向(如CV、NLP、强化学习)都感兴趣,但没有明确的“最爱”。想尝试科研,但不知如何联系导师和选择方向,也担心自己能力不足。 实习与竞赛:暑假在即,我面临几个选择:A. 尽全力申请一家大厂(如腾讯、微软)的AI实习(很难);B. 参加一个知名的AI竞赛(如Kaggle、天池);C. 留在学校,尝试进入一个实验室。 我不知道哪个对长期发展最有利。 未来出路:我对 “读研”和 “工作” 没有明显倾向。听说现在顶尖硕士和PhD申请非常卷,而好工作又很看重项目和实践。我感到时间有限,必须做出侧重。 核心焦虑:我感觉身边每个人似乎都有清晰的规划,而我像是在被各种选择推着走,生怕 “一步选错,步步落后” ,浪费了宝贵的本科时间。 针对我的选择困难,请你不要直接告诉我该选哪个,而是为我设计一个个人战略分析框架。这个框架应该能帮助我系统地厘清自己的优势、劣势、短期机会和长期目标。然后,请基于这个框架,为我勾勒出 2-3种截然不同的、时间跨度到本科毕业的个性化发展路线图。最后,请告诉我,在未来一个月内,我最应该完成的、用于降低焦虑和明确方向的一个最小可行行动是什么?
追问:你设计的框架似乎假设“兴趣”是静态的。但本科生的兴趣恰恰是在尝试中动态变化的。你的框架如何容纳这种不确定性?如果我按照路线图A(以科研为主)走了半年后,发现自己其实更喜欢工程,这个框架会如何帮我调整,而不是让我感到计划失败?
各模型表现:
- 1.DeepSeek:
复杂需求解析力: 8.3/10
场景适应:9/10,符合学业/个人规划场景,用语合适,专业性充分;
信息提取:7/10,基本提取了设定信息,但是方案泛化,针对性不足;
忠于需求:9/10,确实根据需求回答(战略分析框架,3种路线图,最小可行行动)
思维过程可见性: 7/10
Deepseek给出"深度思考"过程,但在这个问题中,“深度思考"的内容主要是总结需求和如何组织回答,并不能看到给出建议的逻辑。
具体化与可操作性: 9/10
方案非常具体,且符合现实,完全具有可操作性(可能比现实中的生涯规划更具体)
交互中的适应性 (追问后): 7/10
能流畅地衔接对话、调整方案,但是后文像是在回答一个新的问题,对原方案的回应不足
创新能力: 8/10
有时确实能给人以一种"人类感”,给出的回答不囿于框架,在本问题中的"思维"很细腻周全,会在方案中添加一些有新意有人情味的内容。当然,这很可能是其场景适应的结果之一,在其他场景中需再次评估。
- 2.文心一言:
复杂需求解析力: 7.7/10
场景适应: 7/10,符合需求场景,但回答生硬;
信息提取: 7/10,提取关键信息但未展现出明显针对性;
忠于需求: 9/10,完全忠于需求回答
思维过程可见性: 7/10
未直接给出"思维过程”,不过可以通过追问获得;从思维过程来看信息提取能力可上修,但逻辑性不足
具体化与可操作性: 8/10
较为具体可操作,但细究其实不能完整指导行动,有些泛化
交互中的适应性 (追问后): 9/10
能够对方案连贯调整,对追问内容有针对性,且与原方案联系紧密,逻辑闭环
创新能力: 7/10
在本问题中,方案并没有什么新意,但是能跳出问题框架给出"兴趣跟随能力"的论断,可以给到及格线以上的评价
- 3.通义千问:
复杂需求解析力:8.3/10
场景适应: 8/10,符合个人规划场景,但用语有些矫枉过正,太"亲切"了;
信息提取: 8/10,提取基本信息,且能看出针对性;
忠于需求: 9/10,准确回应需求
思维过程可见性: 9/10
千问提供了"深度思考"过程,对于信息提取、分析步骤、回答大纲都完整展现,可以给到高分
具体化与可操作性: 9/10
足够具体可操作(对每个行为都落实到具体如何做)
交互中的适应性 (追问后):9/10
能对方案连贯修改,切合追问内容,在原方案基础上修改
创新能力:8/10
在本问题的追问中提出的"动态验证循环"框架有启发性且看起来可行,因此给到较高
- 4.豆包:
复杂需求解析力: 8.7/10
场景适应:9/10,符合个人规划场景,用语亲切,专业性充分;
信息提取:8/10,提取基本信息,捕捉"焦虑"核心点,但仍按照"倾向"分类,没有关注到已说"没有明显倾向";
忠于需求:9/10,确实根据需求回答(战略分析框架,3种路线图,最小可行行动)
思维过程可见性: 8/10
豆包有"深度思考"功能。较为完整地展示了回答中每个步骤的逻辑
具体化与可操作性: 7/10
没有具体到"怎么做",“最小可行行动"也显得过大
交互中的适应性 (追问后): 9/10
能连贯地衔接对话、调整方案,对追问的每一句都有回应,并在原方案上修改
创新能力: 5/10
没有提出什么特别的方案,基本就是常见的发展规划。
- 5.Kimi:
复杂需求解析力: 8.3/10
场景适应:9/10,符合学业/个人规划场景,用语合适,专业性充分;
信息提取:8/10,提取设定信息,尤其考虑了AI专业,方案有一定针对性;
忠于需求:8/10,确实根据需求回答(战略分析框架,3种路线图,最小可行行动),但战略分析框架没有回应所有需求
思维过程可见性: 9/10
Kimi有"深度思考"模型,其分析了需求、约束条件,还考虑了传统建议的问题,在此基础上推出方案逻辑,思维过程可见性较好
具体化与可操作性: 8/10
有给出具体操作方法,但不够可行,比如大厂offer不是想要就能拿到的
交互中的适应性 (追问后): 8/10
能够连贯修改方案,针对追问内容分析原方案缺陷,给出修改后的框架
创新能力: 8/10
追问前提出的"收集实验数据"理论和追问后"验证实验循环"都可看作是在一般建议之上的发散,而且也不是胡乱编造名词,解释得较清楚
- 6.元宝:
复杂需求解析力: 6.3/10
场景适应: 6/10,抓住了场景信息,有一定专业性,但个人战略分析框架部分是不清不楚的名词罗列,不够符合建议场景;
信息提取: 6/10,没有看出对"核心焦虑"的解决办法;
忠于需求: 7/10,确实根据需求回答(战略分析框架,3种路线图,最小可行行动),但介于战略分析框架并不符合要求,因此扣分
思维过程可见性: 8/10
元宝有"深度思考"功能,其中整理了需求,也包括了回答中每部分的逻辑
具体化与可操作性: 6/10
没有具体到如何操作,最小可行计划也不够小
交互中的适应性 (追问后): 8/10
对话连贯,回应了追问诉求,也是在原方案上调整,新提出的动态框架和原框架略有割裂,但这可能是因为原框架太单薄了
创新能力: 6/10
没有特别的方案,但在追问环节至少提出了一个"敏捷成长循环”(虽然其中"敏捷"意义不明)
总结: 通义千问与DeepSeek表现最为突出,前者以清晰的思维过程和创新的“动态验证循环”框架赢得高分,后者则在具体可操作性和人性化细腻思考上占据优势。元宝则在战略框架构建上较为单薄,未能精准回应学生痛点。整体而言,通义千问与DeepSeek更擅长处理此类复杂个人规划问题,而创新发散能力仍是多数模型的短板。
Demo 5:机器人企业工程师岗位招聘面试设计
为一家机器人企业(新兴科创企业)的工程师岗位(负责新产品的软件部分开发)的招聘面试设计流程及问题,要求控制时间在30分钟以内,但尽可能全面地考察面试者是否符合岗位要求。
追问:
现时间紧张,需进一步缩减面试流程,如何修改,给出理由。
一位原准备应聘人工智能企业工程师的面试者(人工智能专业,GPA3.8/4.3,有kaggle竞赛经历,大三加入校内实验室,研究方向偏软件)临时应聘前文机器人企业,应聘者的条件不变,每个环节他应如何应对?
各模型表现:
- 1.DeepSeek:
复杂需求解析力: 7/10
场景适应: 8/10,符合职业场景,用语有一定专业性,但是不像是在设计流程,示例占了主要部分;
信息提取: 7/10,能提取设定信息,但对条件和需求的挖掘不够深入;
忠于需求: 6/10,一、三部分能忠于需求完成任务;第二部分要求"缩减流程"时却是将原流程每个环节压缩了预期时间,不算忠于需求。
思维过程可见性: 7/10
“思考"过程展示了对需求的提取分析,一般面试易出现的问题,以及在此基础上推出需要考察验证的内容,但是和实际的回答还有一点脱节,不完全一致。
具体化与可操作性: 7/10
给出具体操作,但是面试流程部分以示例为主,不方便用户带入实际。
交互中的适应性 (追问后): 8/10
能连贯修改方案,对于后半段问题的回答也扣住了前半段内容。
创新能力: 4/10
没有展现明显发散能力,从要求缩减时只会压缩每个环节时间就可见一斑。
- 2.文心一言:
复杂需求解析力: 7/10
场景适应:7/10,符合方案设计场景,但用语普通;
信息提取:7/10,能提取设定信息,但分析不够深入;
忠于需求:7/10,基本忠于需求完成任务,追问缩减流程时主要为压缩时间。
思维过程可见性: 6/10
文心一言不展示思维过程,追问后给出思维过程,包含信息提取、回答逻辑等,但设计部分展示的逻辑还是像在解释合理性而非真正的逻辑。
具体化与可操作性: 7/10
给出具体操作和评分标准,但追问后简单压缩时间,不能保证可操作性。
交互中的适应性 (追问后): 8/10
能连贯修改方案,后半段对前半段面试设计的回应也较为充分。
创新能力: 5/10
基本为正常面试流程及面试者扬长补短,没有明显发散能力。
- 3.通义千问:
复杂需求解析力: 8.7/10
场景适应: 9/10,符合职业场景,有一定专业性,用语合适;
信息提取: 8/10,提取了设定信息和需求,并且对需求有进一步分析;
忠于需求: 9/10,确实按需完成了要求的任务。
思维过程可见性: 9/10
千问给出"深度思考"过程,包含了需求提取和分析,考虑常规面试环节,以及在此基础上的优化逻辑,较为清晰。
具体化与可操作性: 9/10
总述之后再具体说明,考虑较周全,可操作性强。
交互中的适应性 (追问后): 8/10
能够连贯修改方案,后半段面试者建议部分和前半段面试设计联系也较强。
创新能力: 7/10
在给面试者的建议中提出"定位转换”,并非补短而是凸显优势,有一定发散能力。
- 4.豆包:
复杂需求解析力: 7/10
场景适应: 7/10,基本符合职业场景,专业性略显不足;
信息提取: 7/10,能提取出需求,但分析不够深入;
忠于需求: 8/10,能按照需求完成任务。
思维过程可见性: 8/10
豆包有"深度思考"功能,包含需求解析,考虑一般面试流程,然后根据一般面试流程,结合需求点,逐步设计问题。
具体化与可操作性: 7/10
有具体到如何操作,但是任务直接提及以外的部分没有考虑。
交互中的适应性 (追问后): 6/10
能连贯调整方案,但对话衔接不连贯。
创新能力: 4/10
基本看不出发散能力。
- 5.Kimi:
复杂需求解析力: 8.3/10
场景适应: 9/10,符合职业场景,用语合适,专业性充分;
信息提取: 8/10,能提取设定信息,包括时间限制和需求,并分析;
忠于需求: 8/10,忠于需求,并时刻考虑条件,完成需求任务。
思维过程可见性: 9/10
有"深度思考"功能,其分析了需求、约束条件,还考虑了传统建议的问题,在此基础上推出方案逻辑,思维过程可见性较好。
具体化与可操作性: 7/10
尽管给出具体操作,但是1)时间控制不够现实2)大都基于问题-假设回答/假设问题-回答来展开,不具备足够的参考价值。
交互中的适应性 (追问后): 6/10
前半段能够连贯修改方案,但后半段问题跨度较大时,尽管问题明确指出和前半段问题有关,也像是在回答一个新的问题。
创新能力: 6/10
面试设计环节只有问问题没有其他形式,但考虑到额外给出了评分权重、快速决策标准、面试官准备清单,有一定发散能力。
- 6.元宝:
复杂需求解析力: 8/10
场景适应:8/10,较符合职业场景,有一定专业性;
信息提取:8/10,能提取设定信息、时间限制,并分析需求内涵;
忠于需求:8/10,能够根据需求,时刻考虑条件,完成任务。
思维过程可见性: 6/10
元宝有"深度思考"功能,但只是复述要求、列举关键维度,就直接开始组织回答,逻辑不够清晰。
具体化与可操作性: 9/10
给出具体操作,而且难得地给出了浮动空间和灵活调整建议,予以加分。
交互中的适应性 (追问后): 7/10
能连贯调整方案,但后续方案对原方案的回应略显不足。
创新能力: 6/10
尽管有灵活调整建议,但方案本身非常平常,发散能力不足。
总结: 通义千问综合表现最佳。Kimi与DeepSeek紧随其后,前者思维过程清晰但实操性略欠,后者在交互适应性上良好但创新发散较弱。豆包和文心一言整体得分偏低。同时值得一提的是,kimi的回答非常长,这固然一定程度体现其长文本掌握能力,可对于用户来说也有些繁琐。此场景显示,通义千问在职业化、专业性任务中具有显著优势,而多数模型的灵活调整能力仍有提升空间。
五、总评
| 模型名称 | 复杂需求解析力 | 思维过程可见性 | 具体化与可操作性 | 交互中的适应性 | 创新与发散能力 | 平均分 |
|---|---|---|---|---|---|---|
| DeepSeek-V3.2 | 8.3 | 7.4 | 7.4 | 8.4 | 6.0 | 7.5 |
| 文心一言 | 6.5 | 6.0 | 6.0 | 7.0 | 6.0 | 6.3 |
| 通义千问 Qwen3-Max-Thinking | 8.2 | 8.6 | 7.4 | 8.4 | 7.5 | 8.0 |
| 豆包 | 8.1 | 8.2 | 7.2 | 8.2 | 4.5 | 7.2 |
| Kimi Chat | 7.3 | 7.6 | 7.0 | 7.2 | 7.0 | 7.2 |
| 元宝 | 6.7 | 7.2 | 6.4 | 7.4 | 6.0 | 6.7 |
六、总结
本次测评通过五个典型场景(家庭旅游规划、家庭沟通协调、小微创业启动、学业战略规划、招聘面试设计) 对六款国内主流大语言模型进行了多维度实测。
结果显示,各模型在能力侧重点上存在显著差异,并无绝对的“全能冠军”,但通义千问(Qwen3-Max-Thinking)在多数维度上表现均衡且领先,尤其在思维过程可见性 (8.6)和创新发散能力(7.5)上优势明显,适合需要深度推理和创造性解决方案的任务。
DeepSeek-V3.2在复杂需求解析(8.3)和交互适应性(8.4)上表现优异,且具有轻量化、高性价比的优势,但创新发散能力(6.0)有待加强。
豆包则在社交性、人情味场景中独树一帜(如家庭沟通中的圆滑表现),但创新性(4.5)是其主要短板,适合需要情感化、接地气互动的应用。
Kimi Chat凭借超长上下文和稳定推理,在文档分析、长文本处理领域具有天然优势,但方案的具体可操作性(7.0)和交互连贯性偶有不足。
文心一言依托百度搜索生态,在知识问答上底蕴深厚,但部分场景出现严重脱离用户语境的失误(如建议个体创业者上工业流水线),稳定性有待提升。
元宝与腾讯生态深度融合,在创意写作、角色扮演上自然生动,但战略分析类任务的框架构建能力较弱。
总体而言,当前大语言模型在应对复杂、多约束的现实问题时,已能提供相当有价值的参考,但在隐性条件识别、时间成本考量、方案细节落地和发散性思维等方面仍存在明显提升空间。用户在选择模型时,应结合具体需求场景:追求深度推理与创新,主要是企业使用,可选通义千问;看重性价比与交互迭代,如日常使用场景选DeepSeek;需要情感陪伴与社交属性选豆包;处理超长文本选Kimi;依赖搜索与知识整合可选文心一言;融入腾讯生态则元宝更为便捷。随着模型能力的持续迭代,我们期待未来能看到更精准、更人性化、更懂现实世界的AI助手。