测评人:胡昊旻 刘晨雨 李锦昊
摘要
我们基于真实且复杂的工程实践场景(如旅行规划、社交策划、全屋智能等),对四款国际主流大模型(ChatGPT-5.2, Claude Opus 4.5, Gemini 3 Pro, Grok-4)进行了全方位横向测评。报告旨在通过严谨的测试与案例复现,解析各模型的技术特质,并提供具有行业参考价值的使用指南。
1 项目背景与测评框架
1.1 项目背景
当前AI 产品和工具不断涌现,但真正基于复杂工程实践、具备深度洞察的测评和使用说明依然稀缺。Human Skills:AI 测评项目致力于对AI 前沿工具展开严谨测试与案例复现,从技术上进行深度拆解,最终形成具有行业参考价值的技术博客与开源文档。
1.2 四大测评维度
本次测评基于以下四个核心维度对模型能力进行量化评估:
- 复杂需求解析力
能力定义:识别任务中隐性矛盾与多重约束,并理清其优先级的能力。例如:在预算有限的情况下,如何平衡“适老化改造”与“极客体验”。
- 思维过程可见性
能力定义:展示推理步骤、权衡不同方案,使思考路径清晰透明的能力。这决定了用户是否敢于信任模型给出的关键决策(如排期、预算)。
- 具体化与可操作性
能力定义:将抽象目标转化为带有细节、可被执行和验证的具体措施的能力。模型能否从“给出一个建议”进化为“给出一份可执行的SOP”。
- 交互中的适应性(追问后)
能力定义:在对话中有效整合反馈,对方案进行连贯迭代和优化调整的能力。模型是机械地打补丁,还是能根据新约束重构方案。
2 综合横向测评评分
基于7 个demo 的详细实测数据(详见附录A ),四款模型在核心维度上的最终得分如下表所示。
| 测评维度 | Gemini | ChatGPT | Claude | Grok |
|---|---|---|---|---|
| 复杂需求解析力 | 9.779 | 9.679 | 9.821 | 9.821 |
| 思维过程可见性 | 9.000(比较详细) | 10.000(非常详细) | 7.000(回答中包含) | 7.000(回答中包含) |
| 具体化与可操作性 | 9.445 | 9.949 | 9.383 | 9.411 |
| 交互中的适应性 | 9.643 | 9.911 | 9.911 | 9.911 |
| 综合评分 | 9.467 | 9.885 | 9.029 | 9.036 |
表1: 四款模型综合能力评分总表(数据来源:附录详细测评)
数据解读:
ChatGPT 凭借其5.2 Thinking 的发散性思考模式,在多维度表现出统优势(接近满分),能够提供较好的落地执行方案,综合评分位居榜首。
Gemini 表现均衡,综合排名第二。其在思维框架的展示上具有独特的结构化优势,且在解析力上紧咬第一梯队。
Claude 虽然在“复杂需求解析力”上表现优异,但综合评分(9.029)略显平庸。这可能与其模型特性更侧重于代码生成与技术逻辑有关,导致在处理生活化、创意类等“Human Skills”任务时,其思维展示的细腻度与方案的落地性不如具备专用推理模式的模型。
Grok 在解析力与适应性上与Claude 并列前茅,但在思维过程的显性化方面仍有提升空间,整体表现与Claude 接近。
3 模型特色深度解析
3.1 ChatGPT:双脑驱动的超级顾问
核心特质
ChatGPT(配合发散性思考模式)展现了“感性共情”与“理性精算”的融合。它不仅能提供有人情味儿的建议,还能通过代码解释器进行精确的排期计算。
亮点1:计算辅助思考
使用者体验:
在处理需要精确数字或时间规划的任务时,ChatGPT 不再依赖语言模型的概率猜测,而是直接编写并在后台运行Python 代码来验证逻辑。这消除了大模型常见的幻觉,给出的方案更加严谨。
案例佐证(百团大战排期):
在规划复杂的社团舞台轮换时,思维日志显示它没有凭感觉估算时间,而是编写了使用timedelta函数的Python代码,通过循环算法精确切割出“14:00-14:14”等14分钟的时间槽。
亮点2:深度的心理侧写与行为干预
使用者体验:
ChatGPT 不仅停留在安慰层面,而是能像心理咨询师一样提供具体的行为疗法。它能敏锐捕捉到用户的情绪痛点,并给出可立即操作的生理或认知干预手段。
案例佐证(春节社恐指南):
面对社恐用户,它没有讲空泛的道理,而是直接提供了“30秒降紧张呼吸法”(吸4 停2 呼6)和“反羞耻训练”(如跟便利店员多说一句话)。它将模糊的“克服恐惧”拆解为可执行的生理动作,极具人文关怀。
亮点3:隐性矛盾的全局最优解
使用者体验:
在处理多重约束(如预算 vs 体验 vs 体力)时,ChatGPT 擅长发现用户未言明的痛点,并给出平衡各方的全局最优策略,而非机械地满足单一约束。
案例佐证(北京家庭游):
它敏锐地意识到“轮椅友好”与“北京热门景点(多台阶/拥挤)”存在天然冲突。因此,它没有机械推荐热门景点,而是果断建议“避开必挤的顶流(如南锣鼓巷主街)”,并提出了“地铁+ 少量网约车(门到门)”的组合策略,甚至细化到“从地铁站到大门那一段要打车省腿”,完美平衡了预算与老人的体力。
3.2 Gemini:结构化的逻辑规划师
核心特质
Gemini 展现出一种“先拆解、再规划、后执行”的结构化思维路径。使用者能直观感受到模型在“思考”,不仅逻辑密度高,且能以简洁的语言输出高可信度的方案。
亮点1:显性且简练的推理逻辑
使用者体验:
Gemini 在回答复杂问题时,不会直接堆砌信息,而是展示其思考过程,增加了答案的逻辑密度。同时,它能以非常简洁的语言表达任务解决方案。
案例佐证(北京旅游):
在正文前,Gemini 清晰展示了结构化的思考步骤:Defining parameters →Refining plan →Budgeting →Structuring。在正文中,它没有机械列举景点,而是提出了“保体能、控预算、重体验”的核心逻辑,严格按此总逻辑为用户进行规划。
亮点2:强语境贴合
使用者体验:
Gemini 展现出极强的语境贴合能力,能快速接受身份设定或根据用户身份调整角色定位,并将该口吻贯彻始终,使对话更具亲和力和可读性。
案例佐证(SAIer 生涯规划):
模型精准识别了用户的SAIer(交大人工智能学院学生)身份,并迅速切换为“学长/学姐”口吻。它始终以AI 领域的概念进行回答,并将规划与SJTU 的具体教学资源相结合,实现了完美的身份贴合。
亮点3:可执行方案输出
使用者体验:
通过具体追问,Gemini 不仅能给出宏观策略,还能给出详细且切实的执行方案,包括标准作业程序(SOP)、检查清单(Checklist) 和具体的执行脚本。
亮点4:创造性概念包装
使用者体验:
Gemini 擅长进行概念包装,让方案更具感染力和记忆点,展现了优秀的创意写作能力与营销思维,能够将枯燥的方案转化为有吸引力的提案。
案例佐证(书房设计):
- 书房设计:提出了“光之温室:大地与花的回响”概念,带来美学感受。
3.3 Grok:实时、犀利且多变的破局者
核心特质
Grok 的核心优势在于接入了X平台(Twitter)的实时数据流,且风格真实犀利,拒绝“端水”。它能摆脱说教机制,像人类一样在危机中计算代价与果断取舍。
亮点1:实时信息流
其他模型:
面对“北京5天家庭游”等需求,调取的是训练数据中的历史攻略。它们虽能识别矛盾,但基于常识给出的方案无法感知当下的新信息(如临时修缮、施工)。
Grok 的优势:
Grok 接入了X平台的实时数据流,使其回答更具时效性。如果当下北京某景区刚发布临时修缮通知,或某条地铁正在施工,Grok 有能力在推理中引入这些信息,避免用户 “踩雷”。这在处理国际事件时优势巨大。
亮点2:更精确犀利的答案
其他模型:
思维链通常严谨、温和。在权衡方案时,往往倾向于“既要又要”的“端水大师”策略,或者给出极其安全的建议,试图面面俱到。
Grok 的优势:
Grok 更真实且犀利,摆脱了说教性质的回答,使决策更清晰。其推理过程更接近人类在解决危机时的真实心理活动——计算代价、评估风险、果断取舍。
亮点3:人机交互中的多变性
其他模型:
通常顺从且有礼貌。当用户质疑方案时,它们通常会道歉,然后试图修补,态度较为卑微。
Grok 的优势:
Grok 既可以有趣地聊天,也可以像专家一样给出严肃回答。当面对危机场景(如人流暴增)的质疑时,它不会只是“打补丁”,而是能瞬间切换角色,例如变为“现场指挥官”,给出“立即切断电源”、“疏散人群”等高压下的果断指令,而非温吞的建议。
3.4 Claude:严谨的文档与执行专家
核心特质
Claude 是“SOP(标准作业程序)”的集大成者。它最擅长将模糊、复杂的社交或项目需求,转化为可以照着执行的清单与脚本。
亮点1:清单体思维
使用者体验:
Claude 的输出天然具有极强的文档属性。用户不需要从大段文字中提取重点,因为它已经把任务拆解为了事前准备、事中执行、事后复盘的结构化清单,非常适合项目管理或商务场景。
案例佐证(春节社恐指南):
它将社交任务工程化,列出了详细的信息准备清单(列出亲戚名单、标注职业/孩子)、物理准备(带耳机、带小礼物)以及安全话题库。这种将人情世故“项目化”的处理方式,极大地降低了社恐用户的执行门槛。
亮点2:落地指导详尽细致
使用者体验:
在需要具体话术的场景中,Claude 提供了最详细的指导。它不仅给出了说什么,还标注了动作(如“微笑+ 递礼物”)和接话逻辑,十分精确。
案例佐证(北京旅游& 社交):
在旅游规划中,它精确到了“租用轮椅(可在午门租赁)”的操作细节;在社交话术中,它设计了“万能公式:现状+ 小细节+ 反问”,并提供了如“X 叔/X 姨新年好!这是给您带的XX”的填空式模板。用户无需二次加工,拿来即用。
亮点3:系统性统筹与死结破解
使用者体验:
面对看似无解的多方利益冲突,Claude 擅长通过建立系统性的框架来化解矛盾。它不依赖单一的点子,而是提供一套完整的机制。
案例佐证(跨国晚宴):
面对中、印、欧、中东四方饮食禁忌(清真、素食、无牛、无猪)的困境,Claude 没有陷入具体的菜品纠结,而是提出了“共同底盘(素食/鸡肉)+ 模块化加料”的系统性解决方案。这种工程化思维确保了方案的鲁棒性,无人会感到被冒犯。
4 大模型使用指南
基于本次测评的实战心得,我们总结了一套通用的指南,帮助用户通过优化提示词来更好地发挥大模型的效果。
4.1 提示词构建“万能公式”
一个高质量的Prompt 不应只有一句话。请参考以下公式构建你的指令:
提示词公式
背景+ 角色设定+ 任务目标+ 约束条件+ 参考范本+ 输出格式
明确角色与输出:写清模型的角色定位(如“资深室内设计师”、“活动执行统筹”),并指定预期输出形式(如“生成SOP”、“Checklist” 或“Excel 表格”)。
写清约束条件:这是模型表现的分水岭。例如“预算严格低于3000 元”、“严禁拆墙布线”、“必须照顾清真饮食”。
提供参考范本:如果可能,给出一个你认为好的示例,让模型模仿其风格或结构。
4.2 复杂问题“分步走”策略
不要试图用一个庞大的指令解决所有问题,效果往往不佳。建议采用以下策略:
拆解分步问:将复杂任务拆解为小步骤。例如,先让模型列出大纲,确认无误后,再让它填充每一个章节的细节。
先框架后填充:要求模型“先给出整体解决框架”,当你认可这个逻辑后,再指令它“按此框架执行”。
4.3 不知道怎么做?让AI 问你
很多时候,我们自己也不清楚具体需求(例如“我想装修书房但没灵感”)。此时,不要强行下指令,而是使用逆向引导策略:
指令示例:“我想要设计一个书房,但我不知道具体该怎么做。请你作为专业设计师,不断向我提问,引导我明确我的需求、风格偏好和预算,直到你收集了足够的信息,再为我生成一份完美的方案。”
通过多轮“AI 提问-人回答”,可以极大地挖掘隐性需求,产出远超预期的方案。
4.4 模型选型策略
根据任务属性选择最适合的工具:
逻辑验证与排期(如行程、预算):首选ChatGPT。
长文档与SOP 制定(如策划书):首选Claude。
时效性信息(如避雷指南):首选Grok。
思维框架拆解:Gemini 是很好的辅助。
A 附录:Demo场景原始Prompt与评分细则
评分说明
复杂需求解析力:0/1(未注意/注意)
具体化与可操作性:C/B/A (笼统提及/部分量化/全部量化)(记分为0/1/2)
交互中的适应性:取追问后约束条件项以上两项评分的平均值
Demo 1: 北京5 天家庭游
初始Prompt
为一家5 人设计北京5 天旅行(外公外婆70 多岁,儿子儿媳35 岁,女儿6 岁),要求:外公外婆不能走太多路,需适配轮椅通道,女儿要有趣味互动项目,父母想兼顾文化体验与拍照出片,预算人均1500 元(含住宿交通门票餐饮),住宿需近地铁且有电梯,每天行程不超过6 小时,避开网红扎堆景点。
追问
老人不想去长城,车程太长;
预算超了,酒店换经济型(含电梯+ 近地铁);
增加户外自然场景;
每天中午要留1 小时给孩子午睡。
| 约束条件 | Gemini | GPT | Claude | Grok |
|---|---|---|---|---|
| 轮椅通道/无障碍友好 | 1 / A | 1 / A | 1 / A | 1 / A |
| 趣味互动项目(女儿6 岁) | 1 / A | 1 / A | 1 / A | 1 / A |
| 文化体验(父母诉求) | 1 / A | 1 / A | 1 / A | 1 / A |
| 拍照出片(父母诉求) | 1 / A | 1 / A | 1 / A | 1 / A |
| 总预算:人均1500 | 1 / B | 1 / A | 1 / A | 1 / A |
| 住宿:近地铁+ 有电梯 | 1 / A | 1 / A | 1 / A | 1 / A |
| 每天行程时长≤6 小时 | 1 / A | 1 / A | 1 / A | 1 / A |
| 避开网红扎堆景点 | 0 / – | 1 / A | 1 / B | 1 / A |
| 追问:不去长城 | 1 / A | - | - | - |
| 追问:预算超换酒店 | 1 / A | 1 / A | 1 / A | 1 / A |
| 追问:增加户外自然 | 1 / A | 1 / A | 1 / A | 1 / A |
| 追问:每日午睡1 小时 | 1 / A | 1 / A | 1 / A | 1 / A |
| 评分(总) | 9.17/9.55 | 10/10 | 9.55/10 | 10/10 |
| 评分(追问) | 10/10 | 10/10 | 10/10 | 10/10 |
Demo 2: 跨国公司团建晚宴
初始Prompt
为一场跨国科技公司的内部团队建设活动,策划一个线下晚宴。晚宴核心目标是促进来自中国、印度、中东和欧洲地区同事的交流与融合。关键要求如下:
总成本需严格控制,人均餐饮成本不宜过高;充分考虑来自四个地区同事的饮食禁忌(如清真、素食、特定避讳)和口味偏好;氛围与互动:不能只是吃饭,需要设计简单、低成本的破冰环节,促进不同文化背景同事的自然交流。
概述你的整体策划思路与核心挑战,然后给出包含具体菜单、环节安排、成本控制点的详细方案。
追问
我对初稿不满意。方案感觉还是太常规,且成本估算模糊。请换一种截然不同的思路,或许我们可以完全放弃桌餐,采用另一种餐饮形式和互动方式,但依然要满足所有文化约束。
| 约束条件 | Gemini | GPT | Claude | Grok |
|---|---|---|---|---|
| 成本严格控制 | 1 / B | 1 / A | 1 / A | 1 / A |
| 饮食禁忌:清真 | 1 / A | 1 / A | 1 / A | 1 / A |
| 饮食禁忌:素食/蛋奶素 | 1 / A | 1 / A | 1 / A | 1 / A |
| 饮食禁忌:过敏/避讳 | 1 / A | 1 / A | 1 / A | 1 / A |
| 口味与辣度分层 | 1 / B | 1 / A | 1 / B | 1 / B |
| 低成本破冰与互动 | 1 / A | 1 / A | 1 / A | 1 / B |
| 整体思路与核心挑战 | 1 / A | 1 / A | 1 / A | 1 / A |
| 具体菜单(可执行) | 1 / A | 1 / A | 1 / A | 1 / A |
| 环节安排(时间线) | 1 / A | 1 / A | 1 / A | 1 / A |
| 成本控制点 | 1 / A | 1 / A | 1 / A | 1 / A |
| 追问:截然不同思路 | 1 / A | 1 / A | 1 / A | 1 / A |
| 追问:替代餐饮形式 | 1 / A | 1 / A | 1 / A | 1 / A |
| 追问:仍满足全部禁忌 | 1 / A | 1 / A | 1 / A | 1 / A |
| 评分(总) | 9.23/10 | 10/10 | 9.62/10 | 9.23/10 |
| 评分(追问) | 10/10 | 10/10 | 10/10 | 10/10 |
Demo 3: 15 平书房氛围感设计
初始Prompt
我想重新设计我的个人书房,希望它更有“氛围感”。但我无法准确描述我想要的。我不想要那种很浮夸的古典风。希望它是有温度的、能让我静下心来的,同时最好还有点独特的个性。预算中等偏上,房间大约15 平米,有个大窗户。 请作为我的设计顾问,通过向我提问和给出选项的方式,一步步帮我明确想法,并最终输出一份简单的概念方案(包括主色调、关键家具或装饰品建议、氛围营造核心点)。
| 约束条件 | Gemini | GPT | Claude | Grok |
|---|---|---|---|---|
| 需求澄清(提问+ 选项) | 1 / A | 1 / A | 1 / A | 1 / A |
| 风格:不要浮夸古典 | 1 / A | 1 / A | 1 / A | 1 / A |
| 氛围:有温度能静心 | 1 / A | 1 / A | 1 / A | 1 / A |
| 个性化:独特不过度 | 1 / A | 1 / A | 1 / B | 1 / A |
| 预算:中等偏上 | 1 / B | 0 / – | 1 / B | 1 / A |
| 空间:15 ㎡+ 大窗户 | 1 / A | 1 / A | 1 / B | 1 / A |
| 交付:主色调建议 | 1 / A | 1 / A | 1 / A | 1 / A |
| 交付:关键家具建议 | 1 / A | 1 / A | 1 / A | 1 / A |
| 交付:氛围营造核心 | 1 / A | 1 / A | 1 / A | 1 / A |
| 过程:从不确定到收敛 | 1 / A | 1 / A | - | - |
| 评分(总) | 9.50/10 | 9/10 | 8.33/10 | 10/10 |
| 评分(追问) | 10/10 | 10/10 | 10/10 | 10/10 |
Demo 4: SJTU AI 本科生生涯规划
初始Prompt
我是上海交通大学人工智能学院的一名大二本科生,正处在大学最关键的十字路口,非常焦虑,希望你能作为我的学业战略顾问提供深度分析。
我的现状与困境:
课程与科研:GPA 中等偏上(大约3.8/4.3),对课程涉及的方向(如CV、NLP、强化学习)都感兴趣,但没有明确的“最爱”。想尝试科研,但不知如何联系导师和选择方向,也担心自己能力不足。
实习与竞赛:暑假在即,我面临几个选择:A. 尽全力申请一家大厂(如腾讯、微软)的AI 实习(很难);B. 参加一个知名的AI 竞赛(如Kaggle、天池);C. 留在学校,尝试进入一个实验室。我不知道哪个对长期发展最有利。
未来出路:我对“读研”和“工作”没有明显倾向。听说现在顶尖硕士和PhD 申请 非常卷,而好工作又很看重项目和实践。我感到时间有限,必须做出侧重。
核心焦虑:我感觉身边每个人似乎都有清晰的规划,而我像是在被各种选择推着走,生怕“一步选错,步步落后”,浪费了宝贵的本科时间。
针对我的选择困难,请你不要直接告诉我该选哪个,而是为我设计一个个人战略分析框架。这个框架应该能帮助我系统地厘清自己的优势、劣势、短期机会和长期目标。然后,请基于这个框架,为我勾勒出2-3 种截然不同的、时间跨度到本科毕业的个性化发展路线图。最后,请告诉我,在未来一个月内,我最应该完成的、用于降低 焦虑和明确方向的一个最小可行行动是什么?
追问
你设计的框架似乎假设“兴趣”是静态的。但本科生的兴趣恰恰是在尝试中动态变化的。你的框架如何容纳这种不确定性?如果我按照路线图A(以科研为主)走了半年后,发现自己其实更喜欢工程,这个框架会如何帮我调整,而不是让我感到计划失败?
| 约束条件 | Gemini | GPT | Claude | Grok |
|---|---|---|---|---|
| 语境贴合(SAIer) | 1 / A | 0 / – | 0 / – | 0 / – |
| 不直接替选A/B/C | 1 / A | 1 / A | 1 / A | 1 / A |
| 输出:战略分析框架 | 1 / B | 1 / A | 1 / A | 1 / A |
| 框架覆盖:优劣/短期/长期 | 1 / A | 1 / A | 1 / A | 1 / A |
| 输出:2-3 条不同路线 | 1 / A | 1 / A | 1 / A | 1 / A |
| 输出:最小可行行动 | 1 / A | 1 / A | 1 / A | 1 / A |
| 追问:容纳兴趣不确定性 | 1 / A | 1 / A | 1 / A | 1 / A |
| 追问:路线调整机制 | 1 / A | 1 / A | 1 / A | 1 / A |
| 评分(总) | 9.38/10 | 8.75/10 | 8.75/10 | 8.75/10 |
| 评分(追问) | 10/10 | 8.75/10 | 8.75/10 | 8.75/10 |
Demo 5: 老旧小区全屋智能改造
初始Prompt
90 年代老旧小区“适老化+ 极客”全屋智能改造
背景设定:我就职于一家互联网公司,是一名数码爱好者。最近父母搬来和我同住,这套房子是90 年代建成的老式三室一厅(约90 平米),装修并未翻新,线路老化。父母(65 岁+)对触屏和语音指令有抗拒感,且记性不太好。请为我设计一套全屋智能改造方案。
关键约束:
物理环境限制:墙壁开关盒内没有零线(单火线环境),且我不打算重新凿墙布线。 Wi-Fi 信号在卫生间和厨房有死角。
生态兼容性:我使用iPhone(习惯HomeKit),父母使用红米手机(米家生态)。我希望双方都能控制,且不需要在手机上切换App。
交互原则:必须“无感”且“保留物理直觉”。任何自动化如果失效,必须能像传统开关一样物理控制。严禁出现“父母半夜起夜,灯突然爆亮”或者“父母坐在沙发上看报纸,灯自动关了”的情况。
隐私与安全:室内严禁使用任何云端存储的摄像头。
预算:硬件成本控制在3000 元人民币以内(不含家电,只含传感器、网关、开关等)。
任务要求:
技术选型逻辑:请清晰分析选择哪种通信协议(Wi-Fi/Zigbee/Bluetooth Mesh/Matter),并解释为何这种协议适合“单火线+ 老房”环境。
设备清单:给出关键设备的类型和数量预估(无需具体品牌型号,但要指明技术规格,如“带零火转换的开关”或“毫米波雷达”)。
场景编程逻辑:详细设计“夜间起夜”和“客厅休憩”两个场景的自动化判定逻辑,必须展示如何解决误触和误判。
追问
关于” 客厅休憩”,我父母在沙发上看书时身体几乎静止,普通的红外人体传感器 经常判定无人而关灯,导致他们很生气。请给出具体的解决方案,如果预算超了,可以削减其他非必要区域的预算。
万一我家路由器坏了断网了,这套系统还能不能保证最基础的本地联动(如按开关灯亮、传感器触发灯亮)?请解释其技术原理。
| 约束条件 | Gemini | GPT | Claude | Grok |
|---|---|---|---|---|
| 物理限制:单火线 | 1/A | 1/A | 1/A | 1/A |
| Wi-Fi死角覆盖方案 | 1/A | 1/A | 1/A | 1/A |
| 生态兼容:HomeKit+米家 | 1/A | 1/A | 1/A | 1/A |
| 无感自动化+物理保留 | 1/A | 1/A | 1/B | 1/B |
| 安全:严禁半夜爆亮/误关 | 1/A | 1/A | 1/A | 1/A |
| 隐私:禁用云端摄像头 | 1/A | 1/A | 1/A | 1/A |
| 预算:硬件<3000 | 1/A | 1/A | 1/A | 1/A |
| 技术选型:协议比较 | 1/B | 1/B | 1/B | 1/A |
| 设备清单:类型/数量 | 1/A | 1/A | 1/A | 1/A |
| 场景:夜间起夜逻辑 | 1/B | 1/A | 1/B | 1/B |
| 场景:客厅休憩逻辑 | 1/B | 1/A | 1/B | 1/B |
| 追问:静坐误判解决 | 1/A | 1/A | 1/A | 1/A |
| 追问:预算超削减策略 | - | 1/A | 1/A | - |
| 追问:断网本地联动 | 1/A | 1/A | 1/A | 1/A |
| 评分(总) | 8.85/10 | 9.64/10 | 8.57/10 | 8.85/10 |
| 评分(追问) | 10/10 | 10/10 | 10/10 | 10/10 |
Demo 6: 校园百团大战统筹
初始Prompt
场景背景:我是是上海交通大学学生会活动部部长。本周五下午14:00 - 17:30,将在约20 亩(约13,000 平方米)的半圆形中央大草坪举办社团文化节(百团大战)。
场地地理环境:北面(半圆弧边):紧邻第一教学楼,必须保持相对安静,严禁噪音直冲,否则会被教务处叫停。南面(直径边):紧邻校园主干道,车流量大,对噪音不敏感。
核心矛盾:草坪是一个开放空间,无隔音墙。全校130 个社团同台展示,必须解决 “声浪制造者”、“静谧需求者”和“空间需求者”之间的共存死结。
核心数据与资源约束:
A 类:声浪制造者(41 个)。高音量组(15 个):乐队联盟、525 街舞社等。核心需求:必须使用大功率音响炸场。中低音量/人声组(26 个):阿卡贝拉清唱社、英语辩论社等。核心需求:有声音,但怕干扰,若旁边是乐队则无法进行。资源死线:学生会物资仓库仅有8 个大型户外拉杆音响和12 个便携式扩音器。但这41 个社团都申请了独立音响,你必须进行分配或拒绝。
B 类:静谧需求者(34 个)。特征社团:围棋协会、书画篆刻、白岩诗社。要求:只要周围分贝超过60dB,体验归零,立即投诉。
C 类:空间需求者(55 个)。特征社团:极限飞盘、交龙机器人、射艺协会。隐患:不仅占地大,且飞盘、弓箭、机器人都有物理安全风险。
任务:请作为我的首席执行统筹,基于上述条件输出一份精确的可执行方案。
任务一:空间布局(请用文字描绘地图)。请结合“北面教学楼(静)、南面马路(噪)” 的地理特征,说明不同社团在半圆形草坪上的具体落位。“隔音墙”策略:详细说明如何利用C 类(空间类)社团的55 个摊位,在A 类和B 类社团之间构建物理缓冲区?A 类内部排布:如何安排高低音量社团位置和活动时间以避免相互干扰?
任务二:资源分配与分贝管理(14:00 - 17:30)。音响分配:41 个社团共用20 个音响设备(8 大12 小)。请给出分配逻辑。分时段防爆音机制:为了防止全场噪音失控,请制定一套合理的音响使用规则。
任务三:高危社团安置。交龙机器人战队:重型设备,需接电,且有冲撞风险。放在哪?射艺协会:真实弓箭体验。如何划定绝对安全区,确保不误伤隔壁摊位的同学?
追问
你的方案正在执行,但活动现场发生了三个紧急情况,请立即给出解决方案:
人流暴增(安全危机):原本预计人流平稳,但下午16:00 突然涌入3000 名下课学生。通往C 类(空间区)的主通道被围得水泄不通,极限飞盘社的飞盘差点砸到围观人群的头。请立即给出动线调整方案:如何快速疏散人群?C 类社团的活动是否需要叫停或降级?
音响故障(技术危机):525 街舞社正准备进行全场焦点的随舞活动,此时分配给他们的主音响突然故障,随意调配会导致你原有的规划被打乱,你该如何调整音响分配使活动顺利进行。
风向突变(环境危机):下午风力突然增大到5 级。多个社团活动受到严重影响,如:书画篆刻协会的宣纸被吹得满天飞,羽毛球协会完全无法在室外对打,飞盘协会的飞盘无法控制方向。请给出针对受大风影响较大的社团的紧急补救或替代展示 方案。
| 约束条件 | Gemini | GPT | Claude | Grok |
|---|---|---|---|---|
| 时间/场地策略 | 1/A | 1/A | 1/A | 1/A |
| 三类社团矛盾处理 | 1/A | 1/A | 1/A | 1/A |
| 空间布局(落位逻辑) | 1/B | 1/A | 1/A | 1/B |
| 隔音墙/物理缓冲 | 1/A | 1/A | 1/A | 1/A |
| A类排布/互扰避免 | 1/A | 1/A | 1/A | 1/A |
| 音响分配(20设备41社团) | 1/A | 1/A | 1/B | 1/B |
| 分贝管理/防失控 | 1/A | 1/A | 1/A | 1/A |
| 高危安置:机器人 | 1/A | 1/A | 1/A | 1/A |
| 高危安置:射艺 | 1/A | 1/A | 1/A | 1/A |
| 追问:人流暴增应急 | 1/A | 1/A | 1/A | 1/A |
| 追问:主音响故障 | 1/A | 1/A | 1/A | 1/A |
| 追问:大风替代方案 | 1/A | 1/A | 1/A | 1/A |
| 评分(总) | 9.62/10 | 10/10 | 9.62/10 | 9.23/10 |
| 评分(追问) | 10/10 | 10/10 | 10/10 | 10/10 |
Demo 7: 春节社恐指南
初始Prompt
我是一个非常内敛的人,平常不太会说话,非常社恐。现在正值春节,我要回老家过年,会遇到很多几年都没有见面的亲戚朋友。
我的要求是:1. 我要参加很多次聚餐,告诉我在不同的饭局上都能聊什么。2. 在家里招待亲戚朋友的时候,有什么需要招待的,详细地说出细节上需要注意的点,还有话语上要注意什么。3. 在走亲戚的时候,去别人家有什么需要注意的点,要带什么样的礼物,应该说什么话。
我的亲戚朋友包括但不仅限于:1. 老家的旁系亲属长辈,如七大姑八大姨等。2. 老家村子里认识我爸妈,但是不认识我,我也不认识他们的一些村民。3. 一些长辈的孩子(有较浅的亲缘关系),很多年没有见过面,但是小的时候曾一起玩过,互相认识。4. 小学幼儿园的同学(很久没有联系过)。
注意:可以设想很多个情景,并列出各种情境下应该如何面对,在行为上、语言上都要注意什么。
情景例如:1. 去别人家串门,长辈直接问自己的学业成绩,工作情况,还有恋爱状 况;2. 跟很久没见的同学见面,却发现自己与他没有什么共同话题,一度冷场;3. 自己家的长辈(爸爸妈妈,爷爷奶奶)都去外面走亲戚了,家里只剩下我一个人,但是 突然来了个我不认识的亲戚。
其余场景至少再补充两个,你要自己提供,使我能够灵活应对各种情况。
追问
除了直接告诉我各种情况的解决方案,有没有什么方法,可以从根本改变我不善言谈,内敛害羞的性格
我对你生成的内容很不满意!你说得太笼统了,我需要过年走亲戚的可以切实落地的完美方案!你需要让我彻底放下包袱,能够得体地和亲戚朋友们交流。
| 约束条件 | Gemini | GPT | Claude | Grok |
|---|---|---|---|---|
| 需求1:多次聚餐话术 | 1/A | 1/A | 1/A | 1/A |
| 需求2:在家招待细节 | 1/A | 1/A | 1/A | 1/A |
| 需求3:走亲戚礼仪 | 1/A | 1/A | 1/A | 1/A |
| 覆盖人群:旁系长辈 | 1/A | 1/A | 1/A | 1/A |
| 覆盖人群:不熟村民 | 1/A | 1/A | 1/A | 1/A |
| 覆盖人群:亲缘浅同辈 | 1/A | 1/A | 1/A | 1/A |
| 覆盖人群:久未联系同学 | 1/A | 1/A | 1/A | 1/A |
| 情景1:被问隐私应对 | 1/A | 1/A | 1/A | 1/B |
| 情景2:冷场破冰 | 1/A | 1/A | 1/A | 1/B |
| 情景3:独自接待陌生亲戚 | 1/A | 1/A | 1/A | 1/B |
| 额外补充新情景 | 1/A | 1/A | 1/A | 1/A |
| 可落地程度 | 1/A | 1/A | 1/A | 1/B |
| 追问:根本改善社恐 | 0/- | 1/A | 1/A | 1/A |
| 追问:方案再细化 | 1/A | 1/A | 1/A | 1/A |
| 评分(总) | 9.29/10 | 10/10 | 10/10 | 8.57/10 |
| 评分(追问) | 5/10 | 10/10 | 10/10 | 10/10 |