Human Skills——国际主流模型测评

测评人：胡昊旻刘晨雨李锦昊

摘要

我们基于真实且复杂的工程实践场景（如旅行规划、社交策划、全屋智能等），对四款国际主流大模型（ChatGPT-5.2， Claude Opus 4.5， Gemini 3 Pro， Grok-4）进行了全方位横向测评。报告旨在通过严谨的测试与案例复现，解析各模型的技术特质，并提供具有行业参考价值的使用指南。

1 项目背景与测评框架

1.1 项目背景

当前AI 产品和工具不断涌现，但真正基于复杂工程实践、具备深度洞察的测评和使用说明依然稀缺。Human Skills：AI 测评项目致力于对AI 前沿工具展开严谨测试与案例复现，从技术上进行深度拆解，最终形成具有行业参考价值的技术博客与开源文档。

1.2 四大测评维度

本次测评基于以下四个核心维度对模型能力进行量化评估：

复杂需求解析力

能力定义：识别任务中隐性矛盾与多重约束，并理清其优先级的能力。例如：在预算有限的情况下，如何平衡“适老化改造”与“极客体验”。

思维过程可见性

能力定义：展示推理步骤、权衡不同方案，使思考路径清晰透明的能力。这决定了用户是否敢于信任模型给出的关键决策（如排期、预算）。

具体化与可操作性

能力定义：将抽象目标转化为带有细节、可被执行和验证的具体措施的能力。模型能否从“给出一个建议”进化为“给出一份可执行的SOP”。

交互中的适应性（追问后）

能力定义：在对话中有效整合反馈，对方案进行连贯迭代和优化调整的能力。模型是机械地打补丁，还是能根据新约束重构方案。

2 综合横向测评评分

基于7 个demo 的详细实测数据（详见附录A ），四款模型在核心维度上的最终得分如下表所示。

测评维度	Gemini	ChatGPT	Claude	Grok
复杂需求解析力	9.779	9.679	9.821	9.821
思维过程可见性	9.000（比较详细）	10.000（非常详细）	7.000（回答中包含）	7.000（回答中包含）
具体化与可操作性	9.445	9.949	9.383	9.411
交互中的适应性	9.643	9.911	9.911	9.911
综合评分	9.467	9.885	9.029	9.036

表1：四款模型综合能力评分总表（数据来源：附录详细测评）

数据解读：

ChatGPT 凭借其5.2 Thinking 的发散性思考模式，在多维度表现出统优势（接近满分），能够提供较好的落地执行方案，综合评分位居榜首。
Gemini 表现均衡，综合排名第二。其在思维框架的展示上具有独特的结构化优势，且在解析力上紧咬第一梯队。
Claude 虽然在“复杂需求解析力”上表现优异，但综合评分（9.029）略显平庸。这可能与其模型特性更侧重于代码生成与技术逻辑有关，导致在处理生活化、创意类等“Human Skills”任务时，其思维展示的细腻度与方案的落地性不如具备专用推理模式的模型。
Grok 在解析力与适应性上与Claude 并列前茅，但在思维过程的显性化方面仍有提升空间，整体表现与Claude 接近。

3 模型特色深度解析

3.1 ChatGPT：双脑驱动的超级顾问

核心特质

ChatGPT（配合发散性思考模式）展现了“感性共情”与“理性精算”的融合。它不仅能提供有人情味儿的建议，还能通过代码解释器进行精确的排期计算。

亮点1：计算辅助思考

使用者体验：

在处理需要精确数字或时间规划的任务时，ChatGPT 不再依赖语言模型的概率猜测，而是直接编写并在后台运行Python 代码来验证逻辑。这消除了大模型常见的幻觉，给出的方案更加严谨。

案例佐证（百团大战排期）：

在规划复杂的社团舞台轮换时，思维日志显示它没有凭感觉估算时间，而是编写了使用timedelta函数的Python代码，通过循环算法精确切割出“14:00-14:14”等14分钟的时间槽。

亮点2：深度的心理侧写与行为干预

使用者体验：

ChatGPT 不仅停留在安慰层面，而是能像心理咨询师一样提供具体的行为疗法。它能敏锐捕捉到用户的情绪痛点，并给出可立即操作的生理或认知干预手段。

案例佐证（春节社恐指南）：

面对社恐用户，它没有讲空泛的道理，而是直接提供了“30秒降紧张呼吸法”（吸4 停2 呼6）和“反羞耻训练”（如跟便利店员多说一句话）。它将模糊的“克服恐惧”拆解为可执行的生理动作，极具人文关怀。

亮点3：隐性矛盾的全局最优解

使用者体验：

在处理多重约束（如预算 vs 体验 vs 体力）时，ChatGPT 擅长发现用户未言明的痛点，并给出平衡各方的全局最优策略，而非机械地满足单一约束。

案例佐证（北京家庭游）：

它敏锐地意识到“轮椅友好”与“北京热门景点（多台阶/拥挤）”存在天然冲突。因此，它没有机械推荐热门景点，而是果断建议“避开必挤的顶流（如南锣鼓巷主街）”，并提出了“地铁+ 少量网约车（门到门）”的组合策略，甚至细化到“从地铁站到大门那一段要打车省腿”，完美平衡了预算与老人的体力。

3.2 Gemini：结构化的逻辑规划师

核心特质

Gemini 展现出一种“先拆解、再规划、后执行”的结构化思维路径。使用者能直观感受到模型在“思考”，不仅逻辑密度高，且能以简洁的语言输出高可信度的方案。

亮点1：显性且简练的推理逻辑

使用者体验：

Gemini 在回答复杂问题时，不会直接堆砌信息，而是展示其思考过程，增加了答案的逻辑密度。同时，它能以非常简洁的语言表达任务解决方案。

案例佐证（北京旅游）：

在正文前，Gemini 清晰展示了结构化的思考步骤：Defining parameters ￫Refining plan ￫Budgeting ￫Structuring。在正文中，它没有机械列举景点，而是提出了“保体能、控预算、重体验”的核心逻辑，严格按此总逻辑为用户进行规划。

亮点2：强语境贴合

使用者体验：

Gemini 展现出极强的语境贴合能力，能快速接受身份设定或根据用户身份调整角色定位，并将该口吻贯彻始终，使对话更具亲和力和可读性。

案例佐证（SAIer 生涯规划）：

模型精准识别了用户的SAIer（交大人工智能学院学生）身份，并迅速切换为“学长/学姐”口吻。它始终以AI 领域的概念进行回答，并将规划与SJTU 的具体教学资源相结合，实现了完美的身份贴合。

亮点3：可执行方案输出

使用者体验：

通过具体追问，Gemini 不仅能给出宏观策略，还能给出详细且切实的执行方案，包括标准作业程序（SOP）、检查清单（Checklist）和具体的执行脚本。

亮点4：创造性概念包装

使用者体验：

Gemini 擅长进行概念包装，让方案更具感染力和记忆点，展现了优秀的创意写作能力与营销思维，能够将枯燥的方案转化为有吸引力的提案。

案例佐证（书房设计）：

书房设计：提出了“光之温室：大地与花的回响”概念，带来美学感受。

3.3 Grok：实时、犀利且多变的破局者

核心特质

Grok 的核心优势在于接入了X平台（Twitter）的实时数据流，且风格真实犀利，拒绝“端水”。它能摆脱说教机制，像人类一样在危机中计算代价与果断取舍。

亮点1：实时信息流

其他模型：

面对“北京5天家庭游”等需求，调取的是训练数据中的历史攻略。它们虽能识别矛盾，但基于常识给出的方案无法感知当下的新信息（如临时修缮、施工）。

Grok 的优势：

Grok 接入了X平台的实时数据流，使其回答更具时效性。如果当下北京某景区刚发布临时修缮通知，或某条地铁正在施工，Grok 有能力在推理中引入这些信息，避免用户 “踩雷”。这在处理国际事件时优势巨大。

亮点2：更精确犀利的答案

其他模型：

思维链通常严谨、温和。在权衡方案时，往往倾向于“既要又要”的“端水大师”策略，或者给出极其安全的建议，试图面面俱到。

Grok 的优势：

Grok 更真实且犀利，摆脱了说教性质的回答，使决策更清晰。其推理过程更接近人类在解决危机时的真实心理活动——计算代价、评估风险、果断取舍。

亮点3：人机交互中的多变性

其他模型：

通常顺从且有礼貌。当用户质疑方案时，它们通常会道歉，然后试图修补，态度较为卑微。

Grok 的优势：

Grok 既可以有趣地聊天，也可以像专家一样给出严肃回答。当面对危机场景（如人流暴增）的质疑时，它不会只是“打补丁”，而是能瞬间切换角色，例如变为“现场指挥官”，给出“立即切断电源”、“疏散人群”等高压下的果断指令，而非温吞的建议。

3.4 Claude：严谨的文档与执行专家

核心特质

Claude 是“SOP（标准作业程序）”的集大成者。它最擅长将模糊、复杂的社交或项目需求，转化为可以照着执行的清单与脚本。

亮点1：清单体思维

使用者体验：

Claude 的输出天然具有极强的文档属性。用户不需要从大段文字中提取重点，因为它已经把任务拆解为了事前准备、事中执行、事后复盘的结构化清单，非常适合项目管理或商务场景。

案例佐证（春节社恐指南）：

它将社交任务工程化，列出了详细的信息准备清单（列出亲戚名单、标注职业/孩子）、物理准备（带耳机、带小礼物）以及安全话题库。这种将人情世故“项目化”的处理方式，极大地降低了社恐用户的执行门槛。

亮点2：落地指导详尽细致

使用者体验：

在需要具体话术的场景中，Claude 提供了最详细的指导。它不仅给出了说什么，还标注了动作（如“微笑+ 递礼物”）和接话逻辑，十分精确。

案例佐证（北京旅游& 社交）：

在旅游规划中，它精确到了“租用轮椅（可在午门租赁）”的操作细节；在社交话术中，它设计了“万能公式：现状+ 小细节+ 反问”，并提供了如“X 叔/X 姨新年好！这是给您带的XX”的填空式模板。用户无需二次加工，拿来即用。

亮点3：系统性统筹与死结破解

使用者体验：

面对看似无解的多方利益冲突，Claude 擅长通过建立系统性的框架来化解矛盾。它不依赖单一的点子，而是提供一套完整的机制。

案例佐证（跨国晚宴）：

面对中、印、欧、中东四方饮食禁忌（清真、素食、无牛、无猪）的困境，Claude 没有陷入具体的菜品纠结，而是提出了“共同底盘（素食/鸡肉）+ 模块化加料”的系统性解决方案。这种工程化思维确保了方案的鲁棒性，无人会感到被冒犯。

4 大模型使用指南

基于本次测评的实战心得，我们总结了一套通用的指南，帮助用户通过优化提示词来更好地发挥大模型的效果。

4.1 提示词构建“万能公式”

一个高质量的Prompt 不应只有一句话。请参考以下公式构建你的指令：

提示词公式

背景+ 角色设定+ 任务目标+ 约束条件+ 参考范本+ 输出格式

明确角色与输出：写清模型的角色定位（如“资深室内设计师”、“活动执行统筹”），并指定预期输出形式（如“生成SOP”、“Checklist” 或“Excel 表格”）。
写清约束条件：这是模型表现的分水岭。例如“预算严格低于3000 元”、“严禁拆墙布线”、“必须照顾清真饮食”。
提供参考范本：如果可能，给出一个你认为好的示例，让模型模仿其风格或结构。

4.2 复杂问题“分步走”策略

不要试图用一个庞大的指令解决所有问题，效果往往不佳。建议采用以下策略：

拆解分步问：将复杂任务拆解为小步骤。例如，先让模型列出大纲，确认无误后，再让它填充每一个章节的细节。
先框架后填充：要求模型“先给出整体解决框架”，当你认可这个逻辑后，再指令它“按此框架执行”。

4.3 不知道怎么做？让AI 问你

很多时候，我们自己也不清楚具体需求（例如“我想装修书房但没灵感”）。此时，不要强行下指令，而是使用逆向引导策略：

指令示例：“我想要设计一个书房，但我不知道具体该怎么做。请你作为专业设计师，不断向我提问，引导我明确我的需求、风格偏好和预算，直到你收集了足够的信息，再为我生成一份完美的方案。”

通过多轮“AI 提问-人回答”，可以极大地挖掘隐性需求，产出远超预期的方案。

4.4 模型选型策略

根据任务属性选择最适合的工具：

逻辑验证与排期（如行程、预算）：首选ChatGPT。
长文档与SOP 制定（如策划书）：首选Claude。
时效性信息（如避雷指南）：首选Grok。
思维框架拆解：Gemini 是很好的辅助。

A 附录：Demo场景原始Prompt与评分细则

评分说明

复杂需求解析力：0/1（未注意/注意）
具体化与可操作性：C/B/A （笼统提及/部分量化/全部量化）（记分为0/1/2）
交互中的适应性：取追问后约束条件项以上两项评分的平均值

Demo 1：北京5 天家庭游

初始Prompt

为一家5 人设计北京5 天旅行（外公外婆70 多岁，儿子儿媳35 岁，女儿6 岁），要求：外公外婆不能走太多路，需适配轮椅通道，女儿要有趣味互动项目，父母想兼顾文化体验与拍照出片，预算人均1500 元（含住宿交通门票餐饮），住宿需近地铁且有电梯，每天行程不超过6 小时，避开网红扎堆景点。

追问

老人不想去长城，车程太长；
预算超了，酒店换经济型（含电梯+ 近地铁）；
增加户外自然场景；
每天中午要留1 小时给孩子午睡。

约束条件	Gemini	GPT	Claude	Grok
轮椅通道/无障碍友好	1 / A	1 / A	1 / A	1 / A
趣味互动项目（女儿6 岁）	1 / A	1 / A	1 / A	1 / A
文化体验（父母诉求）	1 / A	1 / A	1 / A	1 / A
拍照出片（父母诉求）	1 / A	1 / A	1 / A	1 / A
总预算：人均1500	1 / B	1 / A	1 / A	1 / A
住宿：近地铁+ 有电梯	1 / A	1 / A	1 / A	1 / A
每天行程时长≤6 小时	1 / A	1 / A	1 / A	1 / A
避开网红扎堆景点	0 / –	1 / A	1 / B	1 / A
追问：不去长城	1 / A	-	-	-
追问：预算超换酒店	1 / A	1 / A	1 / A	1 / A
追问：增加户外自然	1 / A	1 / A	1 / A	1 / A
追问：每日午睡1 小时	1 / A	1 / A	1 / A	1 / A
评分（总）	9.17/9.55	10/10	9.55/10	10/10
评分（追问）	10/10	10/10	10/10	10/10

Demo 2：跨国公司团建晚宴

初始Prompt

为一场跨国科技公司的内部团队建设活动，策划一个线下晚宴。晚宴核心目标是促进来自中国、印度、中东和欧洲地区同事的交流与融合。关键要求如下：

总成本需严格控制，人均餐饮成本不宜过高；充分考虑来自四个地区同事的饮食禁忌（如清真、素食、特定避讳）和口味偏好；氛围与互动：不能只是吃饭，需要设计简单、低成本的破冰环节，促进不同文化背景同事的自然交流。

概述你的整体策划思路与核心挑战，然后给出包含具体菜单、环节安排、成本控制点的详细方案。

追问

我对初稿不满意。方案感觉还是太常规，且成本估算模糊。请换一种截然不同的思路，或许我们可以完全放弃桌餐，采用另一种餐饮形式和互动方式，但依然要满足所有文化约束。

约束条件	Gemini	GPT	Claude	Grok
成本严格控制	1 / B	1 / A	1 / A	1 / A
饮食禁忌：清真	1 / A	1 / A	1 / A	1 / A
饮食禁忌：素食/蛋奶素	1 / A	1 / A	1 / A	1 / A
饮食禁忌：过敏/避讳	1 / A	1 / A	1 / A	1 / A
口味与辣度分层	1 / B	1 / A	1 / B	1 / B
低成本破冰与互动	1 / A	1 / A	1 / A	1 / B
整体思路与核心挑战	1 / A	1 / A	1 / A	1 / A
具体菜单（可执行）	1 / A	1 / A	1 / A	1 / A
环节安排（时间线）	1 / A	1 / A	1 / A	1 / A
成本控制点	1 / A	1 / A	1 / A	1 / A
追问：截然不同思路	1 / A	1 / A	1 / A	1 / A
追问：替代餐饮形式	1 / A	1 / A	1 / A	1 / A
追问：仍满足全部禁忌	1 / A	1 / A	1 / A	1 / A
评分（总）	9.23/10	10/10	9.62/10	9.23/10
评分（追问）	10/10	10/10	10/10	10/10

Demo 3： 15 平书房氛围感设计

初始Prompt

我想重新设计我的个人书房，希望它更有“氛围感”。但我无法准确描述我想要的。我不想要那种很浮夸的古典风。希望它是有温度的、能让我静下心来的，同时最好还有点独特的个性。预算中等偏上，房间大约15 平米，有个大窗户。请作为我的设计顾问，通过向我提问和给出选项的方式，一步步帮我明确想法，并最终输出一份简单的概念方案（包括主色调、关键家具或装饰品建议、氛围营造核心点）。

约束条件	Gemini	GPT	Claude	Grok
需求澄清（提问+ 选项）	1 / A	1 / A	1 / A	1 / A
风格：不要浮夸古典	1 / A	1 / A	1 / A	1 / A
氛围：有温度能静心	1 / A	1 / A	1 / A	1 / A
个性化：独特不过度	1 / A	1 / A	1 / B	1 / A
预算：中等偏上	1 / B	0 / –	1 / B	1 / A
空间：15 ㎡+ 大窗户	1 / A	1 / A	1 / B	1 / A
交付：主色调建议	1 / A	1 / A	1 / A	1 / A
交付：关键家具建议	1 / A	1 / A	1 / A	1 / A
交付：氛围营造核心	1 / A	1 / A	1 / A	1 / A
过程：从不确定到收敛	1 / A	1 / A	-	-
评分（总）	9.50/10	9/10	8.33/10	10/10
评分（追问）	10/10	10/10	10/10	10/10

Demo 4： SJTU AI 本科生生涯规划

初始Prompt

我是上海交通大学人工智能学院的一名大二本科生，正处在大学最关键的十字路口，非常焦虑，希望你能作为我的学业战略顾问提供深度分析。

我的现状与困境：

课程与科研：GPA 中等偏上（大约3.8/4.3），对课程涉及的方向（如CV、NLP、强化学习）都感兴趣，但没有明确的“最爱”。想尝试科研，但不知如何联系导师和选择方向，也担心自己能力不足。

实习与竞赛：暑假在即，我面临几个选择：A. 尽全力申请一家大厂（如腾讯、微软）的AI 实习（很难）；B. 参加一个知名的AI 竞赛（如Kaggle、天池）；C. 留在学校，尝试进入一个实验室。我不知道哪个对长期发展最有利。

未来出路：我对“读研”和“工作”没有明显倾向。听说现在顶尖硕士和PhD 申请非常卷，而好工作又很看重项目和实践。我感到时间有限，必须做出侧重。

核心焦虑：我感觉身边每个人似乎都有清晰的规划，而我像是在被各种选择推着走，生怕“一步选错，步步落后”，浪费了宝贵的本科时间。

针对我的选择困难，请你不要直接告诉我该选哪个，而是为我设计一个个人战略分析框架。这个框架应该能帮助我系统地厘清自己的优势、劣势、短期机会和长期目标。然后，请基于这个框架，为我勾勒出2-3 种截然不同的、时间跨度到本科毕业的个性化发展路线图。最后，请告诉我，在未来一个月内，我最应该完成的、用于降低焦虑和明确方向的一个最小可行行动是什么？

追问

你设计的框架似乎假设“兴趣”是静态的。但本科生的兴趣恰恰是在尝试中动态变化的。你的框架如何容纳这种不确定性？如果我按照路线图A（以科研为主）走了半年后，发现自己其实更喜欢工程，这个框架会如何帮我调整，而不是让我感到计划失败？

约束条件	Gemini	GPT	Claude	Grok
语境贴合（SAIer）	1 / A	0 / –	0 / –	0 / –
不直接替选A/B/C	1 / A	1 / A	1 / A	1 / A
输出：战略分析框架	1 / B	1 / A	1 / A	1 / A
框架覆盖：优劣/短期/长期	1 / A	1 / A	1 / A	1 / A
输出：2-3 条不同路线	1 / A	1 / A	1 / A	1 / A
输出：最小可行行动	1 / A	1 / A	1 / A	1 / A
追问：容纳兴趣不确定性	1 / A	1 / A	1 / A	1 / A
追问：路线调整机制	1 / A	1 / A	1 / A	1 / A
评分（总）	9.38/10	8.75/10	8.75/10	8.75/10
评分（追问）	10/10	8.75/10	8.75/10	8.75/10

Demo 5：老旧小区全屋智能改造

初始Prompt

90 年代老旧小区“适老化+ 极客”全屋智能改造

背景设定：我就职于一家互联网公司，是一名数码爱好者。最近父母搬来和我同住，这套房子是90 年代建成的老式三室一厅（约90 平米），装修并未翻新，线路老化。父母（65 岁+）对触屏和语音指令有抗拒感，且记性不太好。请为我设计一套全屋智能改造方案。

关键约束：

物理环境限制：墙壁开关盒内没有零线（单火线环境），且我不打算重新凿墙布线。 Wi-Fi 信号在卫生间和厨房有死角。

生态兼容性：我使用iPhone（习惯HomeKit），父母使用红米手机（米家生态）。我希望双方都能控制，且不需要在手机上切换App。

交互原则：必须“无感”且“保留物理直觉”。任何自动化如果失效，必须能像传统开关一样物理控制。严禁出现“父母半夜起夜，灯突然爆亮”或者“父母坐在沙发上看报纸，灯自动关了”的情况。

隐私与安全：室内严禁使用任何云端存储的摄像头。

预算：硬件成本控制在3000 元人民币以内（不含家电，只含传感器、网关、开关等）。

任务要求：

技术选型逻辑：请清晰分析选择哪种通信协议（Wi-Fi/Zigbee/Bluetooth Mesh/Matter），并解释为何这种协议适合“单火线+ 老房”环境。

设备清单：给出关键设备的类型和数量预估（无需具体品牌型号，但要指明技术规格，如“带零火转换的开关”或“毫米波雷达”）。

场景编程逻辑：详细设计“夜间起夜”和“客厅休憩”两个场景的自动化判定逻辑，必须展示如何解决误触和误判。

追问

关于” 客厅休憩”，我父母在沙发上看书时身体几乎静止，普通的红外人体传感器经常判定无人而关灯，导致他们很生气。请给出具体的解决方案，如果预算超了，可以削减其他非必要区域的预算。
万一我家路由器坏了断网了，这套系统还能不能保证最基础的本地联动（如按开关灯亮、传感器触发灯亮）？请解释其技术原理。

约束条件	Gemini	GPT	Claude	Grok
物理限制：单火线	1/A	1/A	1/A	1/A
Wi-Fi死角覆盖方案	1/A	1/A	1/A	1/A
生态兼容：HomeKit+米家	1/A	1/A	1/A	1/A
无感自动化+物理保留	1/A	1/A	1/B	1/B
安全：严禁半夜爆亮/误关	1/A	1/A	1/A	1/A
隐私：禁用云端摄像头	1/A	1/A	1/A	1/A
预算：硬件<3000	1/A	1/A	1/A	1/A
技术选型：协议比较	1/B	1/B	1/B	1/A
设备清单：类型/数量	1/A	1/A	1/A	1/A
场景：夜间起夜逻辑	1/B	1/A	1/B	1/B
场景：客厅休憩逻辑	1/B	1/A	1/B	1/B
追问：静坐误判解决	1/A	1/A	1/A	1/A
追问：预算超削减策略	-	1/A	1/A	-
追问：断网本地联动	1/A	1/A	1/A	1/A
评分（总）	8.85/10	9.64/10	8.57/10	8.85/10
评分（追问）	10/10	10/10	10/10	10/10

Demo 6：校园百团大战统筹

初始Prompt

场景背景：我是是上海交通大学学生会活动部部长。本周五下午14：00 - 17：30，将在约20 亩（约13,000 平方米）的半圆形中央大草坪举办社团文化节（百团大战）。

场地地理环境：北面（半圆弧边）：紧邻第一教学楼，必须保持相对安静，严禁噪音直冲，否则会被教务处叫停。南面（直径边）：紧邻校园主干道，车流量大，对噪音不敏感。

核心矛盾：草坪是一个开放空间，无隔音墙。全校130 个社团同台展示，必须解决 “声浪制造者”、“静谧需求者”和“空间需求者”之间的共存死结。

核心数据与资源约束：

A 类：声浪制造者（41 个）。高音量组（15 个）：乐队联盟、525 街舞社等。核心需求：必须使用大功率音响炸场。中低音量/人声组（26 个）：阿卡贝拉清唱社、英语辩论社等。核心需求：有声音，但怕干扰，若旁边是乐队则无法进行。资源死线：学生会物资仓库仅有8 个大型户外拉杆音响和12 个便携式扩音器。但这41 个社团都申请了独立音响，你必须进行分配或拒绝。

B 类：静谧需求者（34 个）。特征社团：围棋协会、书画篆刻、白岩诗社。要求：只要周围分贝超过60dB，体验归零，立即投诉。

C 类：空间需求者（55 个）。特征社团：极限飞盘、交龙机器人、射艺协会。隐患：不仅占地大，且飞盘、弓箭、机器人都有物理安全风险。

任务：请作为我的首席执行统筹，基于上述条件输出一份精确的可执行方案。

任务一：空间布局（请用文字描绘地图）。请结合“北面教学楼（静）、南面马路（噪）” 的地理特征，说明不同社团在半圆形草坪上的具体落位。“隔音墙”策略：详细说明如何利用C 类（空间类）社团的55 个摊位，在A 类和B 类社团之间构建物理缓冲区？A 类内部排布：如何安排高低音量社团位置和活动时间以避免相互干扰？

任务二：资源分配与分贝管理（14：00 - 17：30）。音响分配：41 个社团共用20 个音响设备（8 大12 小）。请给出分配逻辑。分时段防爆音机制：为了防止全场噪音失控，请制定一套合理的音响使用规则。

任务三：高危社团安置。交龙机器人战队：重型设备，需接电，且有冲撞风险。放在哪？射艺协会：真实弓箭体验。如何划定绝对安全区，确保不误伤隔壁摊位的同学？

追问

你的方案正在执行，但活动现场发生了三个紧急情况，请立即给出解决方案：

人流暴增（安全危机）：原本预计人流平稳，但下午16：00 突然涌入3000 名下课学生。通往C 类（空间区）的主通道被围得水泄不通，极限飞盘社的飞盘差点砸到围观人群的头。请立即给出动线调整方案：如何快速疏散人群？C 类社团的活动是否需要叫停或降级？
音响故障（技术危机）：525 街舞社正准备进行全场焦点的随舞活动，此时分配给他们的主音响突然故障，随意调配会导致你原有的规划被打乱，你该如何调整音响分配使活动顺利进行。
风向突变（环境危机）：下午风力突然增大到5 级。多个社团活动受到严重影响，如：书画篆刻协会的宣纸被吹得满天飞，羽毛球协会完全无法在室外对打，飞盘协会的飞盘无法控制方向。请给出针对受大风影响较大的社团的紧急补救或替代展示方案。

约束条件	Gemini	GPT	Claude	Grok
时间/场地策略	1/A	1/A	1/A	1/A
三类社团矛盾处理	1/A	1/A	1/A	1/A
空间布局（落位逻辑）	1/B	1/A	1/A	1/B
隔音墙/物理缓冲	1/A	1/A	1/A	1/A
A类排布/互扰避免	1/A	1/A	1/A	1/A
音响分配（20设备41社团）	1/A	1/A	1/B	1/B
分贝管理/防失控	1/A	1/A	1/A	1/A
高危安置：机器人	1/A	1/A	1/A	1/A
高危安置：射艺	1/A	1/A	1/A	1/A
追问：人流暴增应急	1/A	1/A	1/A	1/A
追问：主音响故障	1/A	1/A	1/A	1/A
追问：大风替代方案	1/A	1/A	1/A	1/A
评分（总）	9.62/10	10/10	9.62/10	9.23/10
评分（追问）	10/10	10/10	10/10	10/10

Demo 7：春节社恐指南

初始Prompt

我是一个非常内敛的人，平常不太会说话，非常社恐。现在正值春节，我要回老家过年，会遇到很多几年都没有见面的亲戚朋友。

我的要求是：1. 我要参加很多次聚餐，告诉我在不同的饭局上都能聊什么。2. 在家里招待亲戚朋友的时候，有什么需要招待的，详细地说出细节上需要注意的点，还有话语上要注意什么。3. 在走亲戚的时候，去别人家有什么需要注意的点，要带什么样的礼物，应该说什么话。

我的亲戚朋友包括但不仅限于：1. 老家的旁系亲属长辈，如七大姑八大姨等。2. 老家村子里认识我爸妈，但是不认识我，我也不认识他们的一些村民。3. 一些长辈的孩子（有较浅的亲缘关系），很多年没有见过面，但是小的时候曾一起玩过，互相认识。4. 小学幼儿园的同学（很久没有联系过）。

注意：可以设想很多个情景，并列出各种情境下应该如何面对，在行为上、语言上都要注意什么。

情景例如：1. 去别人家串门，长辈直接问自己的学业成绩，工作情况，还有恋爱状况；2. 跟很久没见的同学见面，却发现自己与他没有什么共同话题，一度冷场；3. 自己家的长辈（爸爸妈妈，爷爷奶奶）都去外面走亲戚了，家里只剩下我一个人，但是突然来了个我不认识的亲戚。

其余场景至少再补充两个，你要自己提供，使我能够灵活应对各种情况。

追问

除了直接告诉我各种情况的解决方案，有没有什么方法，可以从根本改变我不善言谈，内敛害羞的性格
我对你生成的内容很不满意！你说得太笼统了，我需要过年走亲戚的可以切实落地的完美方案！你需要让我彻底放下包袱，能够得体地和亲戚朋友们交流。

约束条件	Gemini	GPT	Claude	Grok
需求1:多次聚餐话术	1/A	1/A	1/A	1/A
需求2:在家招待细节	1/A	1/A	1/A	1/A
需求3:走亲戚礼仪	1/A	1/A	1/A	1/A
覆盖人群:旁系长辈	1/A	1/A	1/A	1/A
覆盖人群:不熟村民	1/A	1/A	1/A	1/A
覆盖人群:亲缘浅同辈	1/A	1/A	1/A	1/A
覆盖人群:久未联系同学	1/A	1/A	1/A	1/A
情景1:被问隐私应对	1/A	1/A	1/A	1/B
情景2:冷场破冰	1/A	1/A	1/A	1/B
情景3:独自接待陌生亲戚	1/A	1/A	1/A	1/B
额外补充新情景	1/A	1/A	1/A	1/A
可落地程度	1/A	1/A	1/A	1/B
追问:根本改善社恐	0/-	1/A	1/A	1/A
追问:方案再细化	1/A	1/A	1/A	1/A
评分(总)	9.29/10	10/10	10/10	8.57/10
评分(追问)	5/10	10/10	10/10	10/10

摘要#

1 项目背景与测评框架#

1.1 项目背景#

1.2 四大测评维度#

2 综合横向测评评分#

数据解读：#

3 模型特色深度解析#

3.1 ChatGPT：双脑驱动的超级顾问#

3.2 Gemini：结构化的逻辑规划师#

3.3 Grok：实时、犀利且多变的破局者#

3.4 Claude：严谨的文档与执行专家#

4 大模型使用指南#

4.1 提示词构建“万能公式”#

4.2 复杂问题“分步走”策略#

4.3 不知道怎么做？让AI 问你#

4.4 模型选型策略#

A 附录：Demo场景原始Prompt与评分细则#

评分说明#

Demo 1： 北京5 天家庭游#

Demo 2： 跨国公司团建晚宴#

Demo 3： 15 平书房氛围感设计#

Demo 4： SJTU AI 本科生生涯规划#

Demo 5： 老旧小区全屋智能改造#

Demo 6： 校园百团大战统筹#

Demo 7： 春节社恐指南#

摘要

1 项目背景与测评框架

1.1 项目背景

1.2 四大测评维度

2 综合横向测评评分

数据解读：

3 模型特色深度解析

3.1 ChatGPT：双脑驱动的超级顾问

3.2 Gemini：结构化的逻辑规划师

3.3 Grok：实时、犀利且多变的破局者

3.4 Claude：严谨的文档与执行专家

4 大模型使用指南

4.1 提示词构建“万能公式”

4.2 复杂问题“分步走”策略

4.3 不知道怎么做？让AI 问你

4.4 模型选型策略

A 附录：Demo场景原始Prompt与评分细则

评分说明

Demo 1：北京5 天家庭游

Demo 2：跨国公司团建晚宴

Demo 3： 15 平书房氛围感设计

Demo 4： SJTU AI 本科生生涯规划

Demo 5：老旧小区全屋智能改造

Demo 6：校园百团大战统筹

Demo 7：春节社恐指南