国际大模型

测评人：胡昊旻刘晨雨李锦昊摘要我们基于真实且复杂的工程实践场景（如旅行规划、社交策划、全屋智能等），对四款国际主流大模型（ChatGPT-5.2， Claude Opus 4.5， Gemini 3 Pro， Grok-4）进行了全方位横向测评。报告旨在通过严谨的测试与案例复现，解析各模型的技术特质，并提供具有行业参考价值的使用指南。 1 项目背景与测评框架 1.1 项目背景当前AI 产品和工具不断涌现，但真正基于复杂工程实践、具备深度洞察的测评和使用说明依然稀缺。Human Skills：AI 测评项目致力于对AI 前沿工具展开严谨测试与案例复现，从技术上进行深度拆解，最终形成具有行业参考价值的技术博客与开源文档。 1.2 四大测评维度本次测评基于以下四个核心维度对模型能力进行量化评估：复杂需求解析力能力定义：识别任务中隐性矛盾与多重约束，并理清其优先级的能力。例如：在预算有限的情况下，如何平衡“适老化改造”与“极客体验”。思维过程可见性能力定义：展示推理步骤、权衡不同方案，使思考路径清晰透明的能力。这决定了用户是否敢于信任模型给出的关键决策（如排期、预算）。具体化与可操作性能力定义：将抽象目标转化为带有细节、可被执行和验证的具体措施的能力。模型能否从“给出一个建议”进化为“给出一份可执行的SOP”。交互中的适应性（追问后）能力定义：在对话中有效整合反馈，对方案进行连贯迭代和优化调整的能力。模型是机械地打补丁，还是能根据新约束重构方案。 2 综合横向测评评分基于7 个demo 的详细实测数据（详见附录A ），四款模型在核心维度上的最终得分如下表所示。测评维度 Gemini ChatGPT Claude Grok 复杂需求解析力 9.779 9.679 9.821 9.821 思维过程可见性 9.000（比较详细） 10.000（非常详细） 7.000（回答中包含） 7.000（回答中包含）具体化与可操作性 9.445 9.949 9.383 9.411 交互中的适应性 9.643 9.911 9.911 9.911 综合评分 9.467 9.885 9.029 9.036 表1：四款模型综合能力评分总表（数据来源：附录详细测评） ...