<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>国际大模型 on Human Skills</title>
    <link>https://sjtu-sai-geekcenter.github.io/Human-Skills/tags/%E5%9B%BD%E9%99%85%E5%A4%A7%E6%A8%A1%E5%9E%8B/</link>
    <description>Recent content in 国际大模型 on Human Skills</description>
    <generator>Hugo -- 0.146.0</generator>
    <language>zh-cn</language>
    <lastBuildDate>Wed, 25 Feb 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://sjtu-sai-geekcenter.github.io/Human-Skills/tags/%E5%9B%BD%E9%99%85%E5%A4%A7%E6%A8%A1%E5%9E%8B/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Human Skills——国际主流模型测评</title>
      <link>https://sjtu-sai-geekcenter.github.io/Human-Skills/posts/international_llm/</link>
      <pubDate>Wed, 25 Feb 2026 00:00:00 +0000</pubDate>
      <guid>https://sjtu-sai-geekcenter.github.io/Human-Skills/posts/international_llm/</guid>
      <description>&lt;p&gt;&lt;strong&gt;测评人：胡昊旻 刘晨雨 李锦昊&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;摘要&#34;&gt;摘要&lt;/h2&gt;
&lt;p&gt;我们基于真实且复杂的工程实践场景（如旅行规划、社交策划、全屋智能等），对四款国际主流大模型（ChatGPT-5.2， Claude Opus 4.5， Gemini 3 Pro， Grok-4）进行了全方位横向测评。报告旨在通过严谨的测试与案例复现，解析各模型的技术特质，并提供具有行业参考价值的使用指南。&lt;/p&gt;
&lt;h2 id=&#34;1-项目背景与测评框架&#34;&gt;1 项目背景与测评框架&lt;/h2&gt;
&lt;h3 id=&#34;11-项目背景&#34;&gt;1.1 项目背景&lt;/h3&gt;
&lt;p&gt;当前AI 产品和工具不断涌现，但真正基于复杂工程实践、具备深度洞察的测评和使用说明依然稀缺。Human Skills：AI 测评项目致力于对AI 前沿工具展开严谨测试与案例复现，从技术上进行深度拆解，最终形成具有行业参考价值的技术博客与开源文档。&lt;/p&gt;
&lt;h3 id=&#34;12-四大测评维度&#34;&gt;1.2 四大测评维度&lt;/h3&gt;
&lt;p&gt;本次测评基于以下四个核心维度对模型能力进行量化评估：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;复杂需求解析力&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;能力定义：识别任务中隐性矛盾与多重约束，并理清其优先级的能力。例如：在预算有限的情况下，如何平衡“适老化改造”与“极客体验”。&lt;/p&gt;
&lt;ol start=&#34;2&#34;&gt;
&lt;li&gt;&lt;strong&gt;思维过程可见性&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;能力定义：展示推理步骤、权衡不同方案，使思考路径清晰透明的能力。这决定了用户是否敢于信任模型给出的关键决策（如排期、预算）。&lt;/p&gt;
&lt;ol start=&#34;3&#34;&gt;
&lt;li&gt;&lt;strong&gt;具体化与可操作性&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;能力定义：将抽象目标转化为带有细节、可被执行和验证的具体措施的能力。模型能否从“给出一个建议”进化为“给出一份可执行的SOP”。&lt;/p&gt;
&lt;ol start=&#34;4&#34;&gt;
&lt;li&gt;&lt;strong&gt;交互中的适应性（追问后）&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;能力定义：在对话中有效整合反馈，对方案进行连贯迭代和优化调整的能力。模型是机械地打补丁，还是能根据新约束重构方案。&lt;/p&gt;
&lt;h2 id=&#34;2-综合横向测评评分&#34;&gt;2 综合横向测评评分&lt;/h2&gt;
&lt;p&gt;基于7 个demo 的详细实测数据（详见附录A ），四款模型在核心维度上的最终得分如下表所示。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;测评维度&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;Gemini&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;ChatGPT&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;Claude&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;Grok&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;复杂需求解析力&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.779&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.679&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.821&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.821&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;思维过程可见性&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.000&lt;!-- raw HTML omitted --&gt;（比较详细）&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;10.000&lt;!-- raw HTML omitted --&gt;（非常详细）&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;7.000&lt;!-- raw HTML omitted --&gt;（回答中包含）&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;7.000&lt;!-- raw HTML omitted --&gt;（回答中包含）&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;具体化与可操作性&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.445&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.949&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.383&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.411&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;交互中的适应性&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.643&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.911&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.911&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.911&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;综合评分&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.467&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.885&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.029&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.036&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;表1： 四款模型综合能力评分总表（数据来源：附录详细测评）&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
