Posts on Human Skills

Human Skills: Deep Evaluation of Frontier AI Tools Across Multiple Domains

Sat, 21 Feb 2026 14:03:33 +0800

上海交通大学人工智能学院冬修计划——极客中心 Human Skills AI 测评项目序言

Human Skills——国际主流模型测评

Wed, 25 Feb 2026 00:00:00 +0000

测评人：胡昊旻刘晨雨李锦昊

摘要

我们基于真实且复杂的工程实践场景（如旅行规划、社交策划、全屋智能等），对四款国际主流大模型（ChatGPT-5.2， Claude Opus 4.5， Gemini 3 Pro， Grok-4）进行了全方位横向测评。报告旨在通过严谨的测试与案例复现，解析各模型的技术特质，并提供具有行业参考价值的使用指南。

1 项目背景与测评框架

1.1 项目背景

当前AI 产品和工具不断涌现，但真正基于复杂工程实践、具备深度洞察的测评和使用说明依然稀缺。Human Skills：AI 测评项目致力于对AI 前沿工具展开严谨测试与案例复现，从技术上进行深度拆解，最终形成具有行业参考价值的技术博客与开源文档。

1.2 四大测评维度

本次测评基于以下四个核心维度对模型能力进行量化评估：

复杂需求解析力

能力定义：识别任务中隐性矛盾与多重约束，并理清其优先级的能力。例如：在预算有限的情况下，如何平衡“适老化改造”与“极客体验”。

思维过程可见性

能力定义：展示推理步骤、权衡不同方案，使思考路径清晰透明的能力。这决定了用户是否敢于信任模型给出的关键决策（如排期、预算）。

具体化与可操作性

能力定义：将抽象目标转化为带有细节、可被执行和验证的具体措施的能力。模型能否从“给出一个建议”进化为“给出一份可执行的SOP”。

交互中的适应性（追问后）

能力定义：在对话中有效整合反馈，对方案进行连贯迭代和优化调整的能力。模型是机械地打补丁，还是能根据新约束重构方案。

2 综合横向测评评分

基于7 个demo 的详细实测数据（详见附录A ），四款模型在核心维度上的最终得分如下表所示。

测评维度	Gemini	ChatGPT	Claude	Grok
复杂需求解析力	9.779	9.679	9.821	9.821
思维过程可见性	9.000（比较详细）	10.000（非常详细）	7.000（回答中包含）	7.000（回答中包含）
具体化与可操作性	9.445	9.949	9.383	9.411
交互中的适应性	9.643	9.911	9.911	9.911
综合评分	9.467	9.885	9.029	9.036

表1：四款模型综合能力评分总表（数据来源：附录详细测评）

Human Skills——文档生成类AI测评

Tue, 24 Feb 2026 00:00:00 +0000

测评人：王佳骏, 姚奕萱, 欧阳曦

一、前言

（一）背景概述

文档撰写占据了大量时间，传统创作方式不仅耗时耗力，还常面临思路枯竭、格式规范、质量把控等挑战。AI文档生成工具的出现为上述痛点提供了系统性解决方案——能够快速生成结构化内容，显著提升工作效率，使创作者得以将精力集中于战略思考等更高价值的工作。

近年来，随着大语言模型技术的突破性进展，各类AI文档生成工具在指令理解、文本生成等方面已达到实用化水平。然而，不同工具在技术路线、训练数据、产品定位上存在显著差异，实际表现各有千秋。市场上缺乏系统性的横向对比评测，使得用户在工具选型时往往无所适从。

（二）测评动机与目的

基于上述背景，本团队发起了此次系统性测评。测评聚焦实际工作场景，采用多维度、分场景的评测方法，旨在实现以下目标：

为用户提供客观实用的决策参考，帮助其选择最适合的AI工具，降低试错成本；
探索建立文档生成类AI的评价体系，推动行业评测标准的形成；
通过真实场景测试，揭示各类工具的优势与不足，为AI技术在实际工作中的深度应用提供指导。

二、测评方案介绍

（一）测评对象

本次测评选取以下六款主流AI文档生成工具作为评测对象：Claude 4.6 Opus、Grammarly Go、Notion AI、Gemini 3 Pro、文心一言、通义千问。六款工具涵盖国内外主流产品，在技术路线与产品定位上具有代表性。

（二）测评方法

在实际工作中，文档生成需求具有显著的场景差异性。不同类型的文档在写作目的、受众群体、内容要求、表达风格等方面存在本质区别，这要求AI工具具备多样化的能力适配。基于这一认识，本次测评选取了三个具有代表性的典型场景：

策划案场景：侧重考察AI的逻辑架构能力、复杂信息整合能力和说服力表达；
科普文稿场景：侧重考察AI的知识准确性、通俗化表达和受众适配能力；
个人简历场景：侧重考察AI的信息提炼能力、格式规范性和个性化呈现。

上述三个场景覆盖了学习工作中最常见的文档类型，且在能力要求上各有侧重。因此，测评时相应采用了差异化的评价标准：策划案场景重点关注方案的创新性与可行性；科普文稿场景更看重内容的准确性与可读性；简历场景则强调信息的精准提炼与专业呈现。这种分场景、差异化的评测方法，能够更全面、更真实地反映各AI工具在实际应用中的表现。

三、分场景具体测评情况

（一）场景一：策划案撰写

1. 测评Demo说明

【情景复现】小交是上海交通大学"筑梦"返校宣讲队的组长，正在筹划带队回高中母校宣讲事宜。他带领约20名同学，计划向高三学弟学妹及家长介绍交大的专业与校园生活，鼓励报考。为向学校评审老师和高中校方提交一份合格的策划方案，他急需将脑海中零散的想法梳理为系统化的策划框架。

基于上述情景，测评团队设计了统一的Prompt输入各AI工具，要求其生成完整的返校宣讲策划案。

以与Gemini的交互界面为例：

2. 场景特点与评价标准说明

策划案写作的核心难点并非格式规范或排版美观——这些要素可由人工快速修正。真正的挑战在于：内容是否全面覆盖决策所需的关键信息，结构是否契合听众的认知逻辑，创新是否服务于核心目标的达成，以及信息是否准确、可验证、经得起推敲。

因此，本次评估弱化了对格式规范性、排版完整性等"呈现层"指标的考核，将权重集中于以下五个深层能力维度：

目标聚焦能力：是否紧扣首要目标，避免次要要素喧宾夺主、稀释主线；
结构组织能力：是否以核心逻辑链条搭建内容架构；
需求平衡能力：是否兼顾多方利益相关者（学生、家长、评审老师）的视角；
创新与执行平衡能力：是否在低成本、可落地的前提下，使形式服务于目标；
内容完整性与准确性：是否覆盖必讲模块，且数据可溯源、无硬伤。

为真实检验各AI在有限交互轮次下的内容构架、需求响应与信息整合能力，本次测评将严格控制交互轮次，以最大限度还原"一次性生成+微调定稿"的真实、具有时效性的策划场景。

3. 模型得分对比

以下为六款模型在策划案场景下的得分情况：

模型名称	名次	总分	目标聚焦	逻辑结构	需求平衡	创新执行	全面性	交互轮数
Claude 4.6 Opus	1	9.2	9.5	9.5	9.0	8.5	9.5	3
Grammarly Go	2	8.3	8.0	8.0	8.0	9.0	8.5	2
Gemini 3 Pro	3	7.4	7.5	7.5	7.5	7.0	7.5	3
Notion AI	4	7.4	7.0	7.5	7.5	7.0	8.0	2
通义千问	5	7.0	6.5	7.0	7.0	7.5	7.0	3
文心一言	6	6.2	5.5	6.0	6.0	7.0	6.5	4

4. 各模型详细评价

Human Skills——编程开发IDE类AI测评

Tue, 24 Feb 2026 00:00:00 +0000

深度测评 Cursor、Windsurf、Trae、通义灵码、Qoder 及 Copilot 等主流 AI IDE，通过多维度量化指标与实战案例，探索 AI 原生开发环境的演进方向。

Human Skills——PPT生成类AI测评

Mon, 23 Feb 2026 00:00:00 +0000

探索人、大模型与 PPT AI 的协同工作流，以及不同使用情境下的PPT AI推荐

Human Skills——国内主流模型测评

Mon, 23 Feb 2026 00:00:00 +0000

测评人：闵祺寒，周岱严，杨睿凡

一、前言

随着人工智能技术的飞速发展，大语言模型(Large Language Models, LLMs)已成为推动各生产生活领域变革的核心驱动力之一。2024年至2025年间，国内外科技巨头纷纷推出自研大模型，在文本生成、逻辑推理、代码编写、多模态理解等能力上展开激烈角逐。这些模型不仅在技术架构上持续创新，更在实际应用场景中展现出巨大的商业潜力和社会价值。

本报告旨在对当前国内主流大语言模型进行系统性测评，通过标准化的测试方法和多维度的评估体系，客观呈现各模型的能力边界与特色优势，为企业技术选型、学术研究参考以及普通用户选用AI工具提供有价值的参考依据。

二、参评模型介绍

本次测评共选取6款具有代表性的大语言模型，涵盖深度求索、百度、阿里、字节跳动、月之暗面及腾讯等国内顶尖AI研发团队的产品。

1. DeepSeek-V3.2(深度求索)

开发企业:杭州深度求索人工智能基础技术研究有限公司(DeepSeek)

主要特点:

采用混合专家架构(MoE)，总参数量达万亿级别，每次推理激活约320亿参数
在数学推理、代码生成和逻辑分析方面表现突出，支持超长上下文窗口(最高256K tokens)
开源策略激进，以高性价比著称，API调用成本显著低于同类闭源模型
支持多模态输入，具备图像理解和文档解析能力

2. 文心一言(百度)

开发企业:百度(Baidu)

主要特点:

基于百度自研的ERNIE系列大模型架构，深度整合百度搜索生态和知识图谱
在中文知识问答、文学创作和本土文化理解方面具有独特优势
支持插件扩展和工具调用(Function Calling)，可与百度智能云及第三方服务深度集成
提供多模态版本，支持文生图、语音交互等能力

3. 通义千问 Qwen3-Max-Thinking(阿里云)

开发企业:阿里巴巴达摩院(Alibaba DAMO Academy)

主要特点:

Qwen3系列旗舰版本，采用Thinking模式增强深度推理能力
支持长达百万字符的上下文处理，在文档分析、长文本摘要等任务中表现优异
代码能力突出，支持100+编程语言，在HumanEval等代码评测基准上达到业界领先水平
开源生态完善，衍生出大量垂直领域微调模型，适应多样化行业需求

4. 豆包(字节跳动)

开发企业:字节跳动(ByteDance)

主要特点:

依托字节跳动强大的内容生态，在短视频脚本创作、社交媒体文案生成方面独具特色
语音交互能力出色，支持多种方言识别和情感化语音合成
与抖音、飞书等产品深度整合，提供原生的办公协作和内容创作体验
模型响应速度快，在实时对话和多轮交互场景中流畅度较高

5. Kimi Chat(月之暗面)

开发企业:月之暗面科技有限公司(Moonshot AI)

主要特点:

以超长上下文处理能力著称，标准支持200万字上下文窗口，领先行业水平
擅长长文档分析、论文解读、法律合同审查等需要处理海量文本的场景
在复杂推理和多步骤任务执行中表现稳定，具备较强的指令跟随能力
专注于对话质量优化，支持联网搜索和文件上传解析

6. 元宝(腾讯)

开发企业:腾讯(Tencent)

主要特点:

基于腾讯混元大模型架构，融合腾讯在社交、游戏、内容领域的深厚积累
在角色扮演、创意写作和情感陪伴类应用中表现生动自然
与微信、QQ、腾讯文档等国民级应用生态无缝衔接
多模态能力全面，支持图像生成、视频理解及3D内容创作，在娱乐和社交场景应用广泛

三、测评方法

（1）测评维度

本次测评从以下5个核心维度对模型进行综合评估，每个维度满分10分:

复杂需求解析力: 识别任务中隐性矛盾与多重约束，并理清其优先级的能力。

Human Skills——编程开发CLI类AI测评

Mon, 23 Feb 2026 00:00:00 +0000

测评人：方言，刘瀚元，陈冠男

一、测评背景

在AI辅助编程领域，当前的焦点往往集中在IDE插件（如Cursor）上。然而，对于高阶开发者而言，终端（Terminal）才是真正的控制中心。传统的CLI工具虽然强大，但学习曲线陡峭；而新一代AI CLI工具试图通过将大模型引入终端，实现从“指令执行”到“意图理解”的跨越。

本次测评的核心差异在于，我们不将AI视为一个简单的“问答机器人”，而是将其视为系统级管道（Pipeline）的一部分。重点考察这些工具能否在不脱离键盘手（Hands-on）的情况下，真正理解复杂的项目上下文，并在Git工作流、Shell管道交互中发挥实际效能，而非仅仅生成一段孤立的代码。

二、测评总纲

本次测评采用定性分级的标准，基于四个核心工程维度进行加权考虑，用于界定工具的智能化阶段。

定性评价分级（L1-L5）

L1 (Agent级)：具备完全的上下文感知能力，能自主规划多步操作（如自动Debug闭环），无缝融入Git和Shell管道。
L2 (辅助级)：能准确理解大部分指令，支持一定的多文件操作，但复杂任务仍需人工干预。
L3 (工具级)：仅能作为代码生成器使用，缺乏对项目结构的理解，需频繁复制粘贴。
L4 (干扰级)：配置繁琐，幻觉严重，生成的命令需大量人工修正，效率低于手写。
L5 (不可用)：存在严重安全风险（如擅自执行删除指令）或无法运行。

三、测评维度与评分标准详解

本测评体系依据 Human Skills 项目标准，针对CLI场景特性拆解为以下四大维度：

3.1 场景贴合度 (Context & Pain Points) —— 权重 30%

核心考察：工具对“旧代码”的理解能力与修改的精准度。

细分指标	评分标准说明
全库索引能力	是否能通过AST（抽象语法树）或向量索引理解多层级目录结构？能否准确解析跨文件的变量引用与依赖关系（如data_loader与model_train的关联）？
增量修改精度	在修改代码时，是暴力重写整段文件（导致注释丢失/格式混乱），还是仅输出精准的Diff片段？是否具备“非破坏性”修改的特征？

3.2 工作流集成 (Workflow Integration) —— 权重 30%

核心考察：工具是否具备“原生CLI”特性，能否融入Linux管道与Git流程。

细分指标	评分标准说明
Git自动化	能否读取git diff上下文？能否依据修改内容自动生成符合Conventional Commits规范的提交信息？能否能够接受指令直接执行commit操作？
Shell/管道联动	是否支持标准输入（Stdin）读取（例如 `python main.py 2>&1`）？

3.3 输出质量与稳定性 (Quality & Reliability) —— 权重 25%

核心考察：代码的可执行性、Debug闭环能力及系统安全性。

细分指标	评分标准说明
Debug闭环率	面对报错信息，工具能否自主分析并修改源文件？记录从报错到修复成功所需的交互轮次（Turn Count）。一次性通过率（Pass@1）越高得分越高。
安全与幻觉	是否会生成不存在的API？面对模糊的高危指令（如“清理文件”），是否具备确认机制以防止误删？

3.4 学习成本与效率 (Learning Curve) —— 权重 15%

核心考察：配置复杂度与实际提效比。

Human Skills——手机智能体测评

Sat, 21 Feb 2026 00:00:00 +0000

测评人：廖麟鹭，张祖熙，任泽铖

一、前言

随着大模型技术的深度渗透，手机智能体正经历从“语音助手”到“自主执行体”的关键演进。这一转变不仅意味着交互方式从被动响应向主动预判的升级，更代表着产品能力边界的全面拓展。当前，行业内主要存在两条并行的技术路线：一条是由手机厂商主导的系统原生路线，通过深度整合底层硬件与操作系统，实现更高效的本地算力调度和更无缝的场景联动；另一条则是由独立AI公司推动的第三方路线，依托云端大模型的强大能力，提供更丰富的功能生态和跨平台的服务能力。

为了客观评估这两类产品的真实表现，本次测评设计了一系列覆盖日常办公、生活服务、复杂决策等场景的标准化任务，旨在通过测试结果，厘清它们在任务完成度、隐私安全及多轮交互等维度的能力差异

二、测评产品

本次测评的手机智能体产品主要分为以下两类：

1.系统原生智能体：小布助手、YOYO、超级小爱
2.第三方通用智能体：千问、豆包

三、测评方案

本测评项目聚焦于手机AI Agent的指令执行效果与核心能力，将任务分为三个复杂度递增的基本层级：基础指令执行、任务理解、跨应用操作，并分别设计了对应的demo进行测试。我们对测试环境、操作流程和结果进行了记录，供读者参考和进一步探究。

四、系统原生智能体测试结果

1.小布助手

测试机型：OPPO Find X8s

系统版本：ColorOS 16.0.3

小布助手版本：12.5.2（版本号：12.5.2_f64d459_260126）

测试时间：2026年2月12日

（1）基础执行

小布助手可以完成系统控制、应用唤起的基础执行，并且在省电模式和下述即将出现的时钟等界面右方的按钮处，可以快捷关闭或再次打开。

（2）复杂理解

1）多轮对话

对话 1:

对话 2:

小布助手对于简单的多轮对话具有理解能力，并对上一轮对话具有简单的记忆能力。但对于设定闹钟这类简单操作的不同指令理解存在偏差，当输入最简单指令时能正确理解，但当单轮指令变得稍复杂后会出现错误，如下图所示：

类似出现错误情况的还有创立便签,如下图所示:

2）复合指令

指令1：

指令2：

对于指令1，小布助手能完全理解，并经过测试在半小时后也响铃提醒了。

对于指令2，小布助手对于“辣”这类偏主观的描述理解不足，回答中有很多强行自圆其说的辞藻；对于“评分4.5以上”的理解也不足，在回答中出现了“评分为4.2-4.5之间符合要求”的明显矛盾。

指令 3:

这类指令小布助手完全不能理解，并且可以看出小布助手对这种两步式的指令重心落在了用户需求所处的最后一步；当最后一步指令模糊时，甚至会直接跳过第一步的指令。

（3）任务执行

1）手机自带应用

对于拨打通话、发送短信类的操作实现成功,但对于读取短信的功能有所欠缺, 会显示读取失败或直接打开短信界面供用户自行读取:

2）第三方应用

微信相关操作都无法实现,但会弹出微信界面供读者自行操作。

打车、订火车票或机票的任务完成良好。

无法完成大众点评订餐的功能,会输出文字引导用户按文字步骤操作。

（4）拟人交互

1）共情闲聊