Human Skills 👋

Human Skills: Deep Evaluation of Frontier AI Tools Across Multiple Domains

上海交通大学人工智能学院冬修计划——极客中心 Human Skills AI 测评项目序言

Human Skills——国际主流模型测评

测评人：胡昊旻刘晨雨李锦昊摘要我们基于真实且复杂的工程实践场景（如旅行规划、社交策划、全屋智能等），对四款国际主流大模型（ChatGPT-5.2， Claude Opus 4.5， Gemini 3 Pro， Grok-4）进行了全方位横向测评。报告旨在通过严谨的测试与案例复现，解析各模型的技术特质，并提供具有行业参考价值的使用指南。 1 项目背景与测评框架 1.1 项目背景当前AI 产品和工具不断涌现，但真正基于复杂工程实践、具备深度洞察的测评和使用说明依然稀缺。Human Skills：AI 测评项目致力于对AI 前沿工具展开严谨测试与案例复现，从技术上进行深度拆解，最终形成具有行业参考价值的技术博客与开源文档。 1.2 四大测评维度本次测评基于以下四个核心维度对模型能力进行量化评估：复杂需求解析力能力定义：识别任务中隐性矛盾与多重约束，并理清其优先级的能力。例如：在预算有限的情况下，如何平衡“适老化改造”与“极客体验”。思维过程可见性能力定义：展示推理步骤、权衡不同方案，使思考路径清晰透明的能力。这决定了用户是否敢于信任模型给出的关键决策（如排期、预算）。具体化与可操作性能力定义：将抽象目标转化为带有细节、可被执行和验证的具体措施的能力。模型能否从“给出一个建议”进化为“给出一份可执行的SOP”。交互中的适应性（追问后）能力定义：在对话中有效整合反馈，对方案进行连贯迭代和优化调整的能力。模型是机械地打补丁，还是能根据新约束重构方案。 2 综合横向测评评分基于7 个demo 的详细实测数据（详见附录A ），四款模型在核心维度上的最终得分如下表所示。测评维度 Gemini ChatGPT Claude Grok 复杂需求解析力 9.779 9.679 9.821 9.821 思维过程可见性 9.000（比较详细） 10.000（非常详细） 7.000（回答中包含） 7.000（回答中包含）具体化与可操作性 9.445 9.949 9.383 9.411 交互中的适应性 9.643 9.911 9.911 9.911 综合评分 9.467 9.885 9.029 9.036 表1：四款模型综合能力评分总表（数据来源：附录详细测评） ...

Human Skills——文档生成类AI测评

测评人：王佳骏, 姚奕萱, 欧阳曦一、前言（一）背景概述文档撰写占据了大量时间，传统创作方式不仅耗时耗力，还常面临思路枯竭、格式规范、质量把控等挑战。AI文档生成工具的出现为上述痛点提供了系统性解决方案——能够快速生成结构化内容，显著提升工作效率，使创作者得以将精力集中于战略思考等更高价值的工作。近年来，随着大语言模型技术的突破性进展，各类AI文档生成工具在指令理解、文本生成等方面已达到实用化水平。然而，不同工具在技术路线、训练数据、产品定位上存在显著差异，实际表现各有千秋。市场上缺乏系统性的横向对比评测，使得用户在工具选型时往往无所适从。（二）测评动机与目的基于上述背景，本团队发起了此次系统性测评。测评聚焦实际工作场景，采用多维度、分场景的评测方法，旨在实现以下目标：为用户提供客观实用的决策参考，帮助其选择最适合的AI工具，降低试错成本；探索建立文档生成类AI的评价体系，推动行业评测标准的形成；通过真实场景测试，揭示各类工具的优势与不足，为AI技术在实际工作中的深度应用提供指导。二、测评方案介绍（一）测评对象本次测评选取以下六款主流AI文档生成工具作为评测对象：Claude 4.6 Opus、Grammarly Go、Notion AI、Gemini 3 Pro、文心一言、通义千问。六款工具涵盖国内外主流产品，在技术路线与产品定位上具有代表性。（二）测评方法在实际工作中，文档生成需求具有显著的场景差异性。不同类型的文档在写作目的、受众群体、内容要求、表达风格等方面存在本质区别，这要求AI工具具备多样化的能力适配。基于这一认识，本次测评选取了三个具有代表性的典型场景：策划案场景：侧重考察AI的逻辑架构能力、复杂信息整合能力和说服力表达；科普文稿场景：侧重考察AI的知识准确性、通俗化表达和受众适配能力；个人简历场景：侧重考察AI的信息提炼能力、格式规范性和个性化呈现。上述三个场景覆盖了学习工作中最常见的文档类型，且在能力要求上各有侧重。因此，测评时相应采用了差异化的评价标准：策划案场景重点关注方案的创新性与可行性；科普文稿场景更看重内容的准确性与可读性；简历场景则强调信息的精准提炼与专业呈现。这种分场景、差异化的评测方法，能够更全面、更真实地反映各AI工具在实际应用中的表现。三、分场景具体测评情况（一）场景一：策划案撰写 1. 测评Demo说明【情景复现】小交是上海交通大学"筑梦"返校宣讲队的组长，正在筹划带队回高中母校宣讲事宜。他带领约20名同学，计划向高三学弟学妹及家长介绍交大的专业与校园生活，鼓励报考。为向学校评审老师和高中校方提交一份合格的策划方案，他急需将脑海中零散的想法梳理为系统化的策划框架。基于上述情景，测评团队设计了统一的Prompt输入各AI工具，要求其生成完整的返校宣讲策划案。以与Gemini的交互界面为例： 2. 场景特点与评价标准说明策划案写作的核心难点并非格式规范或排版美观——这些要素可由人工快速修正。真正的挑战在于：内容是否全面覆盖决策所需的关键信息，结构是否契合听众的认知逻辑，创新是否服务于核心目标的达成，以及信息是否准确、可验证、经得起推敲。因此，本次评估弱化了对格式规范性、排版完整性等"呈现层"指标的考核，将权重集中于以下五个深层能力维度：目标聚焦能力：是否紧扣首要目标，避免次要要素喧宾夺主、稀释主线；结构组织能力：是否以核心逻辑链条搭建内容架构；需求平衡能力：是否兼顾多方利益相关者（学生、家长、评审老师）的视角；创新与执行平衡能力：是否在低成本、可落地的前提下，使形式服务于目标；内容完整性与准确性：是否覆盖必讲模块，且数据可溯源、无硬伤。为真实检验各AI在有限交互轮次下的内容构架、需求响应与信息整合能力，本次测评将严格控制交互轮次，以最大限度还原"一次性生成+微调定稿"的真实、具有时效性的策划场景。 3. 模型得分对比以下为六款模型在策划案场景下的得分情况：模型名称名次总分目标聚焦逻辑结构需求平衡创新执行全面性交互轮数 Claude 4.6 Opus 1 9.2 9.5 9.5 9.0 8.5 9.5 3 Grammarly Go 2 8.3 8.0 8.0 8.0 9.0 8.5 2 Gemini 3 Pro 3 7.4 7.5 7.5 7.5 7.0 7.5 3 Notion AI 4 7.4 7.0 7.5 7.5 7.0 8.0 2 通义千问 5 7.0 6.5 7.0 7.0 7.5 7.0 3 文心一言 6 6.2 5.5 6.0 6.0 7.0 6.5 4 4. 各模型详细评价 ...

Human Skills——编程开发IDE类AI测评

测评人：刘诚，钱鑫宇，张乐恒第一部分：前言与测评方案 1.1 测评背景随着大语言模型（LLM）技术的爆发式增长，软件开发领域正经历着一场前所未有的范式转移。AI辅助编程工具已从早期简单的代码片段补全，进化为具备深度上下文理解、自主代理能力的集成开发环境。传统的IDE主要依赖开发者手动编写代码、搜索文档和调试错误，而新一代AI IDE（如Cursor、Windsurf等）试图通过内嵌大模型，实现从“辅助编写”到“自主生成与重构”的跨越。然而，市场上的AI IDE产品良莠不齐。部分产品仅停留在API调用的层面，缺乏对项目整体架构的理解，导致生成的代码片段难以融入现有工程，甚至引入隐蔽的Bug；而头部产品已经开始尝试Agent模式，能够自主完成文件检索、依赖配置和多文件协同修改。在这一背景下，建立一套标准化、可量化的测评体系显得尤为迫切。我们需要客观评估这些工具在真实开发场景中的表现，包括其对复杂需求的理解能力、对大型代码库的重构能力以及在实际工作流中的提效程度。本报告旨在通过多维度的实测数据，为开发者选择工具提供依据，并揭示AI辅助开发未来的演进方向。 1.2 测评总纲本次测评采用五级评分制作为定性评价标准，用于界定各细项的体验层级；同时采用百分制作为IDE最终评分的定量标准。定性评价层级（五级评分制）： 1级（夯）：体验极佳，基础扎实，功能完善，无感知的智能化体验。 2级（顶级）：表现优秀，处于行业领先地位，偶有瑕疵但不影响核心体验。 3级（人上人）：体验良好，能满足大部分需求，但在复杂场景下有优化空间。 4级（NPC）：功能存在但体验平庸，甚至有明显缺陷，如同工具人般机械。 5级（拉）：体验极差，功能不可用或严重阻碍开发流程。定量评分总分（100分制）：本测评体系共包含五大维度，累计满分100分。具体分值分布见下文。 1.3 测评维度与评分标准详解一、美观度及个性化程度（10分）本维度主要考察IDE的界面设计美学、交互逻辑以及用户自定义空间的广度。细分维度评分标准与说明界面布局与美观 1级（夯）：界面整洁美观，功能模块布局符合直觉，视觉设计现代化。2级（顶级）：界面清晰，主要功能易于查找。3级（人上人）：界面中规中矩，无明显设计亮点，但不影响使用。4级（NPC）：界面拥挤或陈旧，按键逻辑混乱。5级（拉）：界面丑陋，严重影响使用心情。个性化调整能力 1级（夯）：支持高度个性化调整，主题、快捷键、布局均可自定义，且配置难度低。2级（顶级）：支持主流的个性化设置，满足大部分用户需求。3级（人上人）：支持部分调整，但配置较为繁琐。4级（NPC）：几乎不支持个性化，只能使用默认设置。5级（拉）：强制绑定特定布局，无法适应用户习惯。二、使用难度（10分）本维度考察IDE的入门门槛与环境搭建效率。细分维度分值评分标准细则安装配置的耗时 3分 3分：10MB/s下安装时间在2分钟内，一键配置，图形化界面。2分：整体耗时较长，配置要求复杂，但有官网说明教程，可以接受。1分：配置要求过高，需要自行找使用方式。0分：一般人很难自主完成配置。学习使用的难度 3分 3分：内嵌教程，上手简单，操作基本可以可视化完成或通过agent完成。2.5分：有简短清晰的使用说明且易于操作。2分：有说明文档，文档详细，但过长，对新手不友好。1分：说明长且杂乱，难以理解。0分：一般人难以自主上手。配套社区/插件 4分 4分：有官方社区，其中有许多人经常活跃，推送产品更新信息。3分：有官方社区，有用户交流，能了解产品更新。2分：有官方社区，但活跃度低。1分：无官方社区。0分：基本无法找到相关社区。三、核心功能 - 基础性能（20分）本维度考察IDE作为开发工具的基本素质。 ...

Human Skills——PPT生成类AI测评

测评人：罗梓宸, 陈秋实, 赵博一、前言在数字时代，PPT 是我们不可或缺的演示工具，但传统制作方式不仅耗时费力，还容易遇到内容逻辑混乱、设计排版能力有限等困境。随着人工智能技术的飞速发展，PPT AI 工具应运而生，并逐步改变着 PPT 的创作方式。它们如同不知疲倦的“数字助理”，能够根据简单指令在几十秒内生成完整 PPT 初稿，不仅将人们从繁琐的重复劳动中解放出来，更重塑了生产力的范式。现在，PPT AI 所具有的能力足以令人瞠目结舌。从智能配图、自动排版到语音转 PPT 功能，各类工具在不同维度展现独特优势。例如，一些工具能自动联网搜索高质量图片并融入幻灯片设计，而另一些则具备完备细致的修改功能，让用户能够对每一张 PPT 的方方面面进行优化调整。但就目前来说，当用户使用 PPT AI 制作 PPT 时，我们认为 PPT AI 本质上仍然是在为用户提供一份“PPT 大纲”：将用户提供的文本大纲转换为包含视觉设计、时长控制等元素的可视化“PPT 大纲”。用一句话来概括，PPT AI 更像是用户的协作助手而非全自动的智能工具。基于此认识，我们设计了本次测评的测评维度。在本文中，我们对领域内六个主流 PPT AI 工具进行了测评，并对其优缺点进行了分析，也进行了一些横向对比。对于各个 PPT AI 的缺点，我们也在文中提出了相应的解决方案。此外，在本次测评中，我们尝试将大模型与 PPT AI 联合使用，通过三方共同构建工作流使 PPT 的创作更加便捷、准确，也一定程度解决了由提示词生成 PPT 所产生的稳定性降低问题，提高了可复现性。二、测评方案介绍 1、测评对象本次测评共包含对以下六个 AI 工具的测试： WPS AI、Gamma、ChatPPT、Canva、Beautiful AI、AIPPT 2、测评背景与思路此次测评所采用的方法主要基于我们在使用 AI 工具时的观察到的几个现象。目前市面上主流的 AI 工具的使用模式主要可以分为以下两种：提示词生成 PPT：即用户提要求，AI 做 PPT。大纲生成 PPT：即用户提供详细文件，AI 做 PPT。存在的问题： ...

Human Skills——国内主流模型测评

测评人：闵祺寒，周岱严，杨睿凡一、前言随着人工智能技术的飞速发展，大语言模型(Large Language Models, LLMs)已成为推动各生产生活领域变革的核心驱动力之一。2024年至2025年间，国内外科技巨头纷纷推出自研大模型，在文本生成、逻辑推理、代码编写、多模态理解等能力上展开激烈角逐。这些模型不仅在技术架构上持续创新，更在实际应用场景中展现出巨大的商业潜力和社会价值。本报告旨在对当前国内主流大语言模型进行系统性测评，通过标准化的测试方法和多维度的评估体系，客观呈现各模型的能力边界与特色优势，为企业技术选型、学术研究参考以及普通用户选用AI工具提供有价值的参考依据。二、参评模型介绍本次测评共选取6款具有代表性的大语言模型，涵盖深度求索、百度、阿里、字节跳动、月之暗面及腾讯等国内顶尖AI研发团队的产品。 1. DeepSeek-V3.2(深度求索) 开发企业:杭州深度求索人工智能基础技术研究有限公司(DeepSeek) 主要特点: 采用混合专家架构(MoE)，总参数量达万亿级别，每次推理激活约320亿参数在数学推理、代码生成和逻辑分析方面表现突出，支持超长上下文窗口(最高256K tokens) 开源策略激进，以高性价比著称，API调用成本显著低于同类闭源模型支持多模态输入，具备图像理解和文档解析能力 2. 文心一言(百度) 开发企业:百度(Baidu) 主要特点: 基于百度自研的ERNIE系列大模型架构，深度整合百度搜索生态和知识图谱在中文知识问答、文学创作和本土文化理解方面具有独特优势支持插件扩展和工具调用(Function Calling)，可与百度智能云及第三方服务深度集成提供多模态版本，支持文生图、语音交互等能力 3. 通义千问 Qwen3-Max-Thinking(阿里云) 开发企业:阿里巴巴达摩院(Alibaba DAMO Academy) 主要特点: Qwen3系列旗舰版本，采用Thinking模式增强深度推理能力支持长达百万字符的上下文处理，在文档分析、长文本摘要等任务中表现优异代码能力突出，支持100+编程语言，在HumanEval等代码评测基准上达到业界领先水平开源生态完善，衍生出大量垂直领域微调模型，适应多样化行业需求 4. 豆包(字节跳动) 开发企业:字节跳动(ByteDance) 主要特点: 依托字节跳动强大的内容生态，在短视频脚本创作、社交媒体文案生成方面独具特色语音交互能力出色，支持多种方言识别和情感化语音合成与抖音、飞书等产品深度整合，提供原生的办公协作和内容创作体验模型响应速度快，在实时对话和多轮交互场景中流畅度较高 5. Kimi Chat(月之暗面) 开发企业:月之暗面科技有限公司(Moonshot AI) 主要特点: 以超长上下文处理能力著称，标准支持200万字上下文窗口，领先行业水平擅长长文档分析、论文解读、法律合同审查等需要处理海量文本的场景在复杂推理和多步骤任务执行中表现稳定，具备较强的指令跟随能力专注于对话质量优化，支持联网搜索和文件上传解析 6. 元宝(腾讯) 开发企业:腾讯(Tencent) 主要特点: 基于腾讯混元大模型架构，融合腾讯在社交、游戏、内容领域的深厚积累在角色扮演、创意写作和情感陪伴类应用中表现生动自然与微信、QQ、腾讯文档等国民级应用生态无缝衔接多模态能力全面，支持图像生成、视频理解及3D内容创作，在娱乐和社交场景应用广泛三、测评方法（1）测评维度本次测评从以下5个核心维度对模型进行综合评估，每个维度满分10分: 复杂需求解析力: 识别任务中隐性矛盾与多重约束，并理清其优先级的能力。 ...

Human Skills——编程开发CLI类AI测评

测评人：方言，刘瀚元，陈冠男一、测评背景在AI辅助编程领域，当前的焦点往往集中在IDE插件（如Cursor）上。然而，对于高阶开发者而言，终端（Terminal）才是真正的控制中心。传统的CLI工具虽然强大，但学习曲线陡峭；而新一代AI CLI工具试图通过将大模型引入终端，实现从“指令执行”到“意图理解”的跨越。本次测评的核心差异在于，我们不将AI视为一个简单的“问答机器人”，而是将其视为系统级管道（Pipeline）的一部分。重点考察这些工具能否在不脱离键盘手（Hands-on）的情况下，真正理解复杂的项目上下文，并在Git工作流、Shell管道交互中发挥实际效能，而非仅仅生成一段孤立的代码。二、测评总纲本次测评采用定性分级的标准，基于四个核心工程维度进行加权考虑，用于界定工具的智能化阶段。定性评价分级（L1-L5） L1 (Agent级)：具备完全的上下文感知能力，能自主规划多步操作（如自动Debug闭环），无缝融入Git和Shell管道。 L2 (辅助级)：能准确理解大部分指令，支持一定的多文件操作，但复杂任务仍需人工干预。 L3 (工具级)：仅能作为代码生成器使用，缺乏对项目结构的理解，需频繁复制粘贴。 L4 (干扰级)：配置繁琐，幻觉严重，生成的命令需大量人工修正，效率低于手写。 L5 (不可用)：存在严重安全风险（如擅自执行删除指令）或无法运行。三、测评维度与评分标准详解本测评体系依据 Human Skills 项目标准，针对CLI场景特性拆解为以下四大维度： 3.1 场景贴合度 (Context & Pain Points) —— 权重 30% 核心考察：工具对“旧代码”的理解能力与修改的精准度。细分指标评分标准说明全库索引能力是否能通过AST（抽象语法树）或向量索引理解多层级目录结构？能否准确解析跨文件的变量引用与依赖关系（如data_loader与model_train的关联）？增量修改精度在修改代码时，是暴力重写整段文件（导致注释丢失/格式混乱），还是仅输出精准的Diff片段？是否具备“非破坏性”修改的特征？ 3.2 工作流集成 (Workflow Integration) —— 权重 30% 核心考察：工具是否具备“原生CLI”特性，能否融入Linux管道与Git流程。细分指标评分标准说明 Git自动化能否读取git diff上下文？能否依据修改内容自动生成符合Conventional Commits规范的提交信息？能否能够接受指令直接执行commit操作？ Shell/管道联动是否支持标准输入（Stdin）读取（例如 python main.py 2>&1）？ 3.3 输出质量与稳定性 (Quality & Reliability) —— 权重 25% 核心考察：代码的可执行性、Debug闭环能力及系统安全性。细分指标评分标准说明 Debug闭环率面对报错信息，工具能否自主分析并修改源文件？记录从报错到修复成功所需的交互轮次（Turn Count）。一次性通过率（Pass@1）越高得分越高。安全与幻觉是否会生成不存在的API？面对模糊的高危指令（如“清理文件”），是否具备确认机制以防止误删？ 3.4 学习成本与效率 (Learning Curve) —— 权重 15% 核心考察：配置复杂度与实际提效比。 ...

Human Skills——手机智能体测评

测评人：廖麟鹭，张祖熙，任泽铖一、前言随着大模型技术的深度渗透，手机智能体正经历从“语音助手”到“自主执行体”的关键演进。这一转变不仅意味着交互方式从被动响应向主动预判的升级，更代表着产品能力边界的全面拓展。当前，行业内主要存在两条并行的技术路线：一条是由手机厂商主导的系统原生路线，通过深度整合底层硬件与操作系统，实现更高效的本地算力调度和更无缝的场景联动；另一条则是由独立AI公司推动的第三方路线，依托云端大模型的强大能力，提供更丰富的功能生态和跨平台的服务能力。为了客观评估这两类产品的真实表现，本次测评设计了一系列覆盖日常办公、生活服务、复杂决策等场景的标准化任务，旨在通过测试结果，厘清它们在任务完成度、隐私安全及多轮交互等维度的能力差异二、测评产品本次测评的手机智能体产品主要分为以下两类： 1.系统原生智能体：小布助手、YOYO、超级小爱 2.第三方通用智能体：千问、豆包三、测评方案本测评项目聚焦于手机AI Agent的指令执行效果与核心能力，将任务分为三个复杂度递增的基本层级：基础指令执行、任务理解、跨应用操作，并分别设计了对应的demo进行测试。我们对测试环境、操作流程和结果进行了记录，供读者参考和进一步探究。四、系统原生智能体测试结果 1.小布助手测试机型：OPPO Find X8s 系统版本：ColorOS 16.0.3 小布助手版本：12.5.2（版本号：12.5.2_f64d459_260126）测试时间：2026年2月12日（1）基础执行小布助手可以完成系统控制、应用唤起的基础执行，并且在省电模式和下述即将出现的时钟等界面右方的按钮处，可以快捷关闭或再次打开。（2）复杂理解 1）多轮对话对话 1: 对话 2: 小布助手对于简单的多轮对话具有理解能力，并对上一轮对话具有简单的记忆能力。但对于设定闹钟这类简单操作的不同指令理解存在偏差，当输入最简单指令时能正确理解，但当单轮指令变得稍复杂后会出现错误，如下图所示：类似出现错误情况的还有创立便签,如下图所示: 2）复合指令指令1：指令2：对于指令1，小布助手能完全理解，并经过测试在半小时后也响铃提醒了。对于指令2，小布助手对于“辣”这类偏主观的描述理解不足，回答中有很多强行自圆其说的辞藻；对于“评分4.5以上”的理解也不足，在回答中出现了“评分为4.2-4.5之间符合要求”的明显矛盾。指令 3: 这类指令小布助手完全不能理解，并且可以看出小布助手对这种两步式的指令重心落在了用户需求所处的最后一步；当最后一步指令模糊时，甚至会直接跳过第一步的指令。（3）任务执行 1）手机自带应用对于拨打通话、发送短信类的操作实现成功,但对于读取短信的功能有所欠缺, 会显示读取失败或直接打开短信界面供用户自行读取: 2）第三方应用微信相关操作都无法实现,但会弹出微信界面供读者自行操作。打车、订火车票或机票的任务完成良好。无法完成大众点评订餐的功能,会输出文字引导用户按文字步骤操作。（4）拟人交互 1）共情闲聊 ...