文档 | Human Skills

测评人：王佳骏, 姚奕萱, 欧阳曦一、前言（一）背景概述文档撰写占据了大量时间，传统创作方式不仅耗时耗力，还常面临思路枯竭、格式规范、质量把控等挑战。AI文档生成工具的出现为上述痛点提供了系统性解决方案——能够快速生成结构化内容，显著提升工作效率，使创作者得以将精力集中于战略思考等更高价值的工作。近年来，随着大语言模型技术的突破性进展，各类AI文档生成工具在指令理解、文本生成等方面已达到实用化水平。然而，不同工具在技术路线、训练数据、产品定位上存在显著差异，实际表现各有千秋。市场上缺乏系统性的横向对比评测，使得用户在工具选型时往往无所适从。（二）测评动机与目的基于上述背景，本团队发起了此次系统性测评。测评聚焦实际工作场景，采用多维度、分场景的评测方法，旨在实现以下目标：为用户提供客观实用的决策参考，帮助其选择最适合的AI工具，降低试错成本；探索建立文档生成类AI的评价体系，推动行业评测标准的形成；通过真实场景测试，揭示各类工具的优势与不足，为AI技术在实际工作中的深度应用提供指导。二、测评方案介绍（一）测评对象本次测评选取以下六款主流AI文档生成工具作为评测对象：Claude 4.6 Opus、Grammarly Go、Notion AI、Gemini 3 Pro、文心一言、通义千问。六款工具涵盖国内外主流产品，在技术路线与产品定位上具有代表性。（二）测评方法在实际工作中，文档生成需求具有显著的场景差异性。不同类型的文档在写作目的、受众群体、内容要求、表达风格等方面存在本质区别，这要求AI工具具备多样化的能力适配。基于这一认识，本次测评选取了三个具有代表性的典型场景：策划案场景：侧重考察AI的逻辑架构能力、复杂信息整合能力和说服力表达；科普文稿场景：侧重考察AI的知识准确性、通俗化表达和受众适配能力；个人简历场景：侧重考察AI的信息提炼能力、格式规范性和个性化呈现。上述三个场景覆盖了学习工作中最常见的文档类型，且在能力要求上各有侧重。因此，测评时相应采用了差异化的评价标准：策划案场景重点关注方案的创新性与可行性；科普文稿场景更看重内容的准确性与可读性；简历场景则强调信息的精准提炼与专业呈现。这种分场景、差异化的评测方法，能够更全面、更真实地反映各AI工具在实际应用中的表现。三、分场景具体测评情况（一）场景一：策划案撰写 1. 测评Demo说明【情景复现】小交是上海交通大学"筑梦"返校宣讲队的组长，正在筹划带队回高中母校宣讲事宜。他带领约20名同学，计划向高三学弟学妹及家长介绍交大的专业与校园生活，鼓励报考。为向学校评审老师和高中校方提交一份合格的策划方案，他急需将脑海中零散的想法梳理为系统化的策划框架。基于上述情景，测评团队设计了统一的Prompt输入各AI工具，要求其生成完整的返校宣讲策划案。以与Gemini的交互界面为例： 2. 场景特点与评价标准说明策划案写作的核心难点并非格式规范或排版美观——这些要素可由人工快速修正。真正的挑战在于：内容是否全面覆盖决策所需的关键信息，结构是否契合听众的认知逻辑，创新是否服务于核心目标的达成，以及信息是否准确、可验证、经得起推敲。因此，本次评估弱化了对格式规范性、排版完整性等"呈现层"指标的考核，将权重集中于以下五个深层能力维度：目标聚焦能力：是否紧扣首要目标，避免次要要素喧宾夺主、稀释主线；结构组织能力：是否以核心逻辑链条搭建内容架构；需求平衡能力：是否兼顾多方利益相关者（学生、家长、评审老师）的视角；创新与执行平衡能力：是否在低成本、可落地的前提下，使形式服务于目标；内容完整性与准确性：是否覆盖必讲模块，且数据可溯源、无硬伤。为真实检验各AI在有限交互轮次下的内容构架、需求响应与信息整合能力，本次测评将严格控制交互轮次，以最大限度还原"一次性生成+微调定稿"的真实、具有时效性的策划场景。 3. 模型得分对比以下为六款模型在策划案场景下的得分情况：模型名称名次总分目标聚焦逻辑结构需求平衡创新执行全面性交互轮数 Claude 4.6 Opus 1 9.2 9.5 9.5 9.0 8.5 9.5 3 Grammarly Go 2 8.3 8.0 8.0 8.0 9.0 8.5 2 Gemini 3 Pro 3 7.4 7.5 7.5 7.5 7.0 7.5 3 Notion AI 4 7.4 7.0 7.5 7.5 7.0 8.0 2 通义千问 5 7.0 6.5 7.0 7.0 7.5 7.0 3 文心一言 6 6.2 5.5 6.0 6.0 7.0 6.5 4 4. 各模型详细评价 ...