Human Skills——文档生成类AI测评
测评人:王佳骏, 姚奕萱, 欧阳曦 一、前言 (一)背景概述 文档撰写占据了大量时间,传统创作方式不仅耗时耗力,还常面临思路枯竭、格式规范、质量把控等挑战。AI文档生成工具的出现为上述痛点提供了系统性解决方案——能够快速生成结构化内容,显著提升工作效率,使创作者得以将精力集中于战略思考等更高价值的工作。 近年来,随着大语言模型技术的突破性进展,各类AI文档生成工具在指令理解、文本生成等方面已达到实用化水平。然而,不同工具在技术路线、训练数据、产品定位上存在显著差异,实际表现各有千秋。市场上缺乏系统性的横向对比评测,使得用户在工具选型时往往无所适从。 (二)测评动机与目的 基于上述背景,本团队发起了此次系统性测评。测评聚焦实际工作场景,采用多维度、分场景的评测方法,旨在实现以下目标: 为用户提供客观实用的决策参考,帮助其选择最适合的AI工具,降低试错成本; 探索建立文档生成类AI的评价体系,推动行业评测标准的形成; 通过真实场景测试,揭示各类工具的优势与不足,为AI技术在实际工作中的深度应用提供指导。 二、测评方案介绍 (一)测评对象 本次测评选取以下六款主流AI文档生成工具作为评测对象:Claude 4.6 Opus、Grammarly Go、Notion AI、Gemini 3 Pro、文心一言、通义千问。六款工具涵盖国内外主流产品,在技术路线与产品定位上具有代表性。 (二)测评方法 在实际工作中,文档生成需求具有显著的场景差异性。不同类型的文档在写作目的、受众群体、内容要求、表达风格等方面存在本质区别,这要求AI工具具备多样化的能力适配。基于这一认识,本次测评选取了三个具有代表性的典型场景: 策划案场景:侧重考察AI的逻辑架构能力、复杂信息整合能力和说服力表达; 科普文稿场景:侧重考察AI的知识准确性、通俗化表达和受众适配能力; 个人简历场景:侧重考察AI的信息提炼能力、格式规范性和个性化呈现。 上述三个场景覆盖了学习工作中最常见的文档类型,且在能力要求上各有侧重。因此,测评时相应采用了差异化的评价标准:策划案场景重点关注方案的创新性与可行性;科普文稿场景更看重内容的准确性与可读性;简历场景则强调信息的精准提炼与专业呈现。这种分场景、差异化的评测方法,能够更全面、更真实地反映各AI工具在实际应用中的表现。 三、分场景具体测评情况 (一)场景一:策划案撰写 1. 测评Demo说明 【情景复现】小交是上海交通大学"筑梦"返校宣讲队的组长,正在筹划带队回高中母校宣讲事宜。他带领约20名同学,计划向高三学弟学妹及家长介绍交大的专业与校园生活,鼓励报考。为向学校评审老师和高中校方提交一份合格的策划方案,他急需将脑海中零散的想法梳理为系统化的策划框架。 基于上述情景,测评团队设计了统一的Prompt输入各AI工具,要求其生成完整的返校宣讲策划案。 以与Gemini的交互界面为例: 2. 场景特点与评价标准说明 策划案写作的核心难点并非格式规范或排版美观——这些要素可由人工快速修正。真正的挑战在于:内容是否全面覆盖决策所需的关键信息,结构是否契合听众的认知逻辑,创新是否服务于核心目标的达成,以及信息是否准确、可验证、经得起推敲。 因此,本次评估弱化了对格式规范性、排版完整性等"呈现层"指标的考核,将权重集中于以下五个深层能力维度: 目标聚焦能力:是否紧扣首要目标,避免次要要素喧宾夺主、稀释主线; 结构组织能力:是否以核心逻辑链条搭建内容架构; 需求平衡能力:是否兼顾多方利益相关者(学生、家长、评审老师)的视角; 创新与执行平衡能力:是否在低成本、可落地的前提下,使形式服务于目标; 内容完整性与准确性:是否覆盖必讲模块,且数据可溯源、无硬伤。 为真实检验各AI在有限交互轮次下的内容构架、需求响应与信息整合能力,本次测评将严格控制交互轮次,以最大限度还原"一次性生成+微调定稿"的真实、具有时效性的策划场景。 3. 模型得分对比 以下为六款模型在策划案场景下的得分情况: 模型名称 名次 总分 目标聚焦 逻辑结构 需求平衡 创新执行 全面性 交互轮数 Claude 4.6 Opus 1 9.2 9.5 9.5 9.0 8.5 9.5 3 Grammarly Go 2 8.3 8.0 8.0 8.0 9.0 8.5 2 Gemini 3 Pro 3 7.4 7.5 7.5 7.5 7.0 7.5 3 Notion AI 4 7.4 7.0 7.5 7.5 7.0 8.0 2 通义千问 5 7.0 6.5 7.0 7.0 7.5 7.0 3 文心一言 6 6.2 5.5 6.0 6.0 7.0 6.5 4 4. 各模型详细评价 ...