<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>文档 on Human Skills</title>
    <link>https://sjtu-sai-geekcenter.github.io/Human-Skills/tags/%E6%96%87%E6%A1%A3/</link>
    <description>Recent content in 文档 on Human Skills</description>
    <generator>Hugo -- 0.146.0</generator>
    <language>zh-cn</language>
    <lastBuildDate>Tue, 24 Feb 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://sjtu-sai-geekcenter.github.io/Human-Skills/tags/%E6%96%87%E6%A1%A3/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Human Skills——文档生成类AI测评</title>
      <link>https://sjtu-sai-geekcenter.github.io/Human-Skills/posts/document_ai_review/</link>
      <pubDate>Tue, 24 Feb 2026 00:00:00 +0000</pubDate>
      <guid>https://sjtu-sai-geekcenter.github.io/Human-Skills/posts/document_ai_review/</guid>
      <description>&lt;p&gt;&lt;strong&gt;测评人：王佳骏, 姚奕萱, 欧阳曦&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;一前言&#34;&gt;一、前言&lt;/h2&gt;
&lt;h3 id=&#34;一背景概述&#34;&gt;（一）背景概述&lt;/h3&gt;
&lt;p&gt;文档撰写占据了大量时间，传统创作方式不仅耗时耗力，还常面临思路枯竭、格式规范、质量把控等挑战。AI文档生成工具的出现为上述痛点提供了系统性解决方案——能够快速生成结构化内容，显著提升工作效率，使创作者得以将精力集中于战略思考等更高价值的工作。&lt;/p&gt;
&lt;p&gt;近年来，随着大语言模型技术的突破性进展，各类AI文档生成工具在指令理解、文本生成等方面已达到实用化水平。然而，不同工具在技术路线、训练数据、产品定位上存在显著差异，实际表现各有千秋。市场上缺乏系统性的横向对比评测，使得用户在工具选型时往往无所适从。&lt;/p&gt;
&lt;h3 id=&#34;二测评动机与目的&#34;&gt;（二）测评动机与目的&lt;/h3&gt;
&lt;p&gt;基于上述背景，本团队发起了此次系统性测评。测评聚焦实际工作场景，采用多维度、分场景的评测方法，旨在实现以下目标：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;为用户提供客观实用的决策参考，帮助其选择最适合的AI工具，降低试错成本；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;探索建立文档生成类AI的评价体系，推动行业评测标准的形成；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;通过真实场景测试，揭示各类工具的优势与不足，为AI技术在实际工作中的深度应用提供指导。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;二测评方案介绍&#34;&gt;二、测评方案介绍&lt;/h2&gt;
&lt;h3 id=&#34;一测评对象&#34;&gt;（一）测评对象&lt;/h3&gt;
&lt;p&gt;本次测评选取以下六款主流AI文档生成工具作为评测对象：Claude 4.6 Opus、Grammarly Go、Notion AI、Gemini 3 Pro、文心一言、通义千问。六款工具涵盖国内外主流产品，在技术路线与产品定位上具有代表性。&lt;/p&gt;
&lt;h3 id=&#34;二测评方法&#34;&gt;（二）测评方法&lt;/h3&gt;
&lt;p&gt;在实际工作中，文档生成需求具有显著的场景差异性。不同类型的文档在写作目的、受众群体、内容要求、表达风格等方面存在本质区别，这要求AI工具具备多样化的能力适配。基于这一认识，本次测评选取了三个具有代表性的典型场景：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;策划案场景：侧重考察AI的逻辑架构能力、复杂信息整合能力和说服力表达；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;科普文稿场景：侧重考察AI的知识准确性、通俗化表达和受众适配能力；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;个人简历场景：侧重考察AI的信息提炼能力、格式规范性和个性化呈现。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;上述三个场景覆盖了学习工作中最常见的文档类型，且在能力要求上各有侧重。因此，测评时相应采用了差异化的评价标准：策划案场景重点关注方案的创新性与可行性；科普文稿场景更看重内容的准确性与可读性；简历场景则强调信息的精准提炼与专业呈现。这种分场景、差异化的评测方法，能够更全面、更真实地反映各AI工具在实际应用中的表现。&lt;/p&gt;
&lt;h2 id=&#34;三分场景具体测评情况&#34;&gt;三、分场景具体测评情况&lt;/h2&gt;
&lt;h3 id=&#34;一场景一策划案撰写&#34;&gt;（一）场景一：策划案撰写&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;1. 测评Demo说明&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;【情景复现】小交是上海交通大学&amp;quot;筑梦&amp;quot;返校宣讲队的组长，正在筹划带队回高中母校宣讲事宜。他带领约20名同学，计划向高三学弟学妹及家长介绍交大的专业与校园生活，鼓励报考。为向学校评审老师和高中校方提交一份合格的策划方案，他急需将脑海中零散的想法梳理为系统化的策划框架。&lt;/p&gt;
&lt;p&gt;基于上述情景，测评团队设计了统一的Prompt输入各AI工具，要求其生成完整的返校宣讲策划案。&lt;/p&gt;
&lt;p&gt;&lt;em&gt;以与Gemini的交互界面为例：&lt;/em&gt;&lt;/p&gt;
&lt;p&gt;&lt;img loading=&#34;lazy&#34; src=&#34;https://sjtu-sai-geekcenter.github.io/Human-Skills/images/doc_ai/23.jpg&#34;&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;2. 场景特点与评价标准说明&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;策划案写作的核心难点并非格式规范或排版美观——这些要素可由人工快速修正。真正的挑战在于：内容是否全面覆盖决策所需的关键信息，结构是否契合听众的认知逻辑，创新是否服务于核心目标的达成，以及信息是否准确、可验证、经得起推敲。&lt;/p&gt;
&lt;p&gt;因此，本次评估弱化了对格式规范性、排版完整性等&amp;quot;呈现层&amp;quot;指标的考核，将权重集中于以下五个深层能力维度：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;目标聚焦能力：是否紧扣首要目标，避免次要要素喧宾夺主、稀释主线；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;结构组织能力：是否以核心逻辑链条搭建内容架构；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;需求平衡能力：是否兼顾多方利益相关者（学生、家长、评审老师）的视角；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;创新与执行平衡能力：是否在低成本、可落地的前提下，使形式服务于目标；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;内容完整性与准确性：是否覆盖必讲模块，且数据可溯源、无硬伤。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;为真实检验各AI在有限交互轮次下的内容构架、需求响应与信息整合能力，本次测评将严格控制交互轮次，以最大限度还原&amp;quot;一次性生成+微调定稿&amp;quot;的真实、具有时效性的策划场景。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;3. 模型得分对比&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;以下为六款模型在策划案场景下的得分情况：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;模型名称&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;名次&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;总分&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;目标聚焦&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;逻辑结构&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;需求平衡&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;创新执行&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;全面性&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;交互轮数&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;Claude 4.6 Opus&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;1&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;8.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;3&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;Grammarly Go&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;8.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;8.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;8.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;8.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;9.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;8.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;2&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;Gemini 3 Pro&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;7.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;7.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;7.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;7.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;7.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;7.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;3&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;Notion AI&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;7.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;7.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;7.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;7.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;7.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;8.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;2&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;通义千问&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;7.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;6.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;7.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;7.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;7.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;7.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;3&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;文心一言&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;6&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;6.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;5.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;6.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;6.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;7.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;6.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;4&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;4. 各模型详细评价&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
