<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>编程开发 on Human Skills</title>
    <link>https://sjtu-sai-geekcenter.github.io/Human-Skills/tags/%E7%BC%96%E7%A8%8B%E5%BC%80%E5%8F%91/</link>
    <description>Recent content in 编程开发 on Human Skills</description>
    <generator>Hugo -- 0.146.0</generator>
    <language>zh-cn</language>
    <lastBuildDate>Mon, 23 Feb 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://sjtu-sai-geekcenter.github.io/Human-Skills/tags/%E7%BC%96%E7%A8%8B%E5%BC%80%E5%8F%91/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Human Skills——编程开发CLI类AI测评</title>
      <link>https://sjtu-sai-geekcenter.github.io/Human-Skills/posts/cli_review/</link>
      <pubDate>Mon, 23 Feb 2026 00:00:00 +0000</pubDate>
      <guid>https://sjtu-sai-geekcenter.github.io/Human-Skills/posts/cli_review/</guid>
      <description>&lt;p&gt;&lt;strong&gt;测评人：方言，刘瀚元，陈冠男&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;一测评背景&#34;&gt;一、测评背景&lt;/h2&gt;
&lt;p&gt;在AI辅助编程领域，当前的焦点往往集中在IDE插件（如Cursor）上。然而，对于高阶开发者而言，终端（Terminal）才是真正的控制中心。传统的CLI工具虽然强大，但学习曲线陡峭；而新一代AI CLI工具试图通过将大模型引入终端，实现从“指令执行”到“意图理解”的跨越。&lt;/p&gt;
&lt;p&gt;本次测评的核心差异在于，我们不将AI视为一个简单的“问答机器人”，而是将其视为系统级管道（Pipeline）的一部分。重点考察这些工具能否在不脱离键盘手（Hands-on）的情况下，真正理解复杂的项目上下文，并在Git工作流、Shell管道交互中发挥实际效能，而非仅仅生成一段孤立的代码。&lt;/p&gt;
&lt;h2 id=&#34;二测评总纲&#34;&gt;二、测评总纲&lt;/h2&gt;
&lt;p&gt;本次测评采用定性分级的标准，基于四个核心工程维度进行加权考虑，用于界定工具的智能化阶段。&lt;/p&gt;
&lt;h3 id=&#34;定性评价分级l1-l5&#34;&gt;定性评价分级（L1-L5）&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;L1 (Agent级)：具备完全的上下文感知能力，能自主规划多步操作（如自动Debug闭环），无缝融入Git和Shell管道。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;L2 (辅助级)：能准确理解大部分指令，支持一定的多文件操作，但复杂任务仍需人工干预。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;L3 (工具级)：仅能作为代码生成器使用，缺乏对项目结构的理解，需频繁复制粘贴。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;L4 (干扰级)：配置繁琐，幻觉严重，生成的命令需大量人工修正，效率低于手写。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;L5 (不可用)：存在严重安全风险（如擅自执行删除指令）或无法运行。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;三测评维度与评分标准详解&#34;&gt;三、测评维度与评分标准详解&lt;/h2&gt;
&lt;p&gt;本测评体系依据 Human Skills 项目标准，针对CLI场景特性拆解为以下四大维度：&lt;/p&gt;
&lt;h3 id=&#34;31-场景贴合度-context--pain-points--权重-30&#34;&gt;3.1 场景贴合度 (Context &amp;amp; Pain Points) —— 权重 30%&lt;/h3&gt;
&lt;p&gt;核心考察：工具对“旧代码”的理解能力与修改的精准度。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;细分指标&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;评分标准说明&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;全库索引能力&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;是否能通过AST（抽象语法树）或向量索引理解多层级目录结构？能否准确解析跨文件的变量引用与依赖关系（如data_loader与model_train的关联）？&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;增量修改精度&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;在修改代码时，是暴力重写整段文件（导致注释丢失/格式混乱），还是仅输出精准的Diff片段？是否具备“非破坏性”修改的特征？&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id=&#34;32-工作流集成-workflow-integration--权重-30&#34;&gt;3.2 工作流集成 (Workflow Integration) —— 权重 30%&lt;/h3&gt;
&lt;p&gt;核心考察：工具是否具备“原生CLI”特性，能否融入Linux管道与Git流程。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;细分指标&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;评分标准说明&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;Git自动化&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;能否读取git diff上下文？能否依据修改内容自动生成符合Conventional Commits规范的提交信息？能否能够接受指令直接执行commit操作？&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;Shell/管道联动&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;是否支持标准输入（Stdin）读取（例如 &lt;code&gt;python main.py 2&amp;gt;&amp;amp;1&lt;/code&gt;）？&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id=&#34;33-输出质量与稳定性-quality--reliability--权重-25&#34;&gt;3.3 输出质量与稳定性 (Quality &amp;amp; Reliability) —— 权重 25%&lt;/h3&gt;
&lt;p&gt;核心考察：代码的可执行性、Debug闭环能力及系统安全性。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;细分指标&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;评分标准说明&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;Debug闭环率&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;面对报错信息，工具能否自主分析并修改源文件？记录从报错到修复成功所需的交互轮次（Turn Count）。一次性通过率（Pass@1）越高得分越高。&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;安全与幻觉&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;是否会生成不存在的API？面对模糊的高危指令（如“清理文件”），是否具备确认机制以防止误删？&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id=&#34;34-学习成本与效率-learning-curve--权重-15&#34;&gt;3.4 学习成本与效率 (Learning Curve) —— 权重 15%&lt;/h3&gt;
&lt;p&gt;核心考察：配置复杂度与实际提效比。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
