项目负责人：陈佳宜，杨希渊，阮墨文

HumanSkills-AI

当前 AI 领域信息过载，AI 产品和工具不断涌现，但真正基于复杂工程实践、具备深度洞察的测评和使用说明依然稀缺。上海交通大学人工智能学院的同学们在学院支持下，利用寒假发起了“Human Skills——AI测评”项目，使用一线 AI 前沿工具并展开测试与案例复现，在技术上进行深度拆解，形成了具有行业参考价值的技术博客，并贡献至开源社区，为用户提供一份兼具深度与实用性的参考指南。

模型侧，我们聚焦国内外主流大模型，包括DeepSeek、文心一言、通义千问、豆包、Kimi、元宝等国内模型，以及GPT、Claude、Gemini、Grok等国际顶尖模型，重点考察其解析复杂需求和提出可执行解决措施的能力。

产品侧，我们将测评范围延伸至更贴近日常使用的AI工具，覆盖了编程开发（IDE类和CLI类）、办公辅助（PPT生成和文档写作）以及手机智能体多个场景，旨在探究AI如何切实提高人们的生产效率。

在测评过程中，我们坚持从用户角度出发，以深度测评替代广度测评，以贴合生活场景的复杂情境，真实展现各模型与产品的缺陷与亮点。

本系列7篇测评报告，开源至本网站，请读者们多多支持。

我们衷心希望这些测评报告，能在喧嚣的AI时代，为用户们提供一份独特而宝贵的视角。

Human Skills: Deep Evaluation of Frontier AI Tools Across Multiple Domains

HumanSkills-AI

Table of Contents

HumanSkills-AI#

Table of Contents#

HumanSkills-AI

Table of Contents