项目负责人:陈佳宜,杨希渊,阮墨文

HumanSkills-AI

当前 AI 领域信息过载,AI 产品和工具不断涌现,但真正基于复杂工程实践、具备深度洞察的测评和使用说明依然稀缺。上海交通大学人工智能学院的同学们在学院支持下,利用寒假发起了“Human Skills——AI测评”项目,使用一线 AI 前沿工具并展开测试与案例复现,在技术上进行深度拆解,形成了具有行业参考价值的技术博客,并贡献至开源社区,为用户提供一份兼具深度与实用性的参考指南。

模型侧,我们聚焦国内外主流大模型,包括DeepSeek、文心一言、通义千问、豆包、Kimi、元宝等国内模型,以及GPT、Claude、Gemini、Grok等国际顶尖模型,重点考察其解析复杂需求和提出可执行解决措施的能力。

产品侧,我们将测评范围延伸至更贴近日常使用的AI工具,覆盖了编程开发(IDE类和CLI类)、办公辅助(PPT生成和文档写作)以及手机智能体多个场景,旨在探究AI如何切实提高人们的生产效率。

在测评过程中,我们坚持从用户角度出发,以深度测评替代广度测评,以贴合生活场景的复杂情境,真实展现各模型与产品的缺陷与亮点。

本系列7篇测评报告,开源至本网站,请读者们多多支持。

我们衷心希望这些测评报告,能在喧嚣的AI时代,为用户们提供一份独特而宝贵的视角。

Table of Contents