Human Skills——国内主流模型测评

Mon, 23 Feb 2026 00:00:00 +0000

测评人：闵祺寒，周岱严，杨睿凡

一、前言

随着人工智能技术的飞速发展，大语言模型(Large Language Models, LLMs)已成为推动各生产生活领域变革的核心驱动力之一。2024年至2025年间，国内外科技巨头纷纷推出自研大模型，在文本生成、逻辑推理、代码编写、多模态理解等能力上展开激烈角逐。这些模型不仅在技术架构上持续创新，更在实际应用场景中展现出巨大的商业潜力和社会价值。

本报告旨在对当前国内主流大语言模型进行系统性测评，通过标准化的测试方法和多维度的评估体系，客观呈现各模型的能力边界与特色优势，为企业技术选型、学术研究参考以及普通用户选用AI工具提供有价值的参考依据。

二、参评模型介绍

本次测评共选取6款具有代表性的大语言模型，涵盖深度求索、百度、阿里、字节跳动、月之暗面及腾讯等国内顶尖AI研发团队的产品。

1. DeepSeek-V3.2(深度求索)

开发企业:杭州深度求索人工智能基础技术研究有限公司(DeepSeek)

主要特点:

采用混合专家架构(MoE)，总参数量达万亿级别，每次推理激活约320亿参数
在数学推理、代码生成和逻辑分析方面表现突出，支持超长上下文窗口(最高256K tokens)
开源策略激进，以高性价比著称，API调用成本显著低于同类闭源模型
支持多模态输入，具备图像理解和文档解析能力

2. 文心一言(百度)

开发企业:百度(Baidu)

主要特点:

基于百度自研的ERNIE系列大模型架构，深度整合百度搜索生态和知识图谱
在中文知识问答、文学创作和本土文化理解方面具有独特优势
支持插件扩展和工具调用(Function Calling)，可与百度智能云及第三方服务深度集成
提供多模态版本，支持文生图、语音交互等能力

3. 通义千问 Qwen3-Max-Thinking(阿里云)

开发企业:阿里巴巴达摩院(Alibaba DAMO Academy)

主要特点:

Qwen3系列旗舰版本，采用Thinking模式增强深度推理能力
支持长达百万字符的上下文处理，在文档分析、长文本摘要等任务中表现优异
代码能力突出，支持100+编程语言，在HumanEval等代码评测基准上达到业界领先水平
开源生态完善，衍生出大量垂直领域微调模型，适应多样化行业需求

4. 豆包(字节跳动)

开发企业:字节跳动(ByteDance)

主要特点:

依托字节跳动强大的内容生态，在短视频脚本创作、社交媒体文案生成方面独具特色
语音交互能力出色，支持多种方言识别和情感化语音合成
与抖音、飞书等产品深度整合，提供原生的办公协作和内容创作体验
模型响应速度快，在实时对话和多轮交互场景中流畅度较高

5. Kimi Chat(月之暗面)

开发企业:月之暗面科技有限公司(Moonshot AI)

主要特点:

以超长上下文处理能力著称，标准支持200万字上下文窗口，领先行业水平
擅长长文档分析、论文解读、法律合同审查等需要处理海量文本的场景
在复杂推理和多步骤任务执行中表现稳定，具备较强的指令跟随能力
专注于对话质量优化，支持联网搜索和文件上传解析

6. 元宝(腾讯)

开发企业:腾讯(Tencent)

主要特点:

基于腾讯混元大模型架构，融合腾讯在社交、游戏、内容领域的深厚积累
在角色扮演、创意写作和情感陪伴类应用中表现生动自然
与微信、QQ、腾讯文档等国民级应用生态无缝衔接
多模态能力全面，支持图像生成、视频理解及3D内容创作，在娱乐和社交场景应用广泛

三、测评方法

（1）测评维度

本次测评从以下5个核心维度对模型进行综合评估，每个维度满分10分:

复杂需求解析力: 识别任务中隐性矛盾与多重约束，并理清其优先级的能力。

国内大模型 on Human Skills

Human Skills——国内主流模型测评

一、前言

二、参评模型介绍

1. DeepSeek-V3.2(深度求索)

2. 文心一言(百度)

3. 通义千问 Qwen3-Max-Thinking(阿里云)

4. 豆包(字节跳动)

5. Kimi Chat(月之暗面)

6. 元宝(腾讯)

三、测评方法

（1）测评维度