<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>国内大模型 on Human Skills</title>
    <link>https://sjtu-sai-geekcenter.github.io/Human-Skills/tags/%E5%9B%BD%E5%86%85%E5%A4%A7%E6%A8%A1%E5%9E%8B/</link>
    <description>Recent content in 国内大模型 on Human Skills</description>
    <generator>Hugo -- 0.146.0</generator>
    <language>zh-cn</language>
    <lastBuildDate>Mon, 23 Feb 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://sjtu-sai-geekcenter.github.io/Human-Skills/tags/%E5%9B%BD%E5%86%85%E5%A4%A7%E6%A8%A1%E5%9E%8B/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Human Skills——国内主流模型测评</title>
      <link>https://sjtu-sai-geekcenter.github.io/Human-Skills/posts/domestic_llm/</link>
      <pubDate>Mon, 23 Feb 2026 00:00:00 +0000</pubDate>
      <guid>https://sjtu-sai-geekcenter.github.io/Human-Skills/posts/domestic_llm/</guid>
      <description>&lt;h1&gt;&lt;/h1&gt;
&lt;p&gt;&lt;strong&gt;测评人：闵祺寒，周岱严，杨睿凡&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;一前言&#34;&gt;一、前言&lt;/h2&gt;
&lt;p&gt;随着人工智能技术的飞速发展，大语言模型(Large Language Models, LLMs)已成为推动各生产生活领域变革的核心驱动力之一。2024年至2025年间，国内外科技巨头纷纷推出自研大模型，在文本生成、逻辑推理、代码编写、多模态理解等能力上展开激烈角逐。这些模型不仅在技术架构上持续创新，更在实际应用场景中展现出巨大的商业潜力和社会价值。&lt;/p&gt;
&lt;p&gt;本报告旨在对当前国内主流大语言模型进行系统性测评，通过标准化的测试方法和多维度的评估体系，客观呈现各模型的能力边界与特色优势，为企业技术选型、学术研究参考以及普通用户选用AI工具提供有价值的参考依据。&lt;/p&gt;
&lt;h2 id=&#34;二参评模型介绍&#34;&gt;二、参评模型介绍&lt;/h2&gt;
&lt;p&gt;本次测评共选取6款具有代表性的大语言模型，涵盖深度求索、百度、阿里、字节跳动、月之暗面及腾讯等国内顶尖AI研发团队的产品。&lt;/p&gt;
&lt;h3 id=&#34;1-deepseek-v32深度求索&#34;&gt;1. DeepSeek-V3.2(深度求索)&lt;/h3&gt;
&lt;p&gt;开发企业:杭州深度求索人工智能基础技术研究有限公司(DeepSeek)&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;主要特点&lt;/strong&gt;:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;采用混合专家架构(MoE)，总参数量达万亿级别，每次推理激活约320亿参数&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;在数学推理、代码生成和逻辑分析方面表现突出，支持超长上下文窗口(最高256K tokens)&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;开源策略激进，以高性价比著称，API调用成本显著低于同类闭源模型&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;支持多模态输入，具备图像理解和文档解析能力&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;2-文心一言百度&#34;&gt;2. 文心一言(百度)&lt;/h3&gt;
&lt;p&gt;开发企业:百度(Baidu)&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;主要特点&lt;/strong&gt;:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;基于百度自研的ERNIE系列大模型架构，深度整合百度搜索生态和知识图谱&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;在中文知识问答、文学创作和本土文化理解方面具有独特优势&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;支持插件扩展和工具调用(Function Calling)，可与百度智能云及第三方服务深度集成&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;提供多模态版本，支持文生图、语音交互等能力&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;3-通义千问-qwen3-max-thinking阿里云&#34;&gt;3. 通义千问 Qwen3-Max-Thinking(阿里云)&lt;/h3&gt;
&lt;p&gt;开发企业:阿里巴巴达摩院(Alibaba DAMO Academy)&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;主要特点&lt;/strong&gt;:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;Qwen3系列旗舰版本，采用Thinking模式增强深度推理能力&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;支持长达百万字符的上下文处理，在文档分析、长文本摘要等任务中表现优异&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;代码能力突出，支持100+编程语言，在HumanEval等代码评测基准上达到业界领先水平&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;开源生态完善，衍生出大量垂直领域微调模型，适应多样化行业需求&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;4-豆包字节跳动&#34;&gt;4. 豆包(字节跳动)&lt;/h3&gt;
&lt;p&gt;开发企业:字节跳动(ByteDance)&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;主要特点&lt;/strong&gt;:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;依托字节跳动强大的内容生态，在短视频脚本创作、社交媒体文案生成方面独具特色&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;语音交互能力出色，支持多种方言识别和情感化语音合成&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;与抖音、飞书等产品深度整合，提供原生的办公协作和内容创作体验&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;模型响应速度快，在实时对话和多轮交互场景中流畅度较高&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;5-kimi-chat月之暗面&#34;&gt;5. Kimi Chat(月之暗面)&lt;/h3&gt;
&lt;p&gt;开发企业:月之暗面科技有限公司(Moonshot AI)&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;主要特点&lt;/strong&gt;:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;以超长上下文处理能力著称，标准支持200万字上下文窗口，领先行业水平&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;擅长长文档分析、论文解读、法律合同审查等需要处理海量文本的场景&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;在复杂推理和多步骤任务执行中表现稳定，具备较强的指令跟随能力&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;专注于对话质量优化，支持联网搜索和文件上传解析&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;6-元宝腾讯&#34;&gt;6. 元宝(腾讯)&lt;/h3&gt;
&lt;p&gt;开发企业:腾讯(Tencent)&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;主要特点&lt;/strong&gt;:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;基于腾讯混元大模型架构，融合腾讯在社交、游戏、内容领域的深厚积累&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;在角色扮演、创意写作和情感陪伴类应用中表现生动自然&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;与微信、QQ、腾讯文档等国民级应用生态无缝衔接&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;多模态能力全面，支持图像生成、视频理解及3D内容创作，在娱乐和社交场景应用广泛&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;三测评方法&#34;&gt;三、测评方法&lt;/h2&gt;
&lt;h3 id=&#34;1测评维度&#34;&gt;（1）测评维度&lt;/h3&gt;
&lt;p&gt;本次测评从以下5个核心维度对模型进行综合评估，每个维度满分10分:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;复杂需求解析力&lt;/strong&gt;: 识别任务中隐性矛盾与多重约束，并理清其优先级的能力。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
