DB电竞新闻中心
国产AI的里程碑:DeepSeek --行业全解析半岛bandao体育,
蛇年前夕,AI 圈出了一个核弹级的消息,国产AI之光--deepseek 疯狂舞动刷屏,暴击美股,让整个硅谷坐立不安。
而在1月27日,DeepSeek在苹果App Store美国区免费应用下载榜上超越ChatGPT,排名第一,在中国区排行榜上同样登顶。而且DeepSeek的员工规模约140人,不及 OpenAI的1/10。
DeepSeek 到底是什么,为何之前一直默默无闻,现在却突然爆火了,其产业链和重点关注的公司是哪些?今天详细梳理一下。
85后,浙江大学本硕、信息电子工程科班出生,广东湛江人;2015年创立幻方量化,2016 年首次上线运行 AI 策略,到 2017 年底时,投资策略全面AI 化,2019 年资金DeepSeek 或许可以靠自己打造这样的人才”。梁文峰带领幻方量化资金管理规模破百亿,2021 年破千亿,后稳居国内量化私募“四巨头”。
DeepSeek 深度求索脱胎于国内知名量化私募机构——幻方量化,幻方量化以人工智能技术进行量化投资,不仅如此,幻方量化可为深度求索提供每年几亿的资金支持,在算力和财力上都为深度求索的诞生打下独特基础。架构创新,模型开源:DeepSeek 坚持进行零到一前沿架构创新和模型开源战略,据创始人表示这源于公司的理想主义基因和技术普惠信仰。
② 2019:幻方量化资金规模超100 亿,成立幻方 AI,AI 软硬件团队自研幻方【萤火一号】AI 集群,搭载 500 块显卡,使用 200Gbps 高速网络互联。
③ 2021 :投入 10 亿 建设萤火二号,高性能加速卡、节点间 200Gbps 高速网络互联、自研分布式并行文件系统(3FS)
① 2023年7月,幻方量化宣布成立大模型公司DeepSeek,正式进军通用人工智能领域
③ 2024年5月,该公司发布开源模型DeepSeek V2,将推理成本降低近百倍,一跃成名,也引起了阿里、百度等大厂纷纷宣布降价。
④ 2024年12月26日,全新系列模型DeepSeek-V3发布,在大模型主流榜单中位居前列。
⑤ 2025年1月20日,DeepSeek发布了正式版是新模型——DeepSeek-R1三组模型,其性能对标OpenAI-o1,并同步开源模型权重,再次轰动科技圈。
⑥ 同日,梁文峰参加了中央、国务院总理李强主持召开专家、企业家和教科文卫体等领域代表座谈会,并在会上发言。
此次发布的DeepSeek-R1 基于 DeepSeek-V3-Base 训练,DeepSeek-R1 经过少量长CoT数据强化学习,输出内容更结构化且简约,而V3 通过数据与算法层面的优化,大幅提升算力利用效率。
DeepSeek R1的最大亮点在于其通过强化学习(RL)技术显著提升了模型的推理能力,且仅需极少量标注数据即可实现高效训练。与OpenAI的o1相比,R1在多个基准测试中表现优异,具有极高的性价比,具体优势如下:
其一、DeepSeek的R1的预训练费用只有557.6万美元,及约2000个英伟达专用芯片就完成了新模型的训练,而OpenAI训练ChatGPT-4o所花费的成本高达7800万美元甚至是1亿美元,还需要上万张GPU芯片;DeepSeek的R1仅是OpenAI GPT-4o模型训练成本的不到十分之一,
其二、科研人才的投入也差距很甚大,梁文锋的DeepSeek团队只有约140研发人员,而开发ChatGPT的OpenAI团队则有1200名研究人员,要知道每一位AI研发人才的薪资都是相当高的,这样DeepSeek又大大多节省了人力成本。
同时,DeepSeek公布了API的定价,每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元。而 OpenAI o1 模型 API 服务定价为每百万输入 tokens 55 元(缓存命中)/110 元(缓存未命中)半岛bandao体育,,每百万输出 tokens 是 438 元。这个收费大约是OpenAI o1运行成本的三十分之一,也因此,DeepSeek被称为AI界的“拼多多”。
DeepSeek-R1的高性价比 API 定价有助于开发者在使用后加速模型的功能迭代,从而解决目前模型存在的不足,有助于商量快速的落地。
DeepSeek-R1 在 R1-Zero 的基础上进行了改进,保留大规模强化学习训练的同时对齐线个方面优化 :
① 在引入数千条高质量的、冷启动数据后(cold-start data),在训练初期用于初始化模型的数据,有助于模型建立基本的推理能力;
② 通过长推理链(Chain of Thought,简称 CoT)的冷启动数据,对 DeepSeek-V3-Base 模型进行了初始微调,从而显著提升了模型的可读性和多语言处理能力;
③ 历经推理导向强化学习(Reasoning-oriented Reinforcement Learning)重点提升模型在推理密集型任务(如编码、数学、科学和逻辑推理)上的性能,添加了语言一致性奖励;
④ 拒绝采样和监督微调( Rejection Sampling and Supervised Fine-Tuning )可以利用人类的先验知识来引导模型,又可以发挥强化学习的自学习和自进化能力;
R1支持模型蒸馏,开发者可以将其推理能力迁移到更小型的模型中,满足特定场景需求,利用DeepSeek-R1 生成的 800K 数据对 Qwen 和 Llama 系列的多个小模型进行了微调,并发布了 DeepSeek-R1-Distill 系列模型。
过 R1 蒸馏的小模型在推理能力上实现了显著提升,甚至超过了在这些小模型上直接进行强化学习的效果,对小模型而言,蒸馏优于直接强化学习,大模型学到的推理模式在蒸馏中得到了有效传递。例如,R1-Distill-Qwen-32B 在AIME2024 上取得了 72.6%的惊人成绩,在 MATH-500 上得分 94.3%,在LiveCodeBench 上得分 57.2%,这些结果显著优于之前的开源模型,并与 o1-mini相当。
R1是 基于 DeepSeek-V3-Base 训练沿用前代 MLA+MOE 架构,训练成本大幅降低, R1遵循MIT License开源协议,允许用户自由使用、修改和商用。同时,DeepSeek还开源了R1-Zero和多个蒸馏后的小模型,进一步推动了AI技术的普及与创新。
DeepSeek-R1展现出了与OpenAI o1相当甚至在某些方面更优的性能。在MATH基准测试上,R1达到了77.5%的准确率,与o1的77.3%相近;在更具挑战性的AIME 2024上,R1的准确率达到71.3%,超过了o1的71.0%。在代码领域,R1在Codeforces评测中达到了2441分的水平,高于96.3%的人类参与者。
DeepSeek-R1 Zero的潜力似乎更大。它在AIME 2024测试中使用多数投票机制时达到的86.7%准确率——这个成绩甚至超过了OpenAI的o1-0912。这种多次尝试会变得更准确的特征,暗示R1-Zero可能掌握了某种基础的推理框架,而不是简单地记忆解题模式。
DeepSeek R1的发布标志着国产AI技术的又一次重大突破。其强大的推理能力、开源生态以及高性价比的API服务,为全球开发者和企业提供了全新的选择。随着R1及其蒸馏版本的广泛应用,AI技术的普及与创新将迎来新的高潮.
据艾媒咨询,2024年中国AI大模型市场规模约为294.16亿元,预计2026年将突破700亿元,中国AI大模型正处于一个技术进步迅速、市场规模快速增长、政策支持明显、行业应用广泛、企业积极参与和投资不断增加的爆发式发展阶段。未来,AI大模型的发展将呈现技术创新和性能提升、多模态和跨领域以及AI Agent 的应用,并且更加注重云侧与端侧结合等特点的态势发展。
截至2024年底,我国预计有大大小小的模型240多个,我们从从客户数量、模型性能和能力,品牌力等出发,国内前十的大模型公司是:文心一言、豆包、Kimi、秘塔、腾讯混元、通义千问、360智脑、百川智能、零一万物、讯飞星火。其中,文心一言、豆包、Kimi是最出名的3款软件。
上图从全面对比性能、稳定性、安全性等方面,选出来大模型的公司,DeepSeek虽没上磅,但它是后期之秀!如果论单项文字能力或体验上,DeepSeek也可能不是最出众的,但无论从模型的强大、参数的量级、逻辑的推理框架建设能力、以及开源的情况、关联搜索,性价比之高,国内目前没有哪一款能与之全面媲美,而DeepSeek对标的就是国外Open AI的o1和Claude 3.5。
DeepSeek目标是打造中国最强的开源大模型,DeepSeek-V3目前参数规模670亿。大模型产业链上游由算力基础设施、数据服务商以及算法供应商组成;中游为大模型的各类研发厂商和数据训练;下游为大模型合作、在各领域功能场景以及在各行各业的垂直细分应用。
虽然DeepSeek把价格卷下来了,但当前AI大模型的训练成本仍然居高不下,就如梁文锋所说,DeepSeek面临的主要制约因素不是资金,而是高端算力的使用权,如果想要获得更高的模型精度,训练所需算力消耗并未必会减少,因此上游的算力需求依然强劲。
De­e­p­S­e­ek的算力基础依赖于服务器、算力芯片、交换机和光模块、液冷等关键环节。主要供应商包括:
(2)中科曙光:承建De­e­p­S­e­ek杭州训练中心的液冷系统,单机柜功率密度达35kW,PUE1.15。
(3)航锦科技:旗下超擎数智公司为De­e­p­S­e­ek提供光模块和交换机,双方绑定深度合作,助力模型的开发与应用,另外超擎作为NVIDIA Compute(GPU)、Networking(网络)的双Elite精英级合作伙伴,能够提供高质量的硬件设备和解决方案。
(4)润泽科技 :为DeepSeek提供了廊坊数据中心的3000+机柜资源,采用间接蒸发冷却技术,运营成本低于同行15%;而且润泽与DeepSeek签订了5年长期协议,机柜上架率承诺不低于80%,长期合作保障了DeepSeek算力资源发展的稳定性和持续性。
(5)每日互动数据优势全链条绑定,作为幻方量化DeepSeek 母公司的二股东(官方尚未证实)在算力支持方面,每日互动牵头的浙江大数据计算中心为 DeepSeek 提供了强大的算力后盾,确保了模型训练和运行的高效性和稳定性。
另外上游的芯片:建议关注AI芯片寒武纪和海光信息,至于其它可以查看往期文章:(1)ASIC 芯片:国产算力芯片“弯道超车”的机会;(2)铜缆高速连接:AI算力关键器件--深度全解析;(3)国产算力--2024年研究报告
1、拓尔思:政务大数据市占率第一,拥有4000+行业知识库,拓尔思与DeepSeek联合开发金融舆情大模型,已在中信证券等机构部署智能研报生成系统(另外,DeepSeek创始人梁文峰受到李强总理的亲自接见,政府的重视程度可想而知)。
2、卓创资讯:公司尚未与DeepSeek深度求索建立业务合作关系,但未来很大可能会与幻方量化在金融语料库方面合作。
3、海天瑞声:AI训练数据市占率国内第一,Deepseek与量化投资机构幻方的技术生态关系密切海天瑞声是幻方的核心数据服务商通过幻方这一纽带海天瑞声间接为Deepseek提供数据支持。
4、博彦科技:在数据标注方面有大量的人力和经验积累,能为DeepSeek提供专业的数据标注服务,帮助其对大量数据进行分类、标注等处理,为模型训练提供高质量的数据基础。
5、中科软:数据标注平台在医疗领域有相关应用,中科软在保险行业IT综合实力及应用解决方案国内排名第一,并在公共卫生信息化和政务信息化领域处于领先地位。
6、易华录:拥有24个数据湖,申报建设国家级数据标注基地,在大数据产业中具有重要地位,是智慧城市和智能交通领域的领先企业。
7、汉王科技:一家专注于人工智能领域龙头,特别是在智能语音识别、智能家居、手写识别、光学字符识别(OCR)、人脸识别等领域拥有核心技术的科技公司,获得医疗影像领域标注数据的发明专利。
8、东方国信:低调的国产IT支撑力量,Ci­r­r­o­D­a­ta数据库支持大规模分布式训练数据管理,拥有自己的数据库技术,服务于三大通讯公司和国内各大银行,提供IT技术支持。
9、星环科技:国产大数据基础软件第一股,So­p­h­o­n­L­LM工具链提供国产化微调解决方案,围绕数据的集成、存储、治理、建模、分析、挖掘和流通等数据全生命周期提供基础软件及服务。
De­e­p­S­e­ek模型在教育、医疗、金融、工业等多个领域广泛应用。主要合作方包括:
(1)De­e­p­S­e­ek+教育:科大讯飞接入De­e­p­S­e­ek-Ma­th模型,推出AI数学辅导应用“星火助学”;竞业达是是全国教育考试行业龙头,有AIGC、多模态AI半岛bandao体育,、算力、数据要素等概念的AI技术企业,与百度、阿里、腾讯等大厂合作,使用DeepSeek大模型。
(2)De­e­p­S­e­ek+金融:拓尔思与De­e­p­S­e­ek联合开发金融舆情大模型,已在中信证券等机构部署智能研报生成系统。
(4)De­e­p­S­e­ek+智驾: 中科创达与DeepSeek联合开发智能座舱操作系统,覆盖80%新能源车企。
(2)华金资本:珠海国资旗下投资平台间接参与DeepSeek的Pre-A轮融资。(目前官方并未显示交割信息)
首先,DeepSeek采用的MLA和MOE架构的训练方法会为其他大模型开发提供技术参考。国内AI大模型厂商或集合自身特点,加强对数据利用和模型优化的效率。技术的追赶或加剧行业竞争态势,除了卷技术、场景和用户,更主要的还是卷价格,未来会有更多的开源和免费,让普通老百姓受惠。
另外,DeepSeek-R1开源技术为未来大模型发展提供了重要启发,从依赖大规模通用模型转向发展一些更具特色、成本更低的模型,这些模型可能更适合具体应用场景,随着特色模型的不断成熟,AI商业化的边际成本有望降低,将迎来更广阔的应用前景,和更垂直各细分的应用。
当然,目前DeepSeek也不是全能的,虽然逻辑推理和编程框架构建能力很出众,但目前功能还比较单一,没有绘图、语音等能力,而且文字处理能力也没有豆包和kimi体验好,但是我相信,以它的迭代能力,下一代产品一定能迅速补足其他短板。
总之,DeepSeek 的出现,为人工智能领域注入了一股强大的新力量 ,具有国内AI大模型里程碑的意义!DeepSeek凭借独特的技术优势、卓越的性能和成本优势,迅速在全球 AI 舞台上崭露头角 ,搅动整个资本市场。相信国产AI之光DeepSeek的出圈,所产生的鲶鱼效应,相信未来会有更多优秀的AI 公司崛起,来改写国际AI的版图。