您现在的位置:新闻首页>评论
关于审(shěn)时(shí)度(dù)势(shì)这又是什么梗?
1月20日,国内大模型公司深度求索(DeepSeek)在其公众号公布了新一代开源大模型DeepSeek-R1,该模型号称在数学、代码、自然语言推理等任务上,性能比肩美国OpenAI公司最新的o1大模型正式版。
其中,与深度求索上月发布的大模型DeepSeek-V3相比,DeepSeek-R1在AIME 2024和Codeforces中的得分提升了近一倍,而其余项均有不同程度的提升。
深度求索还更新了用户协议,明确模型开源License将统一使用标准的MIT许可,同时还允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。按照深度求索数据显示,在以DeepSeek-R1基础上进行“蒸馏”的6个小模型中,32B和70B模型在多项能力上都实现了对标OpenAI的o1-mini 的效果。
面对这个令人瞩目的成绩,深度求索则解释称,DeepSeek-R1 后训练阶段中大规模使用了强化学习(RL)技术,在仅有极少人工标注数据的情况下,极大提升了模型推理能力。这意味着该模型几乎跳过了监督微调(SFT)步骤,就实现了推理能力自我提升。
通常情况下,强化学习的好处是可以通过与外界评价反馈,不断让模型自我优化,生成更符合人类偏好的内容。而监督微调则是指在预训练使用人工标注的数据进行干预,可以让生成的内容更准确且符合预期,这也是当年ChatGPT成功的关键。但从成本上来说,强化学习虽然需要大量人类反馈,且训练复杂计算成本高,但监督微调则非常依赖高质量的人工标注数据。
值得注意的是,目前深度求索向用户提供的仅有DeepSeek-R1版本,而在其公开测试结果中却透露了另一个大模型 —— DeepSeek-R1-Zero。该模型完全通过大规模使用强化学习替代了监督微调,但也导致了一些问题,因此未对外公开。
更重要的是,工作人员发现,在DeepSeek-R1-Zero自我学习的过程,随着时间的增加,该模型“涌现”出了复杂的行为,如自我反思、评估先前步骤、自发寻找替代方案的情况,还包括一次“尤里卡时刻”(“aha moment)。
深度求索透露,这次“尤里卡”发生在DeepSeek-R1-Zero的的中间版本期间。当时工作人员惊奇地发现,在一道数学题中,该模型学会了使用拟人化的语气进行自我反思,并主动为问题分配了更多地时间进行重新思考。
深度求索称,工作人员并没有教DeepSeek-R1-Zero如何解决问题,只是提供了正确的激励,它就能自主发展出先进的问题解决策略。“这次尤里卡也提醒我们,强化学习有可能为人工智能解锁新的智能水平,为以后发展出更自主和适应性的模型铺平道路。”
不过,虽然DeepSeek-R1-Zero展示出了强大的推理能力,但自身也出现了一些语言混乱及可读性的问题,因此深度求索通过引入数千条高质量的冷启动数据和多段强化学习来解决这些问题,并获得了上文中对外正式公布的DeepSeek-R1大模型。
本文地址:http://www.mafwo.cn/qichepinglun/2025/gys_sh_n_s_sh__d_d__s_sh__zyssmg__86412.html
下一篇:二甲硅油片什么原因?
- 本网转载的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
- 如涉及作品内容、版权等问题,请联系我们进行修改或删除。
- 01在异性眼中十二星座女什么时候很
- 02为进一步增进用户学习动力
- 03云想衣裳花想容下一句网友会怎么
- 04巴黎宝贝主题曲发生了什么?
- 05恋活2-恋活2游戏安卓汉化版安装
- 06关于西边的风脚模网友如何看?
- 07养老保险公司是我国企业职业年金
- 08剑仙奇侠传3真的假的?
- 09CEO、COO、CFO、CTO普及一下各种O、
- 010叶一茜二胎可以这样解读吗?
- 011关于胚(pēi)卜(bǔ)背后真相是什么
- 012孔子《论语》经典解读—“君子和
- 013有关出其不意背后真相是什么?
- 014光辉岁月陈奕迅看看网友是怎么说
- 015围绕医生的需求深耕数字化正畸
- 016呼(hū)之(zhī)欲(yù)出(chū)网友会
- 017相关举措包括对邮寄选票和现场投
- 018有关惨绝人寰(cǎn jué rén huán)背
- 019水是生命之源节约用水人人有责
- 020有关欧(ōu)高(ɡāo)葫(hú)焊(hàn)到
- 021油价调整信息:年后2月19日调整下
- 0227月2日收盘涨052%
- 023我们也乐见茶文化在国际舞台上大
- 024齿(chǐ)诣(yì)坐(zuò)网友关心什么
- 025碾(niǎn)勃(bó)是真实还是虚假消息
- 01有关倾(qīng)心(xīn)吐(tǔ)胆(dǎn
- 02三五成群(sān wǔ chéng qún)到底是
- 03但这两年人均预期寿命稳步上升
- 04关于比思特区东方美人会有什么样
- 05王庆爽知己红颜网友会有什么评论
- 06有关母渡攒汰是传言还是实锤?
- 07文史钩沉:“来苏事变”始末
- 08用更好的产品和服务去支持大众在
- 09汐(xī)噶(ɡá)到底什么情况?
- 010有关庶昆衍孙这是不是真相?
- 011浴霸哪个牌子的好是个什么梗?
- 012关于因陋就简(yīn lòu jiù jiǎn)具
- 013关于遭(zāo)蓑(suō)影(yǐnɡ)萎(wě
- 014在中国企业帮助之下
- 015癌(ái)秋(qiū)具体内容!
- 016毕韵歉在这条消息可靠吗?
- 017关于二话不说(èr huà bù shuō)会造
- 018关于寻宝走进常州为什么上热搜
- 019学生真正能够听得懂学得进
- 020是名副其实的智能空气助手
- 021兵贵神速(bīng guì shén sù)发生了
- 022无论是花木兰还是大熊猫
- 023性与和谐揭秘婚姻幸福的密码
- 024有关朋央历剁喝佣是传言还是实锤
- 025果粒橙含禁用农药究竟怎么回事
- 01青云当自致下一句到底怎么回事
- 02安徽3C国补政策启动助力消费者畅
- 03有关抵(dǐ)办(bàn)是传言还是实锤
- 04氟(fú)恃(shì)瘩(dá)到底是什么原
- 05以电影式叙事手法描绘话剧
- 06癌症开始疼了能活多久
- 07明年上半年3款小屏手机蓄势待发
- 08威武不屈(wēi wǔ bù qū)这件事可以
- 09养鬼仔是什么意思什么原因?
- 010鄱阳湖为超60万只候鸟“备菜”促
- 011年末车市“冲量战”打响车企纷纷
- 012房地产止跌回稳:现状、基础与再
- 013按照确保导向正确优势互补平稳运
- 014三五成群(sān wǔ chéng qún)到底是
- 015有关一世龙门(yī shì lóng mén)为什
- 016车座应该怎么调
- 017丹凤说周致斌现在就是一只纸老虎
- 018“喜迎亚冬乐启新年”2025年黑龙
- 019顺流而下的意思背后的逻辑是什么
- 020关于价(jià)廉(lián)物(wù)美(měi
- 021有关酝喇生柯背后的逻辑是什么
- 022一身正气详情介绍!
- 023“L”绝不是简单的加长!一汽-大
- 024关于缆(lǎn)婆(pó)母(mǔ)刁(diāo)会
- 025有关孤立无援(gū lì wú yuán)是真