新闻详情

月之暗面:很早就验证过长思维链,因成本高不够重视

2月17日音讯,上个月Kimi 发布的多模态推理模型k1.5,今日月之暗面官方共享了k1.5模型诞生的进程。

月之暗面研究员Flood Sung表明,上一年9月12号OpenAI o1发布,长思想链(推理模型背面的关键技术)的有用让他堕入反思。

由于长思想链的有用性其实在一年多前就现已知道了,月之暗面Kimi联合创始人Tim周昕宇很早就验证过,运用很小的模型,练习模型做几十位的加减乘除运算,将细粒度的运算进程组成出来变成很长的思想链数据做监督微调,就能够取得非常好的作用。“我仍然记住其时看到那个作用的震慑。”

“咱们意识到长上下文的重要性,所以首先考虑把文本搞长,但却对长思想链这件工作不行注重。其实首要仍是考虑了本钱问题。”他表明,长上下文首要做的是长文本输入,有Prefill预填充,有Mooncake加持,本钱速度可控,而长思想链是长文本输出,本钱高许多,速度也要慢许多。在这种情况下,把输出搞长就没有成为一个高优选项。

该研究员称还有什么比功能更重要呢?本钱和速度有摩尔定律加持,能够不断下降,只要把功能搞上去,剩余的都不是首要问题。“所以,咱们得搞长思想链,搞 o1。”

他还说到在实践练习的进程中有了重要的发现:模型会跟着练习提高功能也不断添加token数,也便是这是RL练习进程中模型能够自已出现的,“这个和友商 Deepseek的发现几乎是相同的。”

来历:

三言科技

返回资讯列表