berkeley - 搜索 News

资讯

10 天

AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现，强化 ...

在实验中， 1.5B和3B的小模型也涌现出与DeepSeek-R1类似的长思维链推理行为。在INTUITOR中，团队发现如果使用离线学习，在训练约100步的时候模型也学会了作弊：在回答中附加一个已经解决的简单问题来提高自信度分数。

当前正在显示可能无法访问的结果。

隐藏无法访问的结果