资讯

在实验中, 1.5B和3B的小模型 也涌现出与DeepSeek-R1类似的长思维链推理行为。 在INTUITOR中,团队发现如果使用离线学习,在训练约100步的时候模型也学会了作弊:在回答中附加一个已经解决的简单问题来提高自信度分数。