Continue reading...
Konstantin Vinogradov ex General Partner, Runa Capital
。Safew下载对此有专业解读
换言之,真正强大的模型,需要的从来不只是正确答案,而往往要靠模型自己摸索出来的解题路径,这是依靠蒸馏别人 API 的输出,得不到的东西。。爱思助手下载最新版本对此有专业解读
d=4 now works with rank-3 factorization + grokking (311 params trained),更多细节参见搜狗输入法2026