谢赛宁开炮现场打脸CVPR评审!Sora开山之作DiT被拒怒斥AI学术圈畸形2025年6月24日

日期: 栏目:AI脸替秀 浏览:18

  【新智元导读】在CVPR 2025上,谢赛宁发出振聋发聩的批判:如今的AI学术界,已经彻底畸形了!有巨大缺陷的学术激励制度,让所有研究者陷入内卷,精疲力竭。而自己的DiT、SiT等开山论文,也让CVPR评审被狠狠打脸了!

  有趣的是,谢赛宁特意回顾了自己的DiT、SiT两篇论文,分别被CVPR 2023和2024拒收的经历。

  虽然当时被拒收,但紧接着,CVPR评审就被狠狠打脸:这两项工作,分别成为了Sora和Stable Diffusion 3的奠基性成果。

  注意,一定要避开这个陷阱:从第一天起就抱着一个僵化的想法,然后发表一篇固步自封的论文。而这,往往是最为平庸的作品。

  经过训练,有限玩家可以预测未来的每一种可能性,以控制未来为目标。但无限玩家则继续游戏,期待着惊喜。

  在开放的科学中,进步不是来自对知识的守旧,而是来自对知识的分享。只有发现的游戏才能持续,才能不断演化。

  有限游戏的参与者,可能会在目标无法实现时选择放弃:「论文没被接收/没拿到资助/产品没上线,所以我失败了。」

  而对无限游戏的参与者来说,坚持是一种存在方式:「这是更长远游戏的一部分。我该如何学习、适应,继续前行?」

  从此,统治扩散模型的U-Net直接被取代。这一论文,成为了奠定他学术地位的开山之作。Diffusion Transformer,也成为了Sora的基础架构之一。

  然而,就是这样一篇神作,当初却因「缺乏创新性」的理由,直接被CVPR 2023拒了,还一连被多个大公司拒绝。

  另外,他和Willis Ma等合著的SiT论文,也因「缺乏创新性」这个理由,被CVPR 2024拒了。

  就在几个月后,CVPR评审又被打脸了:Stable Diffusion 3发布,直接表明「结合了DiT架构和流匹配技术」,也就是基于SiT。

  总之,谢赛宁表示,自己还可以继续讲很多,自己的许多被最多应用的论文,开始并没有得到最有力的评价。

  博士教育的真谛在于教会你如何学习,如何提出深刻的问题,如何挑战既有假设——这些能力将伴你终身,其价值远超学位本身。

  你将成为一个能安然于模糊混沌,能与盘根错节的复杂性深度共事,并能在失败与迭代中安之若素的人。

  即便毕业,你也并未「赢得」科研或教育这场游戏。你将永远身在局中,而你参与的目的,就是为了让这场游戏永远进行下去。

  Hannah Arendt曾在1964年说:「我该为影响力而奔走吗?不,我渴望的是理解。而当他人也达成了与我同样的理解——那一刻,我便获得了一种满足感,一种深刻的归属感。」

  而谢赛宁的模板由于效果十分拔群,在圈子里可谓是相当火爆——有不少研究者都复用在了自己的项目里。

  原因在于,一旦论文率先发表,就能收获更多引用和关注,成为赢家。后来的贡献者,往往就被直接忽视,成为输家。

  举例来说,谢赛宁和Penghao Wu早在2023年7月就启动了引导视觉搜索作为多模态LLM核心机制的「V*」项目。

  在这项研究中,谢赛宁等人将VQA LLM与视觉搜索模型相结合。借助大模型的世界知识,V*会对视觉目标进行多轮引导搜索。接着,它会提取局部特征并将其添加到工作记忆中,最终利用搜索到的数据生成响应。

  时间来到2025年,当OpenAI在发布最新版o3和o4-mini的时候,不仅在模型评测中加入了基于V*的视觉搜索基准,而且还将基于图像的思考能力作为重中之重,直接放在了标题上。

  一句话总结就是:「有限游戏」或许能带来财富、地位、权力与认可;但「无限游戏」所提供的,是某种更深刻、也更有意义的回报。

  原标题:《谢赛宁开炮,现场打脸CVPR评审!Sora开山之作DiT被拒,怒斥AI学术圈畸形》

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

标签: