read.fallenpal归档
精翻 · X 长帖

如何做好研究

原作者 vivek原文 2026-06-10Bruce Chen 译
如何做好研究

没人真正教过你怎么做研究。真正的技能是一叠小技能——自己选题、升级输入、把一切写下来、收紧循环、盯着输出看、有目的地游荡、找到你的人、玩长期游戏——几乎每一项都可以刻意训练。

没人真正教过你怎么做研究。你拿到一张桌子、一个别人选好的问题、一句含糊的指示——做出点新东西。于是多数人从他们能看到的东西反推这份工作该怎么做:论文、推特长帖、公告。最后学会的是怎么看起来像个研究者,而不是怎么成为一个研究者。真正的技能是一叠小技能,其中几乎每一项都可以刻意训练。

自己选题

Richard Hamming 在贝尔实验室有个习惯,让他在午餐时间很不受欢迎。他会问坐他旁边的人:你们领域最重要的问题是什么?然后问:那你为什么不研究它?人们开始换桌子。这个问题刺人,因为我们多数人没有好答案。我们不选问题,我们吸收问题——从导师那里、从某个大实验室上季度的公告里、从这周所有人都在引用的那篇论文里。

吸收来的问题,麻烦在于你接受结论却不拥有推理。你知道某个知名实验室关心一个方向,但不知道为什么,不知道他们预期发现什么,不知道什么会让他们放弃。等他们转向的时候,你一年后才知道。而且在一个已经时髦的问题上,你在跟一千个起步更早、算力更多的人赛跑。

John Schulman 的 ML 研究指南把工作分成两种模式。一种是读文献,找可以改进的点。另一种是选一个你真心想让它存在的结果,然后倒推实验。他主张第二种,悄无声息的理由是它在制造原创性。一个你真正在乎的目标会把你拖进任何综述论文都不涵盖的领域。

至于品味,总被当成天赋来谈论。但它的表现更像肌肉。每次实验前预测结果。遮住论文的结果部分,仅凭方法猜出数字。标记本月发布的成果中哪些两年后还有影响,事后检查命中率。一次预测加一次修正,重复几百次——每个好模型都是这么训练的,包括你脑子里那个。

升级你的输入

共享的阅读清单产出共享的想法。如果你的信息食谱是 arXiv 的热门页加上群聊筛选幸存的内容,你会可靠地在同一时间得出跟所有人一样的结论,这让那些结论的价值约等于零。

旧材料被严重低估。这个领域在延迟重演自己的历史:MoE 追溯到 1991 年,LSTM 到 1997 年,反向传播在 1986 年成为主流。Rich Sutton 在 2019 年用了一千字写下"痛苦的教训",它对领域走向的预测胜过十倍篇幅的综述。Claude Shannon 在 1952 年做过一场关于创造性思维的演讲,他的开场动作是把问题缩到近乎平凡,破解小版本,再一块一块把难度加回来。就这一个技巧能带你穿过比任何现代生产力建议更多的墙。

广度跟深度一样重要。可解释性毫无顾忌地从神经科学那里借东西。评估设计就是穿着白大褂的机制设计。对 GPU 真正怎么移动内存有一个可用的直觉,你能在基准测试之前就知道哪些架构论文注定失败。而诚实的统计学可能是 ML 中最稀缺的技能——这里很多发表的严谨本质上是带误差棒的 vibe。

还有一件事。读论文本身,不要读总结它的推特长帖。附录里埋着真相,局限性部分通常是整篇文档里最诚实的一段。

把一切写下来

Paul Graham 指出,一个想法在你说出口之前可以感觉浑然天成。纸面会找到大脑掩盖的裂缝:你从未检验过的假设、实际上推不出的那一步、悄悄互相矛盾的两条断言。

Feynman 的规则是,你第一个要避免欺骗的人是你自己,因为你是最容易的目标。写作是有史以来最便宜的防御。Darwin 更进一步,把它变成了程序。任何与他的理论相悖的事实当场记下,因为他发现自己的记忆删除不利证据的速度比有利证据更快。你的记忆对你的失败实验做同样的事。保持一份日志:假设、设置、预期、结果、更新的信念。重读上个月的记录,那种谦卑感没有任何审稿人能比得上。

然后把一部分公开发出去。Olah 和 Carter 的"研究债务"文章论证了一个观点:领域被未消化的想法堵住了,而一个清晰的解释是真正的贡献,不是服务性工作。今天很多做可解释性的人是通过可读的文章进入这个领域的,而不是通过会议论文。一组公开写作也加倍作为你能拥有的最强凭证,因为它是你如何思考的无法伪造的样本。

收紧循环

关于 Alec Radford 的故事很少涉及单次天才一击。它们涉及体量。每天更多轮实验,每周更多被丢弃的错误想法,一个比任何人都更新得快的现实模型。这才是真正的游戏。研究速度基本上就是你发现自己错了的速度。

这使工具建设成为一等研究活动。启动一轮实验应该是一行命令。画图应该是再一行。每个实验应该能从配置文件复现,比较两次运行应该花几秒钟而不是一下午的考古学。Karpathy 训练神经网络的配方里有一个步骤值得做一百遍:在正式训练之前先在单批次上过拟合。三十秒,一半的 bug 直接消失。把所有东西缩到足够便宜,做对,然后再投入算力。

并且放弃"工程是副手"这种观念吧。在前沿,这两个工作已经融合了。能自己搭架子、写评估、建数据管道的研究者,才是假设真正被检验的人。其他人都在排队。

盯着输出看

一条下降的损失曲线不是分析,是安慰。你的实验抛出的信息远多于你消费的:转录结果、失败案例、分布里奇怪的尾巴。大部分在日志文件夹里无人问津地死去。

Karpathy 的配方在写任何训练代码之前就开始了,花几个小时手工检视原始数据。大多数 ML bug 活在数据里,而且它们静默地失败。没有东西崩溃。你只是得到一个平庸的模型和一个关于原因的错理论。

Andrew Ng 教了十多年同样的不华丽但无可超越的动作。拉出一百个失败样本,全读一遍,分堆,攻击最大的那堆。对模型有效,对评估也有效——一个你从未读过转录的基准测试,是你并不真正理解的基准测试。一份真正奇怪行为的转录,教给你的东西比下一个小数点后的精度多得多。

有目的地游荡

你的第一个子领域是时机的偶然,所以就把它当成偶然。在决定住在哪里之前,花真正的时间在可解释性、评估、强化学习、系统里。这个领域里某个角落有你的特异之处是不公平优势,而找到它的唯一方法是在几个地方交学费。没有人给你免单。

每个想法先跑可丢弃版本,让大部分早点死。把基线调到疼为止,因为 ML 的坟场里全是遇到调好的基线就蒸发的所谓提升,而审稿人是最差的学习对象。做消融直到你知道哪个组件在撑结果。通常就是一个,而且通常不在标题里。

广度也是保险。子领域都会饱和,全部都会,通常就在它们在 Twitter 上巅峰之后。能在这些转折中持续产出的人,是已经摸熟了邻居领地的人。

找到你的人

Hamming 注意到一种模式:谁最后做出了重要工作。关着门的同事在任意一年产出更多,而开着门的同事做出了真正重要的工作,因为那些打断携带了关于世界真正需要什么的信息。你的"开着的门"大概是收件箱。保持它开着。

慷慨在研究中以无与伦比的方式复利。复现一个结果并把你发现的公布出来。把你为自己做的工具发出去。用平实的语言解释一件难事。回报从侧面抵达,几个月后,以合作、引用、或你本不可能申请的职位的形式。你半成型想法也公开发出去,因为在时间线上犯错比在印刷品上犯错便宜得多。而那个在你投入三个月之前就告诉你某个想法不好的合作者,比算力还值钱。这种关系买不来,只能挣来。

长期游戏

Pasteur 说运气眷顾有准备的头脑,Hamming 在此基础上建了一整套职业哲学:知识和生产力像利息一样复利。每日的微小优势孤立来看微不足道。你读什么、记录什么、你的循环跑多快、你跟谁争论。给它们几年,它们产出的职业生涯从外面看像运气。比你感觉必要的更早开始复利。未来的你早就知道这一程是最便宜的部分。

本页为精翻阅读版。原文版权归原作者所有,中文译文仅用于学习与研究传播。