如何做好研究

没人真正教过你怎么做研究。真正的技能是一叠小技能——自己选题、升级输入、把一切写下来、收紧循环、盯着输出看、有目的地游荡、找到你的人、玩长期游戏——几乎每一项都可以刻意训练。

没人真正教过你怎么做研究。你拿到一张桌子、一个别人选好的问题、一句含糊的指示——做出点新东西。于是多数人从他们能看到的东西反推这份工作该怎么做：论文、推特长帖、公告。最后学会的是怎么看起来像个研究者，而不是怎么成为一个研究者。真正的技能是一叠小技能，其中几乎每一项都可以刻意训练。

自己选题

Richard Hamming 在贝尔实验室有个习惯，让他在午餐时间很不受欢迎。他会问坐他旁边的人：你们领域最重要的问题是什么？然后问：那你为什么不研究它？人们开始换桌子。这个问题刺人，因为我们多数人没有好答案。我们不选问题，我们吸收问题——从导师那里、从某个大实验室上季度的公告里、从这周所有人都在引用的那篇论文里。

吸收来的问题，麻烦在于你接受结论却不拥有推理。你知道某个知名实验室关心一个方向，但不知道为什么，不知道他们预期发现什么，不知道什么会让他们放弃。等他们转向的时候，你一年后才知道。而且在一个已经时髦的问题上，你在跟一千个起步更早、算力更多的人赛跑。

John Schulman 的 ML 研究指南把工作分成两种模式。一种是读文献，找可以改进的点。另一种是选一个你真心想让它存在的结果，然后倒推实验。他主张第二种，悄无声息的理由是它在制造原创性。一个你真正在乎的目标会把你拖进任何综述论文都不涵盖的领域。

至于品味，总被当成天赋来谈论。但它的表现更像肌肉。每次实验前预测结果。遮住论文的结果部分，仅凭方法猜出数字。标记本月发布的成果中哪些两年后还有影响，事后检查命中率。一次预测加一次修正，重复几百次——每个好模型都是这么训练的，包括你脑子里那个。

升级你的输入

共享的阅读清单产出共享的想法。如果你的信息食谱是 arXiv 的热门页加上群聊筛选幸存的内容，你会可靠地在同一时间得出跟所有人一样的结论，这让那些结论的价值约等于零。

旧材料被严重低估。这个领域在延迟重演自己的历史：MoE 追溯到 1991 年，LSTM 到 1997 年，反向传播在 1986 年成为主流。Rich Sutton 在 2019 年用了一千字写下"痛苦的教训"，它对领域走向的预测胜过十倍篇幅的综述。Claude Shannon 在 1952 年做过一场关于创造性思维的演讲，他的开场动作是把问题缩到近乎平凡，破解小版本，再一块一块把难度加回来。就这一个技巧能带你穿过比任何现代生产力建议更多的墙。

广度跟深度一样重要。可解释性毫无顾忌地从神经科学那里借东西。评估设计就是穿着白大褂的机制设计。对 GPU 真正怎么移动内存有一个可用的直觉，你能在基准测试之前就知道哪些架构论文注定失败。而诚实的统计学可能是 ML 中最稀缺的技能——这里很多发表的严谨本质上是带误差棒的 vibe。

还有一件事。读论文本身，不要读总结它的推特长帖。附录里埋着真相，局限性部分通常是整篇文档里最诚实的一段。

把一切写下来

Paul Graham 指出，一个想法在你说出口之前可以感觉浑然天成。纸面会找到大脑掩盖的裂缝：你从未检验过的假设、实际上推不出的那一步、悄悄互相矛盾的两条断言。

Feynman 的规则是，你第一个要避免欺骗的人是你自己，因为你是最容易的目标。写作是有史以来最便宜的防御。Darwin 更进一步，把它变成了程序。任何与他的理论相悖的事实当场记下，因为他发现自己的记忆删除不利证据的速度比有利证据更快。你的记忆对你的失败实验做同样的事。保持一份日志：假设、设置、预期、结果、更新的信念。重读上个月的记录，那种谦卑感没有任何审稿人能比得上。

然后把一部分公开发出去。Olah 和 Carter 的"研究债务"文章论证了一个观点：领域被未消化的想法堵住了，而一个清晰的解释是真正的贡献，不是服务性工作。今天很多做可解释性的人是通过可读的文章进入这个领域的，而不是通过会议论文。一组公开写作也加倍作为你能拥有的最强凭证，因为它是你如何思考的无法伪造的样本。

收紧循环

关于 Alec Radford 的故事很少涉及单次天才一击。它们涉及体量。每天更多轮实验，每周更多被丢弃的错误想法，一个比任何人都更新得快的现实模型。这才是真正的游戏。研究速度基本上就是你发现自己错了的速度。

这使工具建设成为一等研究活动。启动一轮实验应该是一行命令。画图应该是再一行。每个实验应该能从配置文件复现，比较两次运行应该花几秒钟而不是一下午的考古学。Karpathy 训练神经网络的配方里有一个步骤值得做一百遍：在正式训练之前先在单批次上过拟合。三十秒，一半的 bug 直接消失。把所有东西缩到足够便宜，做对，然后再投入算力。

并且放弃"工程是副手"这种观念吧。在前沿，这两个工作已经融合了。能自己搭架子、写评估、建数据管道的研究者，才是假设真正被检验的人。其他人都在排队。

盯着输出看

一条下降的损失曲线不是分析，是安慰。你的实验抛出的信息远多于你消费的：转录结果、失败案例、分布里奇怪的尾巴。大部分在日志文件夹里无人问津地死去。

Karpathy 的配方在写任何训练代码之前就开始了，花几个小时手工检视原始数据。大多数 ML bug 活在数据里，而且它们静默地失败。没有东西崩溃。你只是得到一个平庸的模型和一个关于原因的错理论。

Andrew Ng 教了十多年同样的不华丽但无可超越的动作。拉出一百个失败样本，全读一遍，分堆，攻击最大的那堆。对模型有效，对评估也有效——一个你从未读过转录的基准测试，是你并不真正理解的基准测试。一份真正奇怪行为的转录，教给你的东西比下一个小数点后的精度多得多。

有目的地游荡

你的第一个子领域是时机的偶然，所以就把它当成偶然。在决定住在哪里之前，花真正的时间在可解释性、评估、强化学习、系统里。这个领域里某个角落有你的特异之处是不公平优势，而找到它的唯一方法是在几个地方交学费。没有人给你免单。

每个想法先跑可丢弃版本，让大部分早点死。把基线调到疼为止，因为 ML 的坟场里全是遇到调好的基线就蒸发的所谓提升，而审稿人是最差的学习对象。做消融直到你知道哪个组件在撑结果。通常就是一个，而且通常不在标题里。

广度也是保险。子领域都会饱和，全部都会，通常就在它们在 Twitter 上巅峰之后。能在这些转折中持续产出的人，是已经摸熟了邻居领地的人。

找到你的人

Hamming 注意到一种模式：谁最后做出了重要工作。关着门的同事在任意一年产出更多，而开着门的同事做出了真正重要的工作，因为那些打断携带了关于世界真正需要什么的信息。你的"开着的门"大概是收件箱。保持它开着。

慷慨在研究中以无与伦比的方式复利。复现一个结果并把你发现的公布出来。把你为自己做的工具发出去。用平实的语言解释一件难事。回报从侧面抵达，几个月后，以合作、引用、或你本不可能申请的职位的形式。你半成型想法也公开发出去，因为在时间线上犯错比在印刷品上犯错便宜得多。而那个在你投入三个月之前就告诉你某个想法不好的合作者，比算力还值钱。这种关系买不来，只能挣来。

长期游戏

Pasteur 说运气眷顾有准备的头脑，Hamming 在此基础上建了一整套职业哲学：知识和生产力像利息一样复利。每日的微小优势孤立来看微不足道。你读什么、记录什么、你的循环跑多快、你跟谁争论。给它们几年，它们产出的职业生涯从外面看像运气。比你感觉必要的更早开始复利。未来的你早就知道这一程是最便宜的部分。