本文是“夜间科学”系列的最后一篇文章。文章作者、两位杰出科学家笔下的“夜间科学”,探讨的是科学创造力的来源——它是科研中未成熟的自由探索,也是来自“夜晚”的不为人知的真实研究过程。此前,他们介绍了跨学科、拟人化的语言、过于专注当前假设和数据所带来的问题,等等。在最后这篇文章中,作者将科研比类比为解谜游戏,系统划分出四类经典谜题的思维模式。而真实科研的挑战不只是解谜本身,由于研究者无法事先知晓自己身处哪一类谜题——“判断谜题类型”本身就成了一层“元谜题”。作者认为,将自己变身为一名“解谜者”,视角在不同谜题类别之间转换,能够极大提升科学创造力。希望这一系列文章,能为你的科研旅程增添一份助力。
撰文 | Itai Yanai、Martin Lercher
翻译 | Kestrel
我们将永不停止探索
而一切探索的终点
是抵达我们出发的起点
并且是第一次知道这地方
——T·S·艾略特
大自然是一张由谜题织就的挂毯,而解开这些谜题正是科研乐趣的核心源泉。尽管它们错综复杂,却也能像人类为娱乐而创造的智力游戏一样归类:拼图游戏、逻辑陷阱,需要寻找问题描述之外关联的谜题,以及那些要求我们跳出思维定式,通常要识别并摒弃隐含假设才能破解的谜题。这些谜题的原型可依据两个维度加以区分:其一,它是属于“封闭世界”还是“开放世界”;其二,其解法需要建立联系,还是需要对问题结构有更深刻的洞察。解决人为设计的谜题是培养科学创造力的重要训练——而这正是学位课程(尤其是数学、物理与工程专业)的要求。
但是,大自然的谜题在一个关键层面上与人造谜题截然不同:在持续进行的研究项目中,你永远无法准确知道自己正身处何种谜题之中。你以为自己面对的是一幅复杂的拼图,只需要将眼前的碎片正确拼接便能完成;但实际上,那或许是一个唯有通过发现它与其他领域的关系才能破解的谜题。在科研中,你不仅需要破解谜题本身,还需要解决相应的“元谜题”(meta-puzzle):你究竟身处何种类型的谜题?有意识地把握这种层级化的问题结构,并在适配不同谜题类型的视角间灵活切换,能够增强我们的科学创造力,加速探索发现的进程。
四种谜题
做科学与学习科学知识不同,要求创造性地解决问题,后者就是我们此前所讨论的“夜间科学”。无论是设计实验、分析方法,还是尝试解读观察结果和数据,我们都是在解决问题。这个过程和玩供人娱乐的益智游戏相通,比如脑筋急转弯或拼图游戏,我们会进入非常类似的“精神空间”。这类人造谜题构成了“问题解决”的一个微小世界。在破解这些人造谜题时,我们会经历一种根本上的不对称性:寻找答案时,问题看似极难甚至无解,可一旦知晓答案,又觉得它几乎显而易见、理所当然。
谜题种类各异,每种都有其特定的前提条件,从而限定了预期解法。在概念上最简单的一类谜题中,所有的碎片线索和可能的连接方式都给你了——你只需要弄清它们如何拼合在一起。这类谜题的典型代表就是拼图游戏,当你将局部的拼块逐步连接起来时,全局图像便显现出来,而这就是你努力的回报。举个数学拼图游戏的例子,考虑下述问题(见图1a):
如何从加、减、乘、除中选择三种不同的运算,让2、4、6、8四个数字组合运算得到结果25?
可以通过暴力破解的方式来解决这个谜题,即尝试所有可能的组合,尽管数量有些多。随着这类谜题规模的增大,其复杂性也会相应增加。
图1 四种谜题。a 数学拼图游戏(第一类):用加减乘除中的三种运算得到结果;b 逻辑谜题(第二类):称重找出异常的硬币,天平会输出X,Y,Z三种符号之一,对应“左边较重”、“重量相等”和“右边较重”,但你不知道符号对应的是哪个意思;c 一个第三类谜题:添加一个标记以掩盖其中有三个肉丸已被吃掉;d 一个第四类谜题:用连续的四条线段连接图上所有的点。
在第二类谜题中,组成部分同样定义清晰,但想得出答案,需要进行逻辑的跳跃。这类“逻辑谜题”通常是脑筋急转弯(brain-teasers),它会提出一个明确的问题,而其解答常常涉及数学技巧的运用。例如,考虑下面的逻辑谜题(图1b):
假设你有12枚硬币,其中11枚重量相同。剩下的那枚硬币要么比其他硬币重一些,要么轻一些。你能仅用4次称量就找出这枚与众不同的硬币吗?你必须使用一种特殊的数字天平来比较两边的重物。它输出三种符号之一,分别对应:左边较重、重量相等和右边较重。你可以区分这三种符号,但你不知道它们各自代表的具体含义。
虽然找到答案并非易事,但其整体结构是清晰的:第一次称量时,你在天平左边放n枚硬币,右边放另外n'枚硬币,后续三次称量依此类推。整个过程就是这样——不能有任何取巧行为,比如联系天平的发明者寻求提示,或者将硬币融化。那么,选择解决方案的具体逻辑究竟是什么呢?如果我们马上给出答案,它看起来可能简单直接。但当你真正尝试去解决这个问题时,就会体会到其中的困难。我们要做的是揭示问题的逻辑结构——通过一种简化问题的思路,才能找到解法。
前两类谜题可被视为属于“封闭世界”:解题所需的要素及其可能的关联在开始时便已明确,挑战在于如何将这些元素以有意义的方式组装起来。相比之下,其他类别的谜题则是“开放世界”的。在“开放世界”谜题中,答案并非封装在闭合的盒子里——你会缺失解题要素或结构的关键信息。因此,在第三类谜题中,你需要联想到问题表述之外的信息,构建联系。考虑下述问题(图1c):
一个男人为他生病的父亲煮了九个肉丸。他让女儿把肉丸带给她祖父。为确保肉丸完好送达而没有在途中被吃掉,他用永久记号笔在装肉丸的锅上写下了罗马数字 “IX”。途中,女孩吃掉了三个肉丸。虽然无法擦掉父亲写的字,但她带着记号笔,可以在上面添加笔画。她该怎么做,才不会让祖父起疑心?
你或许很快就会发现,如果仅考虑罗马数字,无法得到一个比 9 更小的数字。因此,这道谜题要求你将题目描述中给出的线索与外部事物联系起来。虽然这种联系可能很简单,但要在广阔的搜索空间中找到它,并不容易。
最后,在第四类谜题中,我们并不需要联想到另一个迥异的世界,而是需要跳出思维定式。你需要有更深层的洞察力,进行一次思维上的飞跃——找到窍门!这类谜题通常要求你摒弃思考空间内的某个限制条件,这个条件并非问题本身的一部分,而是你自行脑补的。比如图1d所示的九点连线谜题,你可能以前见过:
你能用一笔连续画出四条线段把这些点连接起来吗?
用五条线段相连的解决方案相当简单。如果你和大多数人初次面对这个问题时一样,可能会不自觉地限制自己画线的范围,即将线约束在最外层点构成的虚拟方框中。只有当我们摒弃这一隐含假设,允许自己跳出这个方框思考时,才能找到真正的解法。有趣的是,这类谜题的答案常会让我们会心一笑——因为当意识到对于同一组事实竟存在意想不到的其他视角时,总会产生一种眼前一亮的惊喜。
这四种原型谜题可以按照一个二维网格排列(表1)。第一个维度涉及问题表述的完整性:封闭世界(第一类和第二类)与开放世界(第三类和第四类)。第二个维度涉及所需洞察力的类型:寻找关联(第一类和第三类)与重构问题——要么通过对问题结构的洞察(第二类)解决,要么通过跳出思维定式(第四类)。若你知晓自己在表格中的位置,就代表你知道自己正在应对哪种类型的谜题。
表1 四类谜题
科研就像解谜
审视具体的科学发现,我们可以看到许多发现恰好可以归入四类谜题中的一类。任何需要遵循既定规程的研究,例如获取蛋白质的三维结构、组装完整的基因组或确定生物体的胚胎细胞谱系,都属于第一类谜题。从事这类研究的科学家知道问题存在解决方案,也清楚解决方案包含哪些要素。这些要素“只需”以正确方式组合到一起即可。以通过转录组学(单细胞与空间转录组)手段绘制细胞类型与状态图谱为例:对于特定器官或完整生物体,可以通过组装细胞(或组织片段)的数值表示来重构生命系统。这一过程中,必需克服技术上的阻碍,并且可能获得新发现,但这些新发现会局限于“封闭世界”之内,这个封闭的体系已由构建问题的要素确定。
作为封闭世界、属于第二类的逻辑谜题的一个例子,让我们看看克里克(Francis Crick)及其同事在发现DNA双螺旋结构后的岁月里,是如何思考遗传密码的可能结构的。在“20种天然氨基酸必须仅由四种核苷酸编码”这一约束条件下,他们敏锐地意识到编码可能以“无逗号”(comma-free)的方式运作,他们写道:“本文探讨一个与蛋白质合成相关的数学问题。我们在此提出解决方案,因为它给出了‘魔法数字’——20,所以我们的答案可能具有生物学意义。”通过将问题视为逻辑谜题进行研究,克里克和同事注意到,如果增加“必须能立即明确阅读框”这一约束条件,64种三联体(即今天所说的“密码子”)将缩减至20种。四个同字母密码子(“AAA”“CCC”“GGG”“TTT”)被排除,因为使用这些密码子在重复序列中会导致阅读框模糊。剩余60种三联体可分为20组,每组包含三个互为循环排列的三联体(例如“ACG”“CGA”“GAC”)。如果每组仅使用一个三联体而避免其他组合,则最多存在20种可用三联体——这恰好等于氨基酸的数量。克里克等人证明,确实存在多组这样的20个三联体能使阅读框不发生歧义。这是逻辑推理的绝妙运用,尽管它最终并没有成为正确答案,但由此诞生了一个非常好的想法:他们预言了接头分子(adaptor molecule)的存在,就是后来发现的转运RNA。
科学进步很大程度上源于建立联系,这种方式构成了第三类谜题。例如,哥德尔(Kurt Gödel)在前人的基础上,检验了这样一个设想:构建涵盖所有数学定理的、完备且无矛盾的形式系统。他发现,通过将这一问题与数论联系起来,可以证明在此类形式系统中存在既不能被证明也无法被证伪的命题;这就表明当时普遍追求统一且完备的数学体系的努力是徒劳的。另一个著名的例子是达尔文(Charles Darwin),他将搭乘“小猎犬号”(the Beagle)环球航行时观察到的生物局部适应现象,与经济学家马尔萨斯(Thomas Malthus)的工作联系起来。马尔萨斯曾悲观地指出,由于人口在不受限制时将呈指数增长,战争与疾病必将成为人类生存状态中持续不断的存在。达尔文由此认识到,在这种处境下,适应能力更强的个体将拥有更大的机会留下后代。他将相应的过程命名为“自然选择”,并提出该过程可以解释生物种群如何在亿万年的时光中发生适应性演变。
不过,一些最令人惊讶的发现来自解决第四类迷题。一个科学问题看起来无解,或许是因为一个坏的假设——无论是隐含的还是显性的——限制了我们的搜索空间。此时,我们需要跳出思维定式。一个显著的例子就是CRISPR(成簇规律间隔短回文重复序列,Clustered Regularly Interspaced Short Palindromic Repeats)功能的发现。2000年,Francisco Mojica和同事观察到了一个令人费解的现象:先前观察到的一些被等长的短间隔序列(spacer)分开的短基因组重复序列,并非是某几个奇怪异常物种的特例,而是在原核生物中广泛存在。这些重复序列是如何产生的?它们是某种形式的自私元件,还是对细菌有用的功能?所有破译其起源或功能的尝试都因重复序列的特性而失败。那么,究竟是什么错误的假设限制了探索范围呢?全世界的研究者一度认为重复序列之间的间隔序列无关紧要,因为它们看起来没什么特别的性质。而真相是,正是这些间隔序列携带了功能上重要的信息。它们形成了一种细菌的适应性防御系统的基础,能与威胁来源(例如病毒)的序列发生互补配对。
科学是一种元谜题
“问题解决”深度整合于科研工作者的正式训练当中。而在本科教育中,精心设计的课程让学生接受人为设计、类似解谜问题的挑战。当面对这些教学中的谜题时,你通常知道自己处于哪一类谜题中,就像去玩解谜游戏——拼图游戏就是拼图游戏,逻辑谜题就是逻辑谜题,不必投机取巧。这些练习几乎总是封闭世界的谜题,因为习题内容要基于你之前几周学到的知识和方法。
类似地,当我们事后回顾一个科学研究项目时,它往往能清晰地归入某一类特定的谜题。但这种简单的分类只是后见之明,实际做研究时是另一回事。当我们致力于破解某个科学问题时,我们无法确定自己面对的是哪类谜题,甚至无法确定我们眼中的谜题是否真的有解。解决研究谜题其实是一个层级化的问题。你不仅要找到谜题的解法,还要解决元谜题——也就是弄清楚自己所面对的谜题究竟属于四类中的哪一类。用算法语言来说,谜题分类问题构成了包裹谜题本身的外层循环。在任何时刻,谜题都可能发生变化,让你意识到自己实际面对的是与最初所预想不同的谜题。
图2 科研项目中的谜题切换。a 不同谜题类型的示意图(见表1);b 在研究基因重复和可变剪接的项目过程中谜题类型的切换;c利用深度学习预测酶底物范围的研究中出现的谜题类型切换。
我们给出自身研究中的两个具体的例子,在这些例子中我们可以明确判断谜题类型切换发生的时间节点。我们曾对基因重复(gene duplication)很感兴趣,因为它是一种产生蛋白质新功能的机制,所以我们在想,哪些因素可能决定一个基因家族的规模(因此这是一个第三类谜题)。这让我们联想到可变剪接(alternative splicing):我们推测新的蛋白质异构体(isoform)可以通过基因重复产生,即形成的额外基因拷贝;或者通过可变剪接产生,表现为形成的额外剪接变体。支持这一关联的证据以一个负相关的形式出现,这个负相关提示,不同的基因家族倾向于更多依赖其中一种机制:拥有更多基因拷贝数的蛋白质家族,其每个基因往往有更少的可变剪接异构体,反之亦然。
然而几年后,我们意识到这种关联背后还有更深层次的原因,有两次巧妙地跳出思维定式改变了我们对这一关联的理解。第一次是考虑基因长度,我们发现它跟基因重复和可变剪接都相关。一个基因越长,产生不同的剪接变体的可能性越大;而局部基因组重排,从而复制出完整基因的可能性则越小。第二次关系到基因的表达水平。基因表达似乎既会影响基因重复也会影响可变剪接:表达水平高的基因不太可能发生重复,并且还会有更多的剪接变体。在控制这两个主要的基因性质之后,基因重复和可变剪接之间的相关性就消失了。我们需要重新表述这个谜题,使其从第三类谜题变成第四类谜题(图2b),以获得关于基因重复和可变剪接之间关系更深刻的见解。只有通过将我们的注意力焦点从两个过程本身转移到其他基因性质,即通过跳出思维定式,我们才能够理解所观察到的相关性。
第二个例子是一个利用深度学习预测酶底物范围的研究。我们最初的想法是直接修改我们先前为酶的米氏常数Km而开发的预测流程。我们相信这是一个典型的第一类问题,就直接开始做了。不久之后,我们意识到我们手头上的负样本(negative example)太少了——负样本就是不被特定酶结合的底物。我们不得不随机生成负样本,但这些样本的选取方式必须有助于模型实现最佳的预测准确性。这项任务要求对问题的结构有更深入的洞察,也就转变为第二类问题。然而即便如此,预测的准确率仍然相对较低。我们又将问题又转化为第三类,从自然语言处理的方法中找寻灵感——这正是许多AI生物学问题的源头。我们确实找到了一个解法:我们向原有的氨基酸序列的数值表示中添加了另一个“层”。用我们的酶数据训练这个模型后,它能够输出更有助于我们进行预测的信息。
谜题切换类别的过程可能会存在一些典型的模式,这一点很有意思。我们自己在开启一个新项目时常常会带着一种乐观的心态,将其视为类似拼图游戏的第一类谜题。我们假定所有模型的组成部分和它们的潜在联系都很简单直接,所以需要做的只是以正确的方式将它们拼到一起。然而更多时候,我们会遇到各种阻碍,被迫循着始料未及的线索关联到其他现象(第三类),或深入更复杂的逻辑或数学问题(第二类),或者识别一开始未曾质疑的错误假定(第四类)。
不知道自己身处何种谜题,恰恰凸显了任何研究项目都有的内在不确定性。这种不确定性的一个不利因素是它可能会导致心理压力。采取解谜者的心态可能可以帮助我们重构这种不确定性——我们可以将其视为游玩过程的一部分,允许自己有一个开放的心态,不必固守研究项目的最初构想。没有这种好玩的、解谜的态度,我们不仅可能自己限制了做科研的乐趣,还可能错失不少见解——它可能让你茅塞顿开,也可能让你会心一笑。
本文基于知识共享许可协议(CC BY 4.0)译自Yanai, I., Lercher, M.J. What puzzle are you in?. Genome Biol 23, 179 (2022).https://doi.org/10.1186/s13059-022-02748-1
特 别 提 示
『返朴』提供按月检索功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的内容目录,以此类推。
版权说明:欢迎个人转发,任何形式的媒体或机构未经授权,不得转载和摘编。