最近,美国著名基因组学专家克雷格·文特尔(J. Craig Venter)在知名学术期刊《美国国家科学院院刊》(PNAS)上发表了一篇论文,称新的算法能通过分析个体的基因组信息来还原我们的长相,将包括脸形、眼睛、发色甚至是声音在内的诸多脸部特征融合进一张图片之中。
DNA 就能获取你的长相" data-img-size-val="797,174" />
左边是真人照,右边是预测图。来源: Human Longevity
算法预测人脸
基于全基因组测序数据,文特尔的研究团队召集了1061 名年龄在 18 至 82 岁之间的人群参加,并且保证他们来自不同的种族。之后研究人员收集了这些样本的 3D 面部图像、声音、眼睛、肤色、年龄、身高和体重等数据,创建了预测模型。
就预测的情况来看,算法对瞳孔颜色、肤色和性别等简单特征的预测准确率较高,但在声音等其他更复杂的遗传性状上还存在比较多的困难。
此外,该团队还开发了一种名为最大熵的机器学习算法,其创新之处在于它能找到所有预测模型的最佳组合,实现全基因组测序数据与人口统计数据的互相匹配。例如,10 名参与者中能保证有 8 个来自不同种族,一半的人是非裔美国人或者欧洲移民。
“我们着手进行这项研究是为了证明个体的基因组代码记录了关于个体的一切,” 文特尔说:“我们的预测模型是健全的,尽管目前的研究样本有限,但是随着数据库中的研究人数增加到数十万,我们将能够更精准地预测个体基因组中可预测的一切。”
论文的作者之一、数据科学家 Lippert 补充说:“这项研究显示了成像技术对大量人物特征进行筛选的潜力,机器学习能够实现全面自动化的数据解释,并在科学发现中起着至关重要的作用。”
试想一下,未来如果这种“身份反推”的算法可行的话,那么警察就可以通过提取血迹中的 DNA 还原出嫌疑犯的长相了。
不能精准预测
不过,文特尔的论文一经发表便在社交媒体上引起了不小的波澜,很多人对于“基因预测人脸”这一结论的准确性持保留态度。
美国另一家 DNA 检测公司 My Heritage 的首席科学家、哥伦比亚大学计算机学助理教授 Yaniv Erlich 就在生命科学预印本网站 BioRxiv 上直言不讳地指出了论文存在的错误,认为其并没有利用全基因组信息中的标记物(比如人脸识别需要挖掘面部特征的标记点)来识别人的身份。
文特尔的基因检测技术并不能准确预测人脸。因为原作者并不知道某一特定个体的身高或面部结构,他们只是根据人口统计学上的平均值来进行了预测。
事实上,Erlich 一年前就吐槽过文特尔的预测算法。当时,文特尔利用算法“预测”出了自己 DNA 背后的脸部 3D 图像,Erlich 之后找了一张演员的真人照与预测图像作对比,结果发现,经算法预测之后的照片看起来更像是一位名叫布莱德利·库珀(Bradley Cooper)的美国影星。
文特尔真人照(左)、算法预测图(中)、演员布莱德利·库珀真人照(右)
Erlich 说:“其实在相同的拍摄角度下,很多白人男性看起来都很像预测出的这张脸。”
曾担任美国 “科学”杂志审稿人的格里弗也透露,文特尔的基因预测技术并不能从人群中准确地识别某一特定对象,论文两次都未通过该杂志的审查,在此之前文章也遭遇了因找不到出版商而难以发表的情况。
算法预测人脸究竟可不可行?
在遗传学中,诸如瞳孔颜色、胆固醇水平等被称为“表型”。表型或多或少是由生物特定的 DNA 或基因型决定的。
“这就是为什么从 DNA 中识别特定个体的面孔不仅仅在理论上是可行的,而且是可能的,”在宾夕法尼亚州立大学从事基因面部预测研究的 Mark Shriver 说,“我认为这是我们的未来。”
但是因为长相的影响因素比较复杂(五官尺寸、面容比例、脂肪厚度、毛发密度等一系列因素都会极大地影响一个人的长相),因此想要确切地知道 DNA 对于面部特征的作用(或者从 DNA 里读出面部特征的诸多信息)还需要不断地进行深入研究。
并且,文特尔团队近几年在“算法预测人脸”这条路上阔步前进的同时也在有意引导人们越来越重视个人隐私。
试想一下,如果上文提到的警察应用算法还原嫌疑人长相的事情成为现实的话,这在某种程度上意味着出于研究目的而收集的基因组将因此而失去其私有属性,不再真正为个体所有。
文特尔认为基因组数据(特别是公共数据)具有严重的隐私风险。也就是说,如果有人可以访问我们的基因组,那么他们可能会通过生成预测照片来找到我们。
不过文特尔提及“基因检测行业存在隐私风险”这一点也是为了自我营销。因为他认为像他创立的“人类长寿”这样的私人数据库更有可能为个体提供必要的保护。
据了解,人类长寿公司(Human Longevity Inc)由文特尔与干细胞先驱罗伯特·哈里里和 XPRIZE 基金会创始人彼得·迪曼蒂斯组建,该公司试图利用基因组和干细胞疗法,寻找相应的治疗药物,最终实现延缓衰老、保持健康和身体机能的目标。