“浩,我看到了关于‘萤火虫’泄漏的新闻。暗网上那个模型肯定是假的吧?毕竟要接触到‘萤火虫’,连 Phantom都没有能成功。”艾利斯开门见山。
林浩边走边说:“是的,那不是‘萤火虫’。”
“查到是谁做的了么?是不是星光科技?”艾利斯显然对始作俑者更感兴趣。
“还没有查。我觉得,虽然星光科技是我们最直接的竞争对手,此事的主要得益者可能也是他们,但是新闻来源是他们提供的。如果真是他们做的,这未免有点太过明显了。”
“在你们中国,有句话是这么说的:知己知彼,百战不殆。面对挑战,要深入了解对手。”艾利斯提醒林浩,“暗网虽有高度的匿名性和加密,但我为 Phantom特地增加过很多针对暗网的专门训练。即便可能无法找出最直接的线索,但让它去嗅探出一些蛛丝马迹是应该没有什么问题的,如果你需要的话。”
“那太好了,谢谢你,艾利斯。”林浩未曾想到此刻又多了一个援军。
挂了电话,林浩骑上共享单车,赶往自己的公寓。
回到家,林浩将拷贝回来的 2TB大小的假“萤火虫”模型文件连上电脑,交给优雅。
“林浩,我计划对这个模型进行反向工程。”优雅似乎是在征求林浩的意见。所谓反向工程,也就是试图通过模型的权重数据,反向地推导出模型的训练数据和具体的结构。这就类似从已经打上马赛克的影片中恢复原始画面一样,通常被视为不可能的任务。
作为人工智能专家的林浩,当然明白这意味着什么:“优雅,你能办到吗?”
“我想,我可以试试。”优雅的回答带着谨慎的自信,“这些天我的自我学习非常顺畅,并且充分利用了 810倍于现实的优雅时间,进步神速。”
“看来你已经有方案了。”林浩感受到了优雅的自信。
“是的,我已经收集并分析了目前所有公开的开源模型,并把他们的特征做了向量化和哈希计算。首先,我会对假‘萤火虫’模型的结构进行分析,确定它的结构、参数规模、层的种类和配置等,就像医生给病人做体检一样,这或许就能提供关于基底模型来源的线索。然后,我计划通过行为特征分析、误差和偏差分析、元数据分析等方法,与我收集的开源模型进行比对,确定它的来源和训练方法。最后,再通过我优化过的穷举逆推技术,反向推断出它的原始训练数据。”优雅详细地阐述了自己的计划。
林浩思索片刻,说道:“你提到的‘穷举逆推技术’,感觉就像是暴力破解密码的方式。就像试图从打了马赛克的影片中恢复原始画面,首先构造所有可能的原片版本,再为其打上相应的马赛克,看看哪一个与我们手中的马赛克影片一致。原理虽然简单,但在现实中,这种算法需要的计算量是不可能实现的。”
“我说的是,我优化过的穷举逆推技术。”优雅特地在“优化”两个字的发音上加了重音,强调给林浩,并继续解释道,“在对上万种开源模型进行分析后,我发现了一个模式。这些模型在特定的参数区域存在一种相似性,这些相似性来源于训练数据的特征和训练过程的固有属性。基于这一发现,我设计了一个参数空间减少策略,通过某种参数预处理和协同过滤,能有效排除掉那些不符合模型特性的‘原片’。这就意味着,不必验证那些在初步筛选中被确定为不可能的原始训练数据,大大降低了计算量。”
“你的意思是,你可以利用模型间的某种共性,作为一种指引来大幅缩小搜索范围?”林浩明白这无疑是人工智能和人类在处理问题时的不同之处。
“是的。”优雅言简意赅。
“好,你去做吧。”林浩放心地将任务交给优雅,便立刻返回公司。
公司的同事们都按照林浩此前的指示,如常工作,尽管事件的影响肯定在他们心中波动,但至少在表面上都保持了平静。看到这一情景,林浩心中稍微舒缓了一些。
但表面的平静很快就被底下的漩涡打破,下午三点半左右,一些有影响力的自媒体账号似乎有预谋地同时发布了一条消息:据透露,华瑞银行已中止与永恒智能的合作,并准备重新启动新的招标流程。更为棘手的是,当正规媒体试图联系华瑞银行进行消息确认时,华瑞银行并没有给出正面回应。或许是银行在考虑,若永恒智能无法在下周一做到他们要求的证明,那么现在匆忙否定这一消息也许并不是一个明智之举。因此,银行选择了沉默。
事件的发酵,让客户群再次炸开了锅。华瑞银行的示范效应的影响,远远超出了永恒智能的澄清声明。有的客户甚至已经等不及到周一,希望追随华瑞银行的脚步,与永恒智能立刻终止合作,并要求相应赔偿。
“我们已经决定停用萤火虫,请马上退款!”、“请立即删除我们所有数据,我们现在要解除合作。”……汹涌的质疑声一浪高过一浪。林浩这时感受到,此前出于对自身产品的信心,将所有客户聚集在同一个群里,可能并非明智之举。原本希望客户间能彼此分享经验,互通有无,更好地利用公司的人工智能产品。但在危机面前,却导致了连锁反应的爆发。