学霸的模拟器系统 第258节
程新竹已经戴着眼罩睡着了,方雪若正在翻看手中的财报。
那是全球顶级的散热材料供应商。
林允宁打开了笔记本电脑。
他没有看电影,也没有睡觉,而是调出了一篇Google研究院(Google Research)上周刚发表的论文:
《核方法在大规模数据集上的算力瓶颈与低秩近似》。
这篇论文像是一份判决书,直指当前所有注意力机制(Attention Mechanism)算法的死穴。
即使是他提出的“全注意力机制”,虽然在药物分子这种短序列上表现完美,但只要序列长度 N一拉长,计算量就会呈指数级爆炸。
核心问题在于那个该死的 Softmax。
在计算注意力时,标准公式是:
Attention(Q, K, V)= Softmax(Q· K^T)· V。
必须要先算 Q和 K的转置乘积。这会生成一个 N x N的巨大矩阵。
如果 N是1000(比如一段短文),矩阵就是100万个元素,显卡还能扛得住。
但如果是基因测序的长序列,N可能是10万,那就是100亿个元素。现有的任何内存都会瞬间被撑爆。
这就是“算力的囚笼”。
在这个囚笼里,他的算法处理不了长文本,也处理不了高分辨率图像,注定只能是个玩具。
Google正是看准了这一点,才敢断言这个方向没有前途。
林允宁闭上眼,靠在椅背上。
【模拟科研模式启动。】
【注入模拟时长:200小时。】
机舱里的嗡鸣声瞬间消失。
林允宁的意识沉入了一片纯白的数学空间。
在他的眼前,出现了一个巨大的矩阵。那是标准的Softmax Attention计算过程:
Attention(Q, K, V)= softmax(Q * K^T)* V
那个中间产生的(Q * K^T)矩阵,大得像是一堵墙,横亘在算力的通道上。
它是一个 N x N的庞然大物。
【第20小时:你尝试用稀疏矩阵来近似。失败。稀疏化会丢失长距离的语义关联,得不偿失。】
【第60小时:你尝试用低秩分解(Low-rank factorization)。效果一般,精度损失太大。】
【第120小时:你回到了矩阵乘法的最基本性质——结合律。】
(A * B)* C = A *(B * C)
这谁都知道。
但在注意力公式里,那个非线性的 Softmax()函数像是一把锁,锁住了 Q和 K,让你无法先把 K和 V乘起来。
“如果我把这把锁换掉呢?”
林允宁的思维在这一刻跳出了深度学习的框架,回到了核方法(Kernel Method)的领域。
既然 Softmax是为了归一化和非线性映射,那为什么不用一个核函数 feature mapφ(·)来代替它?
Sim(Q, K)=φ(Q)*φ(K)^T
一旦把非线性操作移到乘法之前,结合律就生效了!
原本的计算顺序是:
(Q * K^T)* V
这是先算 N x N的大矩阵,再乘 V。
现在的计算顺序可以是:
Q *(K^T * V)
K^T是(d x N),V是(N x d)。
它们乘起来,只是一个 d x d的小矩阵!
d(特征维度)通常只有64或128,远小于序列长度 N。
【第180小时:推导完成。】
原本随 N增长而爆炸的计算墙,瞬间坍塌。
新的复杂度:O(N)。
从平方级降维到线性级。
林允宁猛地睁开眼。
他迅速从包里掏出草稿纸,在那张印着美联航Logo的餐巾纸背面,写下了一行核心公式:
Linear_Attn =(φ(Q)*(φ(K)^T * V))/(φ(Q)*Σφ(K)^T)
困扰了整个AI学界的大序列计算难题,被一个简单的高中数学知识——结合律,给破解了。
当然,前提是找到那个合适的映射函数φ()。
但对于现在的他来说,这只是个数学技巧问题。
……
“解决什么了?这么兴奋?”
旁边传来方雪若的声音。
她刚摘下眼镜,手里拿着一份厚厚的财报,封面上写着“Indium Corporation”(铟泰公司)。
那是全球最大的散热材料供应商。
“解决了一个能帮我们省下几亿美元电费的问题。”
林允宁心情大好,把那张写着价值连城公式的餐巾纸折好,放进口袋,“铟泰?那是做焊料和散热材料的巨头。你看他们的财报做什么?”
“知己知彼。”
方雪若指了指报表上的一行数据,“铟泰正在大规模囤积稀有金属,这说明他们在押注下一代散热技术。我们的VO2热二极管如果想卖个好价钱,得找对买家。
“对了,宋胤乾教授那边有消息吗?”
“刚收到邮件。”
林允宁揉了揉太阳穴,“第一批掺钨的样品已经在炉子里了。宋老师按照我的Aether预测模型,调整了钨原子的掺杂比例。目标是把相变温度从68度压到40度左右。”
“成功率有多少?”
“理论上是80%,但材料学是玄学。”
林允宁苦笑了一下,“实验室烧出来是一回事,能不能量产是另一回事。如果成本降不下来,这东西就只能装在布兰登那台金贵的iPhone上,卖不了几亿台。”
“只要原理验证机(Prototype)能做出来就行。”
方雪若眼神笃定,“只要你能拿出一个在那台烫手的iPhone背面贴一下就能瞬间降温的Demo,我就有办法把苹果的人拉上谈判桌。现在的乔布斯,比任何人都需要这个故事来堵住用户的嘴。”
……
飞机降落在波特兰国际机场时,外面的天色已经暗了下来。
三人租了一辆黑色的雪佛兰SUV,沿着I-5号州际公路一路向南,驶向俄勒冈州立大学的所在地——科瓦利斯。
不同于芝加哥的钢铁森林,这里的道路两旁全是郁郁葱葱的道格拉斯冷杉,空气里弥漫着松脂和潮湿泥土的味道。
抵达会议酒店时,大堂里已经人声鼎沸。
这里没有西装革履的金融精英,满眼望去全是穿着格子衬衫、Polo衫和卡其裤的程序员和学者。
每个人胸前都挂着橙色的ICML胸牌,手里大多端着笔记本电脑,三五成群地讨论着核函数、贝叶斯优化和支持向量机。
“我去办签到。”
方雪若踩着高跟鞋走向前台,那种自带的气场让拥挤的人群自动让开了一条路。
林允宁和程新竹站在一旁的展板前,看着明天的会议议程。
“嘿,你是那个写《Attention Is All You Need》的小伙子吗?”
一个略带沙哑的声音从侧面传来。
林允宁转过身。
说话的是一个四十多岁的中年白人,发际线很高,戴着一副无框眼镜,胸前挂着的工牌上印着那个色彩斑斓的“Google(谷歌)”标志。
在那名字上方,印着他的头衔:Dr. Weiss,Technical Director(技术总监)。
“是我。”
林允宁点点头,扫了一眼对方的工牌。
魏斯(Weiss)博士。
林允宁在很多经典的统计学习论文里见过这个名字。
上一篇:影视:开局从同过窗开始进步!
下一篇:返回列表
