学霸的模拟器系统 第539节
而在实验室的另一头,靠窗的位置,是绝对的静止。
苏畅穿着一件宽松的灰色针织开衫,整个人陷在阴影里。
办公桌面干净整洁,只有几张写满字的A4纸。
她盯着窗外光秃秃的橡树枝桠,眼球几乎一动不动,甚至连呼吸的起伏都难以察觉。
手中的圆珠笔在指间无意识地转动,笔尖悬在纸面上方一毫米处,迟迟没有落下。
“醒醒神。”
林允宁把手里的托盘放在公共桌上,纸杯底座磕在桌面上,发出沉闷的响声。
“馥芮白是晓峰的,燕麦拿铁是苏畅的。没加糖,只有咖啡因。”
赵晓峰像是被触发了某种硬件中断,猛地从代码堆里拔出脑袋。
他眼球上布满了红血丝,眼神聚焦了足足两秒才看清来人。
“林老师……你真是我的救命恩人。”
赵晓峰抓过咖啡,甚至没试温就灌了一大口。
滚烫的液体顺着食道滑下去,他龇牙咧嘴地吸了口气,随后长叹一声,整个人瘫软在椅子上。
“ResNet-20在FPGA上的并行化遇到了死结。”
他指了指屏幕上一条陡峭上升然后突然断崖式下跌的红色曲线,声音沙哑,“为了追求吞吐量,我把流水线拆到了极致,每个时钟周期都塞满了乘法运算。
“现在的推理速度提升了30%,但是……”
他用力敲了敲回车键,屏幕弹出一串报错日志。
“内存墙(Memory Wall)。DDR3的带宽被吃光了。计算单元大部分时间都在空转,等待数据从内存搬运过来。
“这感觉就像你开着一辆法拉利,却被堵在了晚高峰的肯尼迪高速上,只能怠速烧油。”
林允宁脱下沾着冷气的羽绒服,挂在椅背上。
他拉过一把椅子,坐在赵晓峰旁边,眼神扫过屏幕上那些密密麻麻的时序图。
“别想着怎么把数据从内存里搬来搬去,晓峰。那是无用功。
“冯·诺依曼架构的局限性,没办法单凭算法越过去的。”
林允宁从卫衣口袋里掏出那张在机场候机时随手画的草图,抚平了上面的褶皱,推到赵晓峰面前。
图上没有复杂的电路逻辑,只有一堆排列整齐的方块,中间用单向箭头串联起来,形成了一个紧密的矩阵。
“这是什么?”
赵晓峰推了推鼻梁上厚重的眼镜,凑近看了看,“二维网格?每个节点只有局部连接……这拓扑结构看着眼熟。H.T. Kung的脉动阵列(Systolic Array)?”
“识货。”
林允宁满意地点了点头。
赵晓峰作为清华姚班出身的硬核极客,不仅基础扎实,也称得上是博闻强记。
“可是那是70年代的老古董了,”
赵晓峰眉头拧成了疙瘩,“那是为了做专用矩阵乘法设计的,灵活性太差,编程难度极高。
“现在谁还用这个?大家都转投GPU了,CUDA才是未来。”
“GPU的设计初衷是图形渲染,它的缓存机制是为了纹理映射,不是为了深度学习里的张量计算。”
林允宁拿起一支笔,在草图的方块上点了点。
“既然我们要做AI专用芯片,为什么要追求通用性?
“我要的就是极致的矩阵乘法效率,哪怕它连个如果是(if-else)都算不了。”
他随手在白板上写下一行算式:
C[i][j]+= A[i][k]* B[k][j]
“在传统的架构里,每算一次乘加运算,你就要去内存里读一次A,读一次B,再写回一次C。这种频繁的读写就是你在高速公路上遇到的红绿灯。”
林允宁的手指顺着草图上的箭头滑动。
“但在脉动阵列里,数据不是‘存取’的,而是‘流动’的。
“左边的计算单元(PE)接收数据,完成一次乘法,加上局部结果,然后直接传给右边的邻居。
“上边的传给下边。数据在芯片内部流动一次,就被榨干了所有的计算价值,最后才写回内存。”
赵晓峰盯着那张图,狠狠吞了口口水。
他的手指在桌面上飞快地敲击,似乎在脑海里重新构建电路的时序。
“没有全局总线……全是局部互连……如果这样的话,”
他喃喃自语,“我可以省掉至少40%的片上缓存控制逻辑,把省下来的硅片面积全部塞满乘法器(MAC)。如果不考虑分支预测和乱序执行这些乱七八糟的东西……”
“对,就是这个思路。”
林允宁拍了拍他的肩膀,“这个作业交给你了。不用设计完整的TPU,先用Verilog给我写一个16x16的脉动阵列原型。这对你来说并不难,一个月就能搞定吧。”
“两周。”
赵晓峰接受了挑战,顿时来了精神。
他把那袋奇多扔进垃圾桶,转过身面对屏幕。
手指悬在键盘上方停顿了一秒,然后噼里啪啦地敲击起来,节奏比之前更快、更狠。
“只要你不嫌弃我的Testbench写得烂。”
林允宁笑了笑,端起自己的黑咖啡,转身走向窗边。
那边的静止区域依然存在。
苏畅保持着之前的姿势,仿佛被透明的树脂封存了。
实验室里嘈杂的键盘声、风扇声,甚至赵晓峰刚才的抱怨,都在她周围的一米处自动消音。
直到林允宁走到她面前,挡住了窗外刺眼的阳光,在她的桌面上投下一片阴影。
苏畅迟钝地抬起头。
她的瞳孔处于一种不自然的放大状态,眼神没有焦距,像是穿透了林允宁的身体,看着虚空中的某一点。
“林老师。”
她小声叫道,声音很轻,带着一丝从深海浮上来的窒息感。
“那个持续同调(Persistent Homology)的作业,”
林允宁靠在窗台上,视线落在她面前的那几张纸上,“条形码(Barcode)图算出来了吗?”
那是一张由计算机生成的拓扑特征图。
横轴是过滤参数(Filtration),纵轴是同调群的特征生成元。
正常的条形码图应该是一条条清晰的长短线段,代表着数据中存在的拓扑结构(如孔洞、空腔)的寿命。
但苏畅面前的这张图,乱得像一团被猫抓过的毛线。
“我研究了几个月,”
苏畅低下头,手指按着太阳穴,似乎在压抑某种眩晕感,“在低维的时候,贝蒂数(Betti Number)很稳定。那些条形码是长线,结构很清晰,很光滑。但是……”
她指了指图表右侧的高维投影区域。那里的线条崩碎成了无数细小的短线,密密麻麻地挤在一起,那是大量的拓扑噪声。
“当我把参数调高,进入高维投影的时候,数据的‘质感’变了。”
苏畅深吸了一口气,试图描述那种感觉,“它们不再是平滑的流形。那些数据点……它们变得很‘涩’。就像是用砂纸在打磨玻璃,充满了不连续的尖刺。
“我的大脑一直在试图把它们平滑化,但是做不到。那里有无数个微小的孔洞在瞬间产生又瞬间消失,这种震荡……让我恶心。”
实验室另一头的赵晓峰忍不住回头吐槽了一句:
“苏畅,你这是在做数学还是在做胃镜?数据还能让你恶心?”
苏畅没有理会,她只是死死盯着那些破碎的线条:
“那里没有稳定的结构,只有混乱的撕裂。”
林允宁点了点头。他知道苏畅的联觉症并非某种魔法视觉,而是一种过载的模式识别——
她的大脑将数学上的“不收敛”和“震荡”,转化为了生理上的排斥反应。
“那是拓扑噪声,也是湍流的特征。”
林允宁转身,拿起一支粉笔。粉笔灰在阳光下飞舞,落在他的袖口上。
他在苏畅身后的黑板上,写下了一个方程。
?u/?t +(u·?)u = 0
这是欧拉方程,描述无粘流体运动的最基础方程。
“苏畅,别去想那些点云了。看着这个。”
林允宁的声音很平静,不带任何评判,“如果我让你盯着这一项……”
他用粉笔圈出了对流项(u·?)u。
上一篇:影视:开局从同过窗开始进步!
下一篇:返回列表
