首富从AI浪潮开始 第208节
说完他自觉地走到了大楼外面,倒是也不怕江松然突然跑了。
“江博士你好,我是鼎盛云计算事业群的VP,张弛。”电话那边的语气还算客气,但说话的速度很快,“我们公司的人力已经和你交流过了,我这边还需要对你再进行一下简单的面试。”
这大厂味儿扑面而来,江松然懒得纠正他,面试就面试吧。
“你在之前那家公司做的集群,最大规模跑到多少卡?”
“两千。”江松然说的是事实,但他做的是异构芯片的两千,比纯N卡的万卡难度只高不低。
“两千。”张弛重复了一遍,语气里感觉带了点儿轻蔑,“我们这边的规划是万卡,明年Q2之前在乌兰察布落地。你觉得从两千到一万,核心瓶颈在哪?”
这个问题倒是个好问题,江松然在心里评价道。
江松然简短的回答了,大规模显卡集群的管理,无非是三个方面——通信拓扑、故障恢复、功耗管理。
张弛没追问细节,直接跳到了下一个话题:“行,技术上没问题。职位是首席架构师,IC线,向CTO汇报。团队方面会从我这边调人配合你。我比较关心的是到岗时间,我们Q2之前要在乌兰察布把新集群立起来,倒推的话二月底之前人得到位。”
所谓IC,独立贡献者(Individual Contributor),是技术路线,级别高,但是不管人。
江松然这边沉默了一会儿。和HR聊的时候他已经提过了,但是对面不知道是不在意还是没传达到,他只能在这再说一次。
“关于工作地点,我现在情况比较特殊,我父亲在住院,我不想去外地。”
“是这样的,江博士。”张弛的声音有点儿不耐烦,“长期来看肯定是在总部工作,但是机房在乌兰察布,前期需要两头跑,搭建阶段在乌兰察布会多一些。”
“张总,我再说一遍,我走不开。”江松然的声音已经有压抑的怒火了。
“我了解我了解,等你父亲出院了之后再动身也可以。”
“不是出院就能走的。”江松然的声音压得更低了,“出院之后还需要长期照护,我说的不想去外地,不是一两个月,可能是未来几年。”
“江博士,我理解你的情况。”张弛的语气收敛了一点,但下一句话又放出来了,“但是这个岗位的性质你也清楚,集群搭建不是远程能盯的事。你不到现场,下面的人怎么推进?”
江松然没说话,他怕再说话就要骂人了。
“我人比较直,我就直说了,”张弛继续道,“这个位置鼎盛内部不是没人能做,我们是觉得你的经验更合适才走的外招,但项目节点可不等人。”
江松然静静地听着,手紧紧地攥着手机。
张弛似乎意识到刚才的话强硬了一些,放缓了语气:“这样吧,待遇你可以参考一下,年包大概在四百到五百个之间,具体的HR会跟你谈。你好好考虑一下,尽快给我个回复。”
江松然没说话,把电话挂了。
挂了电话,他才发现自己刚才憋的已经有点儿喘气了。
等到在原地喘匀了气,他才往外走去。
韩路一站在楼外面,看他出来,走上前来,表情亲切而自然。
“您好,聊完了?”
“聊完了。”刚才的拒绝被打断,又接了个脑残打来的电话,江松然反而想听听韩路一要说什么了。
他看了一下四周,住院部外面有个小花园,里面有几张长椅。
现在是冬天,室外没什么人,江松然指着一张长椅说:“咱们去那说。”
两人在长椅上坐下,韩路一从双肩包里拿出电脑来。
他打开电脑,对江松然说:“我的来意您应该已经知道了,想要邀请您加盟源智科技。在您答复之前,我想先给您看点儿东西。”
说完,韩路一打开了一个代码仓库页面,看起来是自有托管的。
江松然看到这个页面,感觉有点儿眼熟。
等到韩路一打开其中的一个文件夹,名字叫SDPA(scaled dot product attention),江松然意识到,这不是他刚才看的那篇论文吗?
Wenyuan Zhao,Source Intelligence AI。
怪不得觉得在哪听过,原来就是这个源智科技。
江松然不由得心生好感,这是个干实事的团队。
可是他感觉更不相关了,自己的领域明明是大规模的集群管理,是偏工程向的,这源智科技要是做硬件适配的,找自己干什么?
“Wenyuan Zhao是?”江松然问道。
“他是我们的首席科学家。”韩路一出声道,“您可以看看我们的成果。”
江松然把注意力放在眼前的屏幕上,这才注意到仓库里还有别的文件夹。
SDPA、LayerNorm、RMSNorm、Softmax、GELU、SiLU、Rotary Embedding、FlashAttention、AdamW、All-Reduce。
一共十个文件夹,每一个对应一个算子的完整实现。
江松然的手指不自觉地点向触控板,但又停住了——这不是他的电脑。
“您可以自己看。”韩路一重复了一遍刚才的话。
江松然这才开始翻看。
江松然先点开了SDPA的文件夹,和论文里的实现对了一下,确认是同一套代码。
然后他开始翻别的算子。
看了两个之后,他皱起了眉。
“这些跑过benchmark吗?”
“每个算子都有对应的性能测试,”韩路一说,“和N卡cuDNN的基准线对比,最低的80%,最高的91%。README里有完整数据。”
江松然点开了一个README,扫了一下数据表格。确实不是个玩具项目,是认真做过对照的。
“多卡通信验证了吗?”
“4卡和8卡都跑过。All-Reduce是自己写的。”
江松然又看了一下提交记录。最早的提交在上个月,最新的在今天早晨。
十个算子,一个月。
不,还不到一个月。
江松然震惊地抬起头来,看向韩路一。
随即他又否定了自己。
不,不可能,可能是他们把别的地方的成果迁移过来,时间戳不对。
他在硅谷那家公司做类似的事,五个人的小组,一个算子平均要打磨两到三周——那还只是微调,不是重写。
“你们有多大的团队?”江松然问道。
“十几个人。”韩路一说,“加一个AI。”
听到这个回答,江松然陷入了久久的沉默。
“源智科技,是吧,想要我做什么?”
韩路一合上电脑:“我们的初步计划是在张家口建一个训练和推理集群,全部用国产卡来搭建,现在正在做全栈适配。赵文渊是技术负责人,但他没有基础设施的工程经验,源智需要一个做过大规模集群部署的人。”
江松然暗暗点头,你们找对人了。
但是——张家口,你们找错人了。
“你们有多少卡?”
“首批计划购入五百张,先租三十二台机柜,三月初上线。”
三十二台机柜,在他待过的地方,这算是小的了。但在国产卡上从零搭训练栈,三十二台确实已经足够让人头秃了。
“需要我去张家口?”江松然问了他最关心的问题。
“不需要。”
“不需要?”江松然反问道,他以为自己听错了。
韩路一看向江松然,江松然只觉得对方眼神发亮。
“所有的工作都可以远程完成。”韩路一说,“集群现场有专门的运维团队,有任何需要看的东西,我们用视频来看。你不用离开海城,不用出差,一次都不用。”
江松然没说话。
做基础设施的人不去机房,这在行业里几乎是不可能的事。机柜的物理布局、线缆走线、散热气流、电力分配,这些东西在屏幕上看和在现场看完全是两回事。
“你确定?”江松然说,“机柜上电的时候,物理层的问题远程根本看不出来。散热不均、线缆虚接、电力波动,这些不站在机柜前面你发现不了。”
“确定。”韩路一的语气没有任何犹豫,“您的经验和判断力是我们最需要的东西,这些不需要你站在机房里才能发挥。张家口那边有全职运维团队,现场巡检、硬件排障都是他们的活。您负责的是架构设计和技术决策,这些在屏幕前就能做。”
江松然想说这样效率会很低。
但他没有说出口。
这确实是他最看重的东西。
“那待遇呢?”江松然问道。
“薪资方面,说实话,我们是早期公司,现金部分能给到两百万年薪。”韩路一顿了一下,“我们还会提供可观的股权激励——具体数字我们可以详谈,但方向上,我希望您是以合伙人的身份,而不是打工人的身份加入的。”
两百万,江松然在心里算了一下,大概是他在硅谷收入的三分之一。
但“合伙人”三个字还是打动他的。
江松然现在十分确定面前的年轻人应该是HR了。
是个非常优秀的HR。
“我还有一个条件。”江松然说。
