重生08:游戏开发有手就行_第346页

  好烦恼啊!谷歌我也想去,微软也非常不错,该怎么选?
  如果阿列克斯从小在华国长大,估计他应早就体会过这种烦恼了。

  华国人小学时期应该都烦恼过选清华还是北大吧……

  “咳咳!先生们,请不要着急!”

  主办方脸色依旧十分莫名,余光不停的看向在另一边像是看好戏的那群东方人。

  “阿列克斯先生创造了历史这没有问题,但问题是,这个历史很快就成为了历史……”

  鲍尔等人疑惑的看过去,主办方脑子有问题?到底在说些啥?

  “请大家看一看名单上的第6个团队……”

  第6个?
  大家依言看去……team BlackHole……黑洞是吧?这不是做游戏的那个公司吗?

  错误率……

  !

  暴击。

  致命一击+背刺+猛男空降……
  

  4.4%!

  “WTF!”

  一堆人忍不住抱头大喊。

  “我的上帝老爷爷诶!”

  “我眼睛花了,好像在44中间看到一个小数点。”

  “鲍尔,把你的眼镜给我!”

  “放开你的脏手!”

  ……

  最震惊的要数阿列克斯了。

  喜悦的表情在脸上僵住,然后机械式的转头看向文韬。

  文韬回了他一个微笑,仿佛在说:小子,现在开始你是我的人了。

  “这不可能!4.4%怎么可能有这么离谱的数字!”

  阿列克斯双拳捏紧,歇斯底里的大喊了一声。

  情绪发泄了之后,阿列克斯嘴里开始喃喃自语,“这是魔法……这不是科学……我不相信……”

  这时候,文韬知道自己不能再留在团队里讲笑话了,他已经给这群人讲了一个大大的笑话!是时候坐上神位了。

  第384章 openAI
  文韬朝着众人走来,感觉自己身上像是有光环似的。

  现在已经安静了下来,文韬走到众人面前,保持着微笑。

  然后……这个微笑就保持了接近2两分钟。

  在脸僵掉之前,终于有人搭话了。

  鲍尔推开身边的人,走到文韬面前,“你是怎么做到的?”

  文韬松了口气,总算不用保持微笑了。

  还没来得及回答,阿列克斯几乎是跑到了文韬面前。

  “不对!你肯定是作弊了!在我刚进行第8个类别任务时,我注意到你们已经停止了动作,这意味着你们在2个小时之内就完成了全部任务,这更加不可能了!”

  文韬对鲍尔露出一个歉意的表情,然后在众人面前第一次开口。

  “2个小时?怎么可能?我记得我们只用了1个小时20分钟来着。”

  在场的研究人员脸色已经开始黑了。

  我们用6个多小时的时间,错误率几乎都在20%以上。

  这个叫阿列克斯的小鬼虽然错误率降低到了16%,但好歹也是和我们差不多时间完成的。

  然后这个叫文韬的人跳出来说黑洞错误率4.4%的同时,还只花了80分钟的时间?
  这如果是真的,我们这十几年到底在研究个什么东西?
  文韬转向鲍尔。

  “先生,刚刚你问我是怎么做到的,不如让这位阿列克斯先生来说吧,我们黑洞与他的方式在逻辑上是相同的,但我们只有一点点领先而已。”

  文韬有些无奈,英文玩不了“亿点点”的梗,少了些装逼的风范。

  “真的吗?阿列克斯,你们的底层逻辑相同?”

  阿列克斯沉默了半晌,然后点头。

  “是的先生,我们都是用显卡来训练模型的。”

  “显卡?我知道显卡能有一定的计算能力,好像是英伟达推出过一种什么技术……”

  “cuda。”

  “嗯……”

  鲍尔沉吟片刻,然后询问了阿列克斯一系列相关的问题。

  阿列克斯也是亲自使用过显卡训练模型的,如果没有黑洞,他本可以在这次imagenet大赛上一鸣惊人,然后入职世界级企业。对于如何实现这一套,肯定是十分了解的。

  鲍尔以及在场的研究人员都陷入了沉思。

  要理解底层逻辑,对于在场的人来说是非常简单的。

  不过在阿列克斯之前,所有人想到“计算”两个字,首先就是cpu,完全不会去思考显卡的事情。

  在场研究人员和阿列克斯之间的差距,也就是一层窗户纸罢了,捅破了就能理解了。

  “那么,文先生,你们黑洞和阿列克斯之间又有什么差别呢?否则不可能在表现上出现这么大的差异。”

  文韬轻轻一笑,“鲍尔先生,以及在场的大家,黑洞可没说过这是个开源的项目啊……我唯一能说的是,我们已经做出了百卡集群!”

  阿列克斯一怔,再次喊出声来,“百卡?这不可能!”

  阿列克斯是对现在对于显卡集群最了解的人,即便他只用了两张显卡并行计算跑出了一个模型。

  而百卡和两卡之间,不仅仅是差了98张显卡这么简单。

  AI时代,大家都在说大模型大模型的,这个“大”字,实际上比大家认知的还要大。

  这个“大”字,首先体现在其参数规模,比如,GPT-3的参数达到了1750亿,而更大型的模型GPT-4则达到了1.8万亿。

  GPT-4由16个专家模型组成,每个专家模型包含约1110亿参数,再加上注意力层的550亿共享参数,总共形成了1.831万亿参数的模型。

  巨大的参数能让模型捕捉到更复杂的语言和视觉特征,从而提高模型的性能和泛化能力。

  其次就是大模型训练所需要的海量数据,互联网上的数据太多太多,每个大模型训练的数据几乎都是以TB为单位。

  因为参数和数据的巨量,训练模型就需要更大的计算资源,怎么想两张gpu都没办法搞出大模型吧……

  事实上,大模型几乎最少都需要千卡集群,才有可能在能接受的时间范围内完成模型训练。

  所谓的集群也不仅仅是把卡串联或者并联起来就行,参数少一点还能搞一搞数据并行,再大就只能张量并行,更大就必须要流水线并行。

  虽然词汇很专业,但本质上就是把数据拆分到每一张显卡上。

  这时候考验就来了,显卡多了,通信就越发频繁,而通信就成为了整个计算的瓶颈,不解决就没办法进行下一步,因为计算资源会浪费的很严重甚至达到千卡集群不如百卡的程度。

  而卡越多,稳定也成了问题。

  黑洞的百卡集群能连续运行5天,但如果是千卡呢,以目前的技术储备应该会直接崩溃吧……

  强如脸书的母公司meta,首次千卡集群时也仅仅运行了2天多一点。

  阿列克斯能从训练模型的日常中稍微妄想一下百卡集群的难度,也正因为如此,才会对黑洞宣布百卡集群成功表示如此的失态。

  “这很好证明,我们可以现场再做一次图像识别,大概就能证明我们的能力了吧!”

  在场的人们或疑惑或兴奋,纷纷看向了主办方。

  主办方也不含糊,图像有的是,再做一次识别马上就可以开始。