仙侠小说
设置
阅读记录
首页
>
都市娱乐
>
重生08:游戏开发有手就行
>
第346页
重生08:游戏开发有手就行_第346页
好烦恼啊!谷歌我也想去,微软也非常不错,该怎么选?
如果阿列克斯从小在华国长大,估计他应早就体会过这种烦恼了。
华国人小学时期应该都烦恼过选清华还是北大吧……
“咳咳!先生们,请不要着急!”
主办方脸色依旧十分莫名,余光不停的看向在另一边像是看好戏的那群东方人。
“阿列克斯先生创造了历史这没有问题,但问题是,这个历史很快就成为了历史……”
鲍尔等人疑惑的看过去,主办方脑子有问题?到底在说些啥?
“请大家看一看名单上的第6个团队……”
第6个?
大家依言看去……team BlackHole……黑洞是吧?这不是做游戏的那个公司吗?
错误率……
!
暴击。
致命一击+背刺+猛男空降……
4.4%!
“WTF!”
一堆人忍不住抱头大喊。
“我的上帝老爷爷诶!”
“我眼睛花了,好像在44中间看到一个小数点。”
“鲍尔,把你的眼镜给我!”
“放开你的脏手!”
……
最震惊的要数阿列克斯了。
喜悦的表情在脸上僵住,然后机械式的转头看向文韬。
文韬回了他一个微笑,仿佛在说:小子,现在开始你是我的人了。
“这不可能!4.4%怎么可能有这么离谱的数字!”
阿列克斯双拳捏紧,歇斯底里的大喊了一声。
情绪发泄了之后,阿列克斯嘴里开始喃喃自语,“这是魔法……这不是科学……我不相信……”
这时候,文韬知道自己不能再留在团队里讲笑话了,他已经给这群人讲了一个大大的笑话!是时候坐上神位了。
第384章 openAI
文韬朝着众人走来,感觉自己身上像是有光环似的。
现在已经安静了下来,文韬走到众人面前,保持着微笑。
然后……这个微笑就保持了接近2两分钟。
在脸僵掉之前,终于有人搭话了。
鲍尔推开身边的人,走到文韬面前,“你是怎么做到的?”
文韬松了口气,总算不用保持微笑了。
还没来得及回答,阿列克斯几乎是跑到了文韬面前。
“不对!你肯定是作弊了!在我刚进行第8个类别任务时,我注意到你们已经停止了动作,这意味着你们在2个小时之内就完成了全部任务,这更加不可能了!”
文韬对鲍尔露出一个歉意的表情,然后在众人面前第一次开口。
“2个小时?怎么可能?我记得我们只用了1个小时20分钟来着。”
在场的研究人员脸色已经开始黑了。
我们用6个多小时的时间,错误率几乎都在20%以上。
这个叫阿列克斯的小鬼虽然错误率降低到了16%,但好歹也是和我们差不多时间完成的。
然后这个叫文韬的人跳出来说黑洞错误率4.4%的同时,还只花了80分钟的时间?
这如果是真的,我们这十几年到底在研究个什么东西?
文韬转向鲍尔。
“先生,刚刚你问我是怎么做到的,不如让这位阿列克斯先生来说吧,我们黑洞与他的方式在逻辑上是相同的,但我们只有一点点领先而已。”
文韬有些无奈,英文玩不了“亿点点”的梗,少了些装逼的风范。
“真的吗?阿列克斯,你们的底层逻辑相同?”
阿列克斯沉默了半晌,然后点头。
“是的先生,我们都是用显卡来训练模型的。”
“显卡?我知道显卡能有一定的计算能力,好像是英伟达推出过一种什么技术……”
“cuda。”
“嗯……”
鲍尔沉吟片刻,然后询问了阿列克斯一系列相关的问题。
阿列克斯也是亲自使用过显卡训练模型的,如果没有黑洞,他本可以在这次imagenet大赛上一鸣惊人,然后入职世界级企业。对于如何实现这一套,肯定是十分了解的。
鲍尔以及在场的研究人员都陷入了沉思。
要理解底层逻辑,对于在场的人来说是非常简单的。
不过在阿列克斯之前,所有人想到“计算”两个字,首先就是cpu,完全不会去思考显卡的事情。
在场研究人员和阿列克斯之间的差距,也就是一层窗户纸罢了,捅破了就能理解了。
“那么,文先生,你们黑洞和阿列克斯之间又有什么差别呢?否则不可能在表现上出现这么大的差异。”
文韬轻轻一笑,“鲍尔先生,以及在场的大家,黑洞可没说过这是个开源的项目啊……我唯一能说的是,我们已经做出了百卡集群!”
阿列克斯一怔,再次喊出声来,“百卡?这不可能!”
阿列克斯是对现在对于显卡集群最了解的人,即便他只用了两张显卡并行计算跑出了一个模型。
而百卡和两卡之间,不仅仅是差了98张显卡这么简单。
AI时代,大家都在说大模型大模型的,这个“大”字,实际上比大家认知的还要大。
这个“大”字,首先体现在其参数规模,比如,GPT-3的参数达到了1750亿,而更大型的模型GPT-4则达到了1.8万亿。
GPT-4由16个专家模型组成,每个专家模型包含约1110亿参数,再加上注意力层的550亿共享参数,总共形成了1.831万亿参数的模型。
巨大的参数能让模型捕捉到更复杂的语言和视觉特征,从而提高模型的性能和泛化能力。
其次就是大模型训练所需要的海量数据,互联网上的数据太多太多,每个大模型训练的数据几乎都是以TB为单位。
因为参数和数据的巨量,训练模型就需要更大的计算资源,怎么想两张gpu都没办法搞出大模型吧……
事实上,大模型几乎最少都需要千卡集群,才有可能在能接受的时间范围内完成模型训练。
所谓的集群也不仅仅是把卡串联或者并联起来就行,参数少一点还能搞一搞数据并行,再大就只能张量并行,更大就必须要流水线并行。
虽然词汇很专业,但本质上就是把数据拆分到每一张显卡上。
这时候考验就来了,显卡多了,通信就越发频繁,而通信就成为了整个计算的瓶颈,不解决就没办法进行下一步,因为计算资源会浪费的很严重甚至达到千卡集群不如百卡的程度。
而卡越多,稳定也成了问题。
黑洞的百卡集群能连续运行5天,但如果是千卡呢,以目前的技术储备应该会直接崩溃吧……
强如脸书的母公司meta,首次千卡集群时也仅仅运行了2天多一点。
阿列克斯能从训练模型的日常中稍微妄想一下百卡集群的难度,也正因为如此,才会对黑洞宣布百卡集群成功表示如此的失态。
“这很好证明,我们可以现场再做一次图像识别,大概就能证明我们的能力了吧!”
在场的人们或疑惑或兴奋,纷纷看向了主办方。
主办方也不含糊,图像有的是,再做一次识别马上就可以开始。
上一章
目录
下一章
阅读设置
×
字体大小:
小 (17px)
中 (20px)
大 (24px)
特大 (28px)
超大 (30px)
背景颜色:
浅灰
淡绿
米黄
淡蓝
浅粉
浅绿
咖啡
灰色
黑夜
确定