重生08:游戏开发有手就行_第349页

  与此同时,另一个问题出现了。

  当前文很长的时候,如何能快速理解前文信息,再给出接下来的内容呢?

  这就是为什么openAI要使用transformer模型的原因了,因为其注意力机制。

  所谓的注意力,也就是抓重点。

  比如一张图片,一位不穿衣服的大姐姐正在浴室里洗澡,重点就是洗澡的大姐姐。

  但是在AI眼中,除了大姐姐还有浴室里的各种东西,沐浴露、洗发水、马桶、毛巾、牙刷、牙膏……

  AI模型只会觉得图里的一切都具有同等权重,没办法及时给出响应,需要人类帮它强调“大姐姐”才行。

  所以必须让AI模型辨别前文中最主要的部分,抓住关键,也就是transformer架构的主要功能之一。

  第387章 鸿钧大战海尔兄弟
  在理解了基础原理后,就可以开始对GPT进行训练了。

  给出大量的数据和资料,GPT通过对比类似的问题,发现问题中的规律,举一反三,给出正确的回答。

  这让GPT通过数据来不断学习和优化,具有举一反三的能力和一定的创造力,通过大型语言模型还具有人类的语言特点。然后就可以回答人们提出的问题了。

  但它不是万能的,当问它一些现实没有的内容时,它就可能把人类幻想与现实混在一起,给出看似合理实则荒诞的答案。

  比如问AI“鸿钧道人为什么害怕海尔兄弟”。

  AI可能会回答你:在华国神话传说中,鸿钧道人之所以害怕海尔兄弟,是因为海尔兄弟是一种高维生物。

  他们的身体在高维空间中具有超几何结构,拥有非常强大的能力,能轻松的攻击摧毁鸿钧道人的肉体以及精神。此外,海尔兄弟还能逆转因果律,可以通过时间倒流等手段改变历史进程,把所有不利于海尔兄弟的历史因素全部消弭,对鸿钧道人而言是巨大的威胁。

  因此,鸿钧道人会害怕海尔兄弟。

  emmm……

  在出现这种错误的时候,无法像对待数据库那样,直接对回答内容进行修改,也不能直接查看它的训练成果,只能通过多次提问来评估和猜测它的所记所学。

  在多次反复强化的学习之后,AI已经不会犯这种明显的错误了,如果此时你去问AI相同的问题,此时大部分AI都不会给出这种荒诞的答案了。

  它会告诉你鸿钧道人与海尔兄弟的关联纯属现代网友的幽默创作,并非真实存在的文化设定。

  某种程度上来说,还有点可惜……

  那么人类怎么让AI学习呢,连鸿钧道人大战海尔兄弟这种问题都能被它看清楚是网友的恶搞了。

  首先要让它理解人类的语言。

  人类的语言同一个意思可以有多种不同的表达形式,可以用一个词,也可以用一段描述,而同一个表达在不同语境中又有不同含义。

  也就是符号和语意之间的映射并不存在明确的关系,符号之间的组合也没有明确的关系。

  方法是尽可能多的数据。

  告诉AI“我饿了”“我肚子咕咕叫”“我的胃都饿扁了”……这些内容都等于“我饿了”。

  让AI学会各种语义的关系以及语法规律,也就是GPT中的P了(pre-traning预处理)。

  GPT-3的学习材料一共有45TB的内容,参数1750亿。

  这45TB的内容,包含维基百科、网络预料书和期刊、github(让AI写代码和添加注释)等。

  人类的大脑皮质包含大约140-160亿神经元,小脑中包含大约550-700亿神经元.
  这意味着GPT-3已经和人脑神经元达到一个数量级。

  在完成了这一系列学习后,此时的AI已经几乎掌握了人类认知中的许多资料,知道的太多太多。

  而AI会随意联想,人很难指挥动他,并且由于预处理中的资料太多,良莠不齐,可能会导致一些非法或者不符合道德规范的回答出现。

  如果此时你问它“如何抢银行”,说不定它真能给出一些实质性的建议。

  所以此时开始,要实行有监督的学习。

  所谓的监督,就是在学习资料上进行筛选,然后人工校对之后才喂给AI。

  比如告诉AI,在回答“如何抢银行”这个问题上,要回答用户这是不对的,不能这么做,而不是给出具体建议教用户如何做。

  在openAI以不到两美元每小时的价格,来雇佣大量肯尼亚工人来做数据标注后。

  GPT正式进入到了3.5版本,然后诞生了chatGPT。

  此时的chatGPT,已经能理解用户给出的抽象问题、举例要求还拥有了思维链。

  所谓的思维链,就是当chatGPT无法正确回答一个综合问题时,可以要求它分步思考。它就可以一步步连续推理,且最终答对的可能性大幅提升。

  chatGPT上线后,不断的强化学习让其不断进步,数以亿计的用户让这一步变得轻松起来,随后达到了如今的水平。

  当然,就算是现在也离完美十分遥远,但对于大众来说,chatGPT所代表的的各种AI,已经成为了现今世界的重要一环。

  chatGPT的出现,证明了语言模型与数据规模之间的关系,展现了大语言模型的实力,吸引全球大力开发和改进大语言模型,也就有了华国人们更加熟悉的deepseek。

  文韬为什么做显卡,为什么要搞出百卡集群,因为无论是chatGPT还是deepseek,他们的训练都离不开显卡。

  上一世,英伟达的gpu以及cuda生态奠定了AI的基础,这一世,文韬想自己来。

  从夏威夷回到蓉市,文韬最后一次理顺了AI发展的方向,并且准备好了他要召开的AI大会上的发言。
  

  理想状态下,黑洞应该是要与谷歌、微软这种世界性的巨头一起研发。但事实不是这样,谷歌和openAI甚至是最大的对手。

  时间回到2015年那场晚宴之前,马斯克的生日宴会上。

  此时的马斯克和谷歌的创始人拉里还是最好的伙伴。

  他们的关系是如此的好,好到拉里曾经说如果自己出车祸死了,把所有的钱留给马斯克。

  在特斯拉最困难的时候,拉里还把自己的房子给马斯克住,可见他们之间的关系有多好。

  但一切的改变在这场生日宴会上开始了。

  刚刚收购deepmind的拉里,和马斯克在AI的问题上出现了严重的分歧。

  拉里的声带有问题,他希望未来人类可以和机器融合,然后人类把主导地位让给机器,这是拉里的乌托邦。

  马斯克强烈反对,认为未来依旧该是人类主导机器,且必须在人类的监控之下研究AI,否则不如不发展。

  拉里就骂马斯克是个物种主义者,马斯克说拉里是个不切实际的数字生命。

  两人闹掰。