Dota2这样的策略游戏,单个英雄需要一盘下来需要操作上万次。
其中每次操作可能是行走、攻击、施法、使用物品、交易物品等等,根据英雄的不同,AI可选择的操作有8千~8万种。
需要判断的东西也有太多了,英雄,小兵,防御塔;血量,攻击,护甲,位置,等级;物品,技能,状态栏。
这种游戏当中,值得关注的信息点也是海量,绝非轻易能够搞明白的。
在深度学习阿尔法围棋取得世界瞩目的成绩之后,OpenAI押宝了强化学习,而孟繁岐最近则将注意力集中在了GPT大语言模型上。
“OpenAI那边的事情过段时间再看,眼下最重要的事情还是尽快出一版ChatGPT。”
虽然对OpenAI手头的事情比较感兴趣,不过事情还是要分清主次。
前世ChatGPT的出现震惊了整个世界,毫无疑问,它又强又聪明,跟它说话很好玩,还会写代码。它在多个方面的能力远远超过了自然语言处理研究者们的预期。
那么问题就来了:ChatGPT是怎么变得这么强的?
GPT技术早已有之,为何此前并没有如此强劲的威力呢?
这个问题最浅显的回答当然是数据和模型的规模,在前世,17到19年,大家还普遍在玩几个亿大小的人工智能模型。
结果ChatGPT直接就把这个数字干到了1750亿。
整整一千多倍的差距,使得人工智能模型在知识密集型任务上的性能实现了飞跃。
人们普遍认为,更多的模型参数记住了更多的知识。
数据则是另一大原因,三千亿单词的文字库加上GPT的模式,两者强强结合,产生了神奇的化学反应。
孟繁岐认为这些很容易想到的观点是正确的,但只靠这两者还远远不够。
一个非常好的例子就是GPT3,ChatGPT实际上是GPT3.5版本。
GPT3最初版的模型大小并不逊色于ChatGPT,训练使用的数据也相差不多,但实际的能力和效果确是天差地别。
不能说GPT3很弱,因为在很多任务上,它都挺出色地回应了很多指令。但同样的,在许多任务上,它的性能会非常诡异地逊色于远远小于它的模型。
因此,如果考虑到我们想要追求的是一款比较全面的通用智能的话,的确可以说GPT3不咋地。
可前世后来的许多研究都表明,其实GPT3有着很大的潜力,这些能力后来通过代码训练,指令微调和基于人类反馈的强化学习(也就是大名鼎鼎的RLHF)解锁,最终版本终于展现出了强大的威力,成为了ChatGPT。
这章没有结束,请点击下一页继续阅读!
“首先,我要做的就是先获得一个初始的GPT3,不过我现在很难做1750亿参数那么大,最多只能做到350亿参数左右。”
孟繁岐选择这个大小,是根据最新的P100显卡的显存深思熟虑之后的结果。
这里其实并不存在放不下放得下的问题,前世ChatGPT使用的A100显卡也就只有80G的显存,想放下1750亿参数那是痴人说梦。
孟繁岐有着一套拆分模型的招式,能够无限制地将庞大的模型拆分到不同的显卡上面。
理论上来说,只要显卡够多,他就能够无限制地训练更加庞大的模型。
如果100张可以训练100亿参数,那么张就能训练亿参数。
可理论终究是理论,同时调度过多的显卡是非常痛苦的事情。
单张显卡出状况,很有可能好几周的成果都会受到影响。
孟繁岐出于风险的控制,选择了350亿的大小,他有信心可以将最后的结果做得跟初版1750亿参数的ChatGPT相差无几。
获得最基础的GPT3模型并不困难,基础的模型结构一年半之前,孟繁岐就已经实现了许多。
庞大的人工智能模型只是最基础最核心结构的反复堆叠,并不需要从头仔细设计一个不同的版本。
就像是二阶魔方和三阶魔方的区别,基础的模块是那一个个小方块,二阶魔方拥有2x2x2一共8个方块,三阶魔方则有3x3x3,一共27个方块。
基本元素没有任何的改变,只是数量上变多了。
而这些参数的设置,除了最好是2的N次方之外,通常也没有什么特别的规矩和道理。
因此,只要单纯地将此前已经做过的GPT系列模型放大、加深,孟繁岐就已经获得了一个350亿左右参数的GPT3模型。
但想要将这个大小的模型给训练起来,那可就麻烦了。
“350亿参数的模型,参数本身、梯度、优化器的状态个个都是本身大小的好几倍。按理来说,每一台服务器都应当有TB级别的内存来存放这些状态。现在你们知道,我为什么特意要求英伟达将服务器内存再扩大好几倍了吧?”
显卡的显存是比较高难度的硬件技术问题,英伟达一时间也没法解决。
但服务器却是可以加装高速内存的。
在普通人的游戏主机上,通常都是2到4根内存条,一般一根8G或者16G的居多。
正常的用户,内存大都是8到32G,富有一点的,64乃至128,不得了了。
而孟繁岐则是为每一台服务器,直接配备了4个T的内存大小。
其规模令人瞠目结舌。
这特么的可是内存,不是硬盘啊!
内存只是一种临时存储设备,用于存储计算机正在使用的数据和程序。
硬盘才是用来永久存放数据和文件的设备。
“4T的内存...比我自己电脑的总硬盘量还大两倍...”
此时此刻,主流的笔记本一共可能才500G,自己组装的台式机也就1T的硬盘大小。
这一台的内存,就能装下8台中高端笔记本的所有数据,奢华的程度,不言而喻。
孟繁岐使用大量的高速内存,目的在于解决当今显卡的显存不足问题。
将绝大多数暂时不参与运算的数据和参数,从显卡移到内存上,需要的时候再从内存取回。
如此反复读写,需求次数太多,普通的硬盘速度太慢,孟繁岐直接上了内存级别的设备。
钞能力发动!
“训练启动,那就得几个月后见了。”孟繁岐为了这一刻已经持续收集了接近两年的高质量数据,上千亿词的训练数据,总规模已经接近两个T的大小。
“等到夏天,差不多应该可以完工,到时候还得专门针对中文优化一版,更适合华国宝宝体质的ChatGPT。”
前世中文数据的质量和数量都不大够,孟繁岐当然要弥补这个遗憾。
“算算时间,我也差不多要本科毕业了,这个ChatGPT,就当我的毕业设计成果吧。”