彼此之间的交互通讯设备,也得配齐,否则发挥不出这些显卡的全部能力。
这些东西准备好,价格又得翻一倍,至少得五六个亿美金。
设备运转起来,跟挖矿特别像,光是每天需要的电费也是百万级别的天文数字,训练一整个ChatGPT出来的成本自然不低。
本小章还未完,请点击下一页继续阅读后面精彩内容!
只是想要得到这个模型,就得大几个亿美金进去。后续ChatGPT提供给用户使用,所需要的算力和设备只会更多。
因为训练模型只是单个实体在持续更新自己的内容,耗费的资源虽多,却是一次性的,一劳永逸。
而用户在使用的时候则是多个内容不再变化的实体持续推理,模型则需要反复根据用户不同的新输入一直生成回复。
虽然推理比训练的损耗小了许多,但也架不住百万千万的用户一起使用。
当时微软为了ChatGPT的广泛使用,在六十多个数据中心,给OpenAI腾出了几十万张GPU显卡,简直是壕无人性。
惹得自家的员工都嫉妒坏了,为什么他们OpenAI可以用,我们微软自己的员工用不了?
这不公平!
“ChatGPT级别的模型的大小还是跟现在我做过的那些差了太远了。”孟繁岐在心中开始飞速地计算了起来。
他需要估算出,自己到底大概需要多少张泰坦Z,一会才好跟老黄讨价还价。
深度学习的模型参数很容易计算,不过算完总是容易忘记。
孟繁岐有一套独特的办法,使得他可以对各个经典模型参数量之间的比例基本上了如指掌。
那就是以郑爽为基本计量单位。郑爽日薪百来万,一年就是六七个亿,可以记录6.5亿为一爽。
经典的残差网络,也就是孟繁岐去年的成名作,差不多0.033爽。
ChatGPT,1760亿参数,差不多250爽。
也就是说,孟繁岐目前经常训练的模型,参数量上距离ChatGPT得有7600多倍的差距。
这实在是现阶段难以负担的规模。
“不过好在ChatGPT的爆火后来引发了许多学者去思考如何将这个模型压缩得更小。”
孟繁岐对此感到庆幸,由于ChatGPT规模实在太大了,导致绝大部分玩家都根本玩不起这个东西。
因而整个业界都在想办法,到底怎么样才能够以百分之一百分之二左右的规模做到类似、乃至接近ChatGPT的效果。
“所以说,人穷也是有好处的,穷则思变嘛!”
若不是大家都玩不起250爽的大模型,又怎么会一个个都如此擅长把3到4爽大小的模型做好呢?
“我可以初步实现一版本十多亿左右参数的迷你ChatGPT,这样我需要的显卡数量大约在800到1000张左右,总价两三百万美金,这就在我很容易负担的范围之内了。”
孟繁岐希望黄仁勋为谷歌大脑提供一大批显卡是没错,但如今的他可并不缺钱了。
显卡进了谷歌,势必要被分走一大部分,用途上,也不能够百分百自己说了算。
不如多花点钱,自己先做一个超算中心。
微软那样上万张A100的究极奢华十亿美金计算中心,孟繁岐做不起,但做一个大几百、乃至千张泰坦Z的规模,还是负担得起的。
不就是钱嘛!不差钱!
唯一的问题在于,不知道老黄的泰坦Z到底生产了多少。
毕竟虽然两边都有合作的意向,可若是存货不多,黄仁勋也不可能真的让孟繁岐把这批显卡全都自己搬走了。