重生之AI教父(CloseAI)_第202章千张核弹点击就送（2 / 2）_重生之AI教父最新章节免费阅读无弹窗

然后自己从中总结归纳，看看能不能找到思路去优化以后的显卡硬件架构。

却没有想到，孟繁岐直接帮他跳过了中间的那么多步骤，直接一步到位，直捣黄龙了。

“你觉得现在麦克斯韦架构，有什么不足之处？”

黄仁勋刚刚才在台上发布了麦克斯韦架构，此时听到有人表示这个架构还有很多不足，他一点也不恼怒，不觉得自己的产品受到了侮辱，反而十分开心。

本小章还未完，请点击下一页继续阅读后面精彩内容！

孟繁岐看到他的反应，也不意外。按孟繁岐对黄仁勋的了解，他可能是硅谷大公司老板里对新技术细节最了解最追求的了，几十年来，仍旧管理第一线的工程师，布置任务并听取汇报。

即便后来如日中天，他也从来没有松懈过，就更不提现在了。

“下一代的新架构，当会加很多的CUDA核心，这种常规的更新不提，我觉得很重要的一点是，良好的FP16数据处理能力。”

FP32是单精度浮点数，FP16指半精度浮点数。

后者相比前者只使用一半的比特去表达浮点数字，因此速度上是FP32的两倍，显存的需求上也减少了一半。

只不过精度上会略有损失，而根据后来的经验，这种损失是比较小，而且完全可以接受的。

“你是说，今后人工智能的训练和部署，将会很快往FP16，甚至更小的数字类型上转移？”

黄仁勋品了一下，这是个相当重要的信息，早准备几个月，最后达成的效果可能会天差地别。

“除了FP16还有另一种数字类型我比较推荐，这个过两天我专门写两页发给你。”

FP16后来在大模型时代出现了一些比较烦人的数值问题，BF16作为一种新的格式逐渐流行了起来。

它和FP16的速度和显存占用一致，只是用来表达整数和小数的比特数量不一。

“另一方面，就是多显卡的交互问题。随着单GPU的计算能力越来越难以应对深度学习对算力的需求，人们自然而然会开始用多个GPU去解决问题。”

“从单机多GPU到多机多GPU，这当中对GPU互连的带宽的需求也越来越多。采用InfiniBand和100Gb Ethernet去通信，在单机内，特别是从单机单卡到达单机8卡以后，PCIe的带宽往往就成为了瓶颈。”

“PCIe是单通道两对差分线，一对发送一对接收。英伟达完全可以考虑用8对或者更多差分线组成一根子链，一对子链中一根发送数据一根接收数据，组成一根链接。”

“毕竟即便算力再强，由于显存的限制，我们仍旧需要使用多个GPU完成一个任务，这种情况下，数据传输互通的能力至关重要。”

“你很确定规模庞大的模型会成为市场的主流吗？”

孟繁岐说得这两点，黄仁勋基本都是认可的，一定程度上他也已经有了模糊的想法往这些方向发展。

孟繁岐只是非常清晰地将内容表达了出来，让他如拨云见日，茅塞顿开。

可对于模型的大小判断上，他有些不大确定。

目前业界对规模特别庞大的模型，还是比较不看好的。

一是因为孟繁岐当初的DreamNet，千层并没有比百层有更好的效果，模型大小增加了十倍，可在千分类上的性能却相差无几。这就显得大模型有些愚蠢。

二是因为孟繁岐数次做出了骚操作，计算量动不动减少快十倍，参数量也是大大削减，结果对性能影响却很小。

如此一来，在这种技术的环境和趋势下，的确很难有人会料到超大模型会有那么魔幻的性能突破。

“只要这批显卡到了谷歌，明年此时，我一定能让大模型成为主流。”

孟繁岐信心满满地说道。

“你若是真的能做到，明年的新卡，我直接送伱一千张。”

黄仁勋不是乱说，也不是不相信这件事。

而是倘若孟繁岐把大模型做成了主流，那这方面显卡需求量，可以说十倍百倍不止了。

和庞大的利润相比，送个一两千张，根本不叫事。