女大受到政府限制外,自己产品似乎问题也不少最终导致一再延期。主要的是几个出问题部件都是单一供货商,一出问题没有替代可用

颜阳
楼主 (文学城)

NVLINK接口和调制电源都是单一供货商,YIELD一出问题只能延期。要命的是如果温度上升,MTBF 指数式变短。。幸亏是distributed computing, 否则这样的产品.....   

设计的MARGIN似乎没留下足够余地。都已经到了要大规模生产的程度了,机柜由于散热不良还在改动。这些问题在做工程设计和验证时就该解决了。

如去看看APPLE就知道了产品上市一般如果没有2个供货商就不会上大规模生产。。

nvidia没有宣布下一代的ROBIN 具体时间是对的,BLACKWELL的教训要好好吸取,最好不要在ROBIN上犯同样错误

 

 

 

 

c
cnrhm2017
这些相对它创造的vision不是致命的,制冷有解决方案了呀,SMCI
c
cnrhm2017
你其实对nvda不是很了解,我对她的产品过程非常了解
c
cnrhm2017
最可靠的办法是pair tradiing,buy nvda,short TSMC or AMD

对不对?因为chip是有制造极限的。而AMD是有硬件设计问题,软件的ecosystem更没对比了

c
cnrhm2017
没有不尊敬的意思,就是和您讨论及请教
颜阳
你不懂工程设计,特别是电子工程产品可靠性设计。
c
cnrhm2017
承认,我不熟工程设计。若您有空,再具体说最重要的一点来看看,我看是否致命的
颜阳
即使用LIQUID制冷,也在表面,芯片内部温度要比表面高很多。。。懂物理的都知道 这个原理。
彭发朦
虽然junction temperature 总是比ambient temperature高,但是制冷和通风得当的话,还

是可以抑制junction temperature 上升的。

英勇不屈张排长
buy nvda,short TSMC?

这个有点吃惊。TSM今天已经出了上个季度的数据

c
cnrhm2017
谢谢提出的问题和解答的方案。能否加大die的尺寸来提高散热面积?
c
cnrhm2017
对!
未知
好主意,把DIE?做成pizza饼那么大,散热问题就解决了

而且不需要2nm光刻技术了,手工刀刻就可以完成。

颜阳
女大GB200延迟出货出问题部件几乎都和过热有关,电源芯片也是这个问题。问题在工程设计没有留出足够的可靠性MARGIN

Too aggressive,可靠性考虑不够。

颜阳
本来高性能高速计算就必须高度集成,你还要反其道而行之。外行话。
彭发朦
不可以。性能/成本、性能/成本、性能/成本, 重要的话要说三遍

c
cnrhm2017
所有analyst,包括台湾的都是讲服务器的散热问题,不是chip散热问题呀

https://36kr.com/p/3043057873371782