本地运行大模型的一大障碍是模型要放在GPU的graphic memory,但是VRAM很贵,内存和VRAM之间调数据也需要时间。苹果用统一内存,模型就直接放在RAM上,也不需要调来调去,最适合Deep Seek这样模型的本地部署,我在MacBook上运行速度很快。估计是这两天苹果涨了不少的原因,手机端也可以运行大模型了,而且别人已经做好了开源,自己拿来改改就可以用了
是MacBook Pro,本地运行Deepseek r1-70b (实际是43GB),GPU用量95%,CPU用量7%,答案出来不慢。
而我的Windows的工作站主机,虽然有Nvidia GPU, 有几千个GPU cores,但只有10+GB VRAM,根本无法运行Deepseek 70b模型,只能用CPU做运算,答案出来的像挤牙膏。或者只能运行很小的模型,7GB的。
如果谁要再买新的计算机,一定要买苹果的,它是AI/LLM future- proof。
哈哈。这世界变化太大快了。
跟是不是我自己想的有什么关系?
Unified memory structure是考虑到了,AI大模型和Gaming raytracing等将来应用计算场景。
跑32b的时候内存被拿来当虚拟显存,速度就慢多了
本地运行大模型的一大障碍是模型要放在GPU的graphic memory,但是VRAM很贵,内存和VRAM之间调数据也需要时间。苹果用统一内存,模型就直接放在RAM上,也不需要调来调去,最适合Deep Seek这样模型的本地部署,我在MacBook上运行速度很快。估计是这两天苹果涨了不少的原因,手机端也可以运行大模型了,而且别人已经做好了开源,自己拿来改改就可以用了
是MacBook Pro,本地运行Deepseek r1-70b (实际是43GB),GPU用量95%,CPU用量7%,答案出来不慢。
而我的Windows的工作站主机,虽然有Nvidia GPU, 有几千个GPU cores,但只有10+GB VRAM,根本无法运行Deepseek 70b模型,只能用CPU做运算,答案出来的像挤牙膏。或者只能运行很小的模型,7GB的。
如果谁要再买新的计算机,一定要买苹果的,它是AI/LLM future- proof。
哈哈。这世界变化太大快了。
跟是不是我自己想的有什么关系?
Unified memory structure是考虑到了,AI大模型和Gaming raytracing等将来应用计算场景。
跑32b的时候内存被拿来当虚拟显存,速度就慢多了