憋大招:Deep Learning runs faster without a GPU

大约 5 年

楼主 (未名空间)

Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
object detection accuracy - Powered by MagicNet and MagicConvolution.

https://www.youtube.com/watch?v=BIO0HOgUOY8

Detecting 2,000 faces from a single image running on CPU:

平时都在憋大招，很少冒泡。如果有Reddit大V，或者Twitter大V，帮忙转贴一下 :-)

下一步要做些安防，无人驾驶/adas，医疗等领域的网络、应用优化，新型网络FPGA/
asic等的预研。。。

团队实力比较弱，缺少PhD牛人，而且一下子并行做不了那么多东西。欢迎版上的大佬
们，Ph.D们一起探讨技术，做我们的advisor

wdong

大约 5 年

2 楼

这个牛。半年前好像就听说你这个东西了。

【在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招，很少冒泡。如果有Reddit大V，或者Twitter大V，帮忙转贴一下 :-)
: 下一步要做些安防，无人驾驶/adas，医疗等领域的网络、应用优化，新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱，缺少PhD牛人，而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................

Liber8

大约 5 年

3 楼

算法创新还是具体程序实现创新？
视频0:50 有一个小东西检测到了然后车就压过去了
【在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招，很少冒泡。如果有Reddit大V，或者Twitter大V，帮忙转贴一下 :-)
: 下一步要做些安防，无人驾驶/adas，医疗等领域的网络、应用优化，新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱，缺少PhD牛人，而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................

Greenland

大约 5 年

4 楼

进度一直在被delay，工程量巨大，脑子不够用，差点就没憋出来。好歹年底前基本完
工，然后匆忙准备展会。Xmas和New Year都没过，:-(

【在 wdong (万事休) 的大作中提到: 】
: 这个牛。半年前好像就听说你这个东西了。

Greenland

大约 5 年

5 楼

要加速这么多，得要optimize the full stack

算法创新： Replace traditional convolution with MagicConvolution

底层实现创新：Rewrite all math library and ops, several times faster than
MKL or openblas

模型创新： Custom neural network backbone and object detection head

训练创新： Better way to train the network because high accuracy ImageNet classification does not imply high accuracy in other tasks such as object
detection and segmentation.

0:50的确有点问题，我也刚看到，哈哈。应该是某些class样本不够多造成的。

【在 Liber8 (Space-Time continuum) 的大作中提到: 】
: 算法创新还是具体程序实现创新？
: 视频0:50 有一个小东西检测到了然后车就压过去了

xyz14

大约 5 年

6 楼

很想知道底层实现创新是怎样实现的

【在 Greenland (greenland) 的大作中提到: 】
: 要加速这么多，得要optimize the full stack
: 算法创新： Replace traditional convolution with MagicConvolution
: 底层实现创新：Rewrite all math library and ops, several times faster than : MKL or openblas
: 模型创新： Custom neural network backbone and object detection head
: 训练创新： Better way to train the network because high accuracy
ImageNet
: classification does not imply high accuracy in other tasks such as object
: detection and segmentation.
: 0:50的确有点问题，我也刚看到，哈哈。应该是某些class样本不够多造成的。

guvest

大约 5 年

7 楼

太牛了。方便透漏下几个人干了多少小时吗？

【在 Greenland(greenland) 的大作中提到: 】

: 要加速这么多，得要optimize the full stack

: 算法创新： Replace traditional convolution with MagicConvolution

: 底层实现创新：Rewrite all math library and ops, several times faster
than

: MKL or openblas

: 模型创新： Custom neural network backbone and object detection head
: 训练创新： Better way to train the network because high accuracy
ImageNet

: classification does not imply high accuracy in other tasks such as
object

: detection and segmentation.

: 0:50的确有点问题，我也刚看到，哈哈。应该是某些class样本不够多造成的。

lightroom

大约 5 年

8 楼

牛。cpu优化包括x86和arm吗？

【在 Greenland(greenland)的大作中提到：】
：要加速这么多，得要optimize the full stack
：

guvest

大约 5 年

9 楼

假如把你们的算法和训练方法在GPU实现。是不是比现有的yolo等库快很多？

【在 Greenland(greenland) 的大作中提到: 】

: 要加速这么多，得要optimize the full stack

: 算法创新： Replace traditional convolution with MagicConvolution

: 底层实现创新：Rewrite all math library and ops, several times faster
than

: MKL or openblas

: 模型创新： Custom neural network backbone and object detection head
: 训练创新： Better way to train the network because high accuracy
ImageNet

: classification does not imply high accuracy in other tasks such as
object

: detection and segmentation.

: 0:50的确有点问题，我也刚看到，哈哈。应该是某些class样本不够多造成的。

TeacherWei

大约 5 年

10 楼

co ask
屯屯屯

【在 guvest(我爱你老婆Anna) 的大作中提到: 】

: 假如把你们的算法和训练方法在GPU实现。是不是比现有的yolo等库快很多？

: than

: ImageNet

: object

romanholiday

大约 5 年

11 楼

可惜，刚签了一个合作方，不然可以谈谈。

【在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招，很少冒泡。如果有Reddit大V，或者Twitter大V，帮忙转贴一下 :-)
: 下一步要做些安防，无人驾驶/adas，医疗等领域的网络、应用优化，新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱，缺少PhD牛人，而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................

romanholiday

大约 5 年

12 楼

试着放到nvidia tx-2 甚至RPI 上，看样子都能real-time，前景广阔啊。

【在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招，很少冒泡。如果有Reddit大V，或者Twitter大V，帮忙转贴一下 :-)
: 下一步要做些安防，无人驾驶/adas，医疗等领域的网络、应用优化，新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱，缺少PhD牛人，而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................

guvest

大约 5 年

13 楼

AI芯片白菜价指日可待

【在 romanholiday(Michael) 的大作中提到: 】

: 试着放到nvidia tx-2 甚至RPI 上，看样子都能real-time，前景广阔啊。

pldi

大约 5 年

14 楼

小白一个，请问这种商业模式是咋样？模型不开源而纯提供inference api?如果模型对客户可见，怎么防止客户直接把模型完全拿去把你们踢开？

MagicConvolution我猜是和depthwise convolution类似来降低计算复杂度？

wflower

大约 5 年

15 楼

可是每个功能都这么撸一遍，会不会飞灰湮灭啊？哈哈哈

【在 Greenland(greenland) 的大作中提到: 】

: 要加速这么多，得要optimize the full stack

: 算法创新： Replace traditional convolution with MagicConvolution

: 底层实现创新：Rewrite all math library and ops, several times faster
than

: MKL or openblas

: 模型创新： Custom neural network backbone and object detection head
: 训练创新： Better way to train the network because high accuracy
ImageNet

: classification does not imply high accuracy in other tasks such as
object

: detection and segmentation.

: 0:50的确有点问题，我也刚看到，哈哈。应该是某些class样本不够多造成的。

realoption

大约 5 年

16 楼

一个 GPU能要多少钱？除非你想把所有AI放到一个 chip上，否则没有实际意义
【在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招，很少冒泡。如果有Reddit大V，或者Twitter大V，帮忙转贴一下 :-)
: 下一步要做些安防，无人驾驶/adas，医疗等领域的网络、应用优化，新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱，缺少PhD牛人，而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................

wdong

大约 5 年

17 楼

1. 就我所知有的比较重要的应用，现在的GPU也还是不够快。
2. 就是够快，耗电也扛不住。
3. GPU没CPU好用。CPU我可以很便宜上128G内存，serve几十个个模型。用户多了
大家都慢点但是都能用。GPU很难做服务器应用。
4. 现在各种鸡毛NPU初创厂商无数，看着都烦。概率为1全都是用现在通用的那套
CNN做的。楼主最好一锤子买卖把他们全灭了大家再重新来过。

楼主这个广阔天地大有作为。

【在 realoption (Options) 的大作中提到: 】
: 一个 GPU能要多少钱？除非你想把所有AI放到一个 chip上，否则没有实际意义

minquan

大约 5 年

18 楼

负载增加，golang程序不变，只需要换个更多核的服务器，效率就加倍了？

【在 wdong (万事休) 的大作中提到: 】
: 1. 就我所知有的比较重要的应用，现在的GPU也还是不够快。
: 2. 就是够快，耗电也扛不住。
: 3. GPU没CPU好用。CPU我可以很便宜上128G内存，serve几十个个模型。用户多了
: 大家都慢点但是都能用。GPU很难做服务器应用。
: 4. 现在各种鸡毛NPU初创厂商无数，看着都烦。概率为1全都是用现在通用的那套
: CNN做的。楼主最好一锤子买卖把他们全灭了大家再重新来过。
: 楼主这个广阔天地大有作为。

romanholiday

大约 5 年

19 楼

确实，一旦这些asic量产，fpga， gpu之类估计都要靠边站。

【在 guvest (我爱你老婆Anna) 的大作中提到: 】
: AI芯片白菜价指日可待
:
: 试着放到nvidia tx-2 甚至RPI 上，看样子都能real-time，前景广阔啊。
:

guvest

大约 5 年

20 楼

Inference芯片應該沒問題。訓練不好說。neural network訓練算法也未必就是只有bp
一個辦法。

【在 romanholiday(Michael) 的大作中提到: 】

: 确实，一旦这些asic量产，fpga， gpu之类估计都要靠边站。

guvest

大约 5 年

21 楼

CPU如果能提高訓練速度的話。語言，架構都能節省好多。

【在 wdong(万事休) 的大作中提到: 】

: 1. 就我所知有的比较重要的应用，现在的GPU也还是不够快。

: 2. 就是够快，耗电也扛不住。

: 3. GPU没CPU好用。CPU我可以很便宜上128G内存，serve几十个个模型。用户多了

: 大家都慢点但是都能用。GPU很难做服务器应用。

: 4. 现在各种鸡毛NPU初创厂商无数，看着都烦。概率为1全都是用现在通用的那套

: CNN做的。楼主最好一锤子买卖把他们全灭了大家再重新来过。

: 楼主这个广阔天地大有作为。

per

大约 5 年

22 楼

short NVDA?

【在 guvest (我爱你老婆Anna) 的大作中提到: 】
: CPU如果能提高訓練速度的話。語言，架構都能節省好多。
:
: 1. 就我所知有的比较重要的应用，现在的GPU也还是不够快。
:
: 2. 就是够快，耗电也扛不住。
:
: 3. GPU没CPU好用。CPU我可以很便宜上128G内存，serve几十个个模型。用户
多了
:
: 大家都慢点但是都能用。GPU很难做服务器应用。
:
: 4. 现在各种鸡毛NPU初创厂商无数，看着都烦。概率为1全都是用现在通用的
那套
:
: CNN做的。楼主最好一锤子买卖把他们全灭了大家再重新来过。
:
: 楼主这个广阔天地大有作为。
:

lightroom

大约 5 年

23 楼

先在serving, 大家基本上都要上T4, 用tensor cores 比32bit要快3,4倍，功率75w。
pcie卡2k出头

【在 wdong(万事休)的大作中提到：】
：1. 就我所知有的比较重要的应用，现在的GPU也还是不够快。
：2. 就是够快，耗电也扛不住。

wflower

大约 5 年

24 楼

未来大厂的服务器端很有可能上fpga的解决方案，其实intel在这方面已经布局有几年了

小作坊估计gpu还是主流

其实无论是gpu还是cpu，算神经网络都是浪费。

【在 lightroom (吃一条鱼，思考一个问题，法号三丰) 的大作中提到: 】
: 先在serving, 大家基本上都要上T4, 用tensor cores 比32bit要快3,4倍，功率75w。
: pcie卡2k出头
: ：1. 就我所知有的比较重要的应用，现在的GPU也还是不够快。
: ：2. 就是够快，耗电也扛不住。

per

大约 5 年

25 楼

厉害啊！
这是不是意味着那么多做NPU的要哭晕在厕所？
对于你的算法来说，最理想的硬件是什么？

【在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招，很少冒泡。如果有Reddit大V，或者Twitter大V，帮忙转贴一下 :-)
: 下一步要做些安防，无人驾驶/adas，医疗等领域的网络、应用优化，新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱，缺少PhD牛人，而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................

lightroom

大约 5 年

26 楼

fpga没戏，频率太低。除非模型足够小，都放到SRAM里

【在 wflower (流) 的大作中提到: 】
: 未来大厂的服务器端很有可能上fpga的解决方案，其实intel在这方面已经布局有几
年了
: 小作坊估计gpu还是主流
: 其实无论是gpu还是cpu，算神经网络都是浪费。

lightroom

大约 5 年

27 楼

是很厉害，至少比于凯的地平线强。当然也不是其他的NPU都歇菜。楼主的底层
kernnels算法在arm，或者nvidia的硬件上可能就没什么优势，这类都是要根据处理器
的架构优化的。楼主的网络设计主要是和其他小网络去比。至少目前还不能和大网络PK性能。其实训练小模型更难，而且收敛慢。工程做多了就知道，如果需要从多方面优化，灵活性必然下降。

从技术壁垒上讲， magic conv如果不公开细节，可能人家不愿意用。模型也是比较容
易偷的。底层的库和训练方法是偷不走的

【在 per (look back) 的大作中提到: 】
: 厉害啊！
: 这是不是意味着那么多做NPU的要哭晕在厕所？
: 对于你的算法来说，最理想的硬件是什么？

timetodo

大约 5 年

28 楼

大哥你这要是开始推广了记得说一声啊
摔杯为号我还有不少Nvidia的股票赶紧卖

baochaomeigu

大约 5 年

29 楼

no offense, but (suppose I'm potential investor or customer)

> several times faster than MKL or openblas

是重写了整个库？还只是你需要用到的几个函数？
如果是前者有点不可思议，尤其MKL是 intel 自己出的。

【在 Greenland (greenland) 的大作中提到: 】
: 要加速这么多，得要optimize the full stack
: 算法创新： Replace traditional convolution with MagicConvolution
: 底层实现创新：Rewrite all math library and ops, several times faster than : MKL or openblas
: 模型创新： Custom neural network backbone and object detection head
: 训练创新： Better way to train the network because high accuracy
ImageNet
: classification does not imply high accuracy in other tasks such as object
: detection and segmentation.
: 0:50的确有点问题，我也刚看到，哈哈。应该是某些class样本不够多造成的。

romanholiday

大约 5 年

30 楼

赶紧PR, 能像DeePhi一样被大厂收了也是很不错

【在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招，很少冒泡。如果有Reddit大V，或者Twitter大V，帮忙转贴一下 :-)
: 下一步要做些安防，无人驾驶/adas，医疗等领域的网络、应用优化，新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱，缺少PhD牛人，而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................

guvest

大约 5 年

31 楼

如果是小网络。楼主要赶快推进市场把钱赚回来。科研是个风险巨大的事。明年也许别人也有别的模型，这谁也不知道。假如是cifar 10以下尺寸的图像分类问题，我非常肯定DL不是最好的办法。

但是DL的优势是在可以scale 上去。自动驾驶信息不够，那就多上传感器，用更快的专用总线，更多并行单位的芯片。有钱这些都不是事。
回到20年前。谁也没想到，神经网络的核心优势居然是按照数据量可以scale up起来。连接主义也许真的是自然选择出来的结构。

【在 lightroom(吃一条鱼，思考一个问题，法号三丰) 的大作中提到: 】

: 是很厉害，至少比于凯的地平线强。当然也不是其他的NPU都歇菜。楼主的底层

: kernnels算法在arm，或者nvidia的硬件上可能就没什么优势，这类都是要根据
处理器

: 的架构优化的。楼主的网络设计主要是和其他小网络去比。至少目前还不能和大网络PK

: 性能。其实训练小模型更难，而且收敛慢。工程做多了就知道，如果需要从多方面优化

: ，灵活性必然下降。

: 从技术壁垒上讲， magic conv如果不公开细节，可能人家不愿意用。模型也是
比较容

: 易偷的。底层的库和训练方法是偷不走的

Greenland

大约 5 年

32 楼

arm架构上也有很大的加速优势，很快就会支持了。nvidia的架构是有问题的，技术迭
代被锁死在某一类并行计算方案和网络模型上,加速优势不明显。不过我们自己写过部
分gpu kernel，依旧比CuDNN快很多。目前不支持gpu架构，主要是开发成本，时间成本太高，尤其是gpu架构公开的细节太少，需要做大量的逆向工程，然后才能做到更好的
代码优化，这个时间花得不太值得，商业上也没有什么价值，因为nvidia显卡本身就非常贵。

我们没有去用一些大家常用的优化方法，比如剪枝，Int8 quantization之类的。主要
目的是让用户不折腾就可以享受到加速效果，降低学习、使用门槛。后期会把
quantization之类的加进去，这部分难度不大，速度可以进一步更快，适合高阶玩家。

【在 lightroom (吃一条鱼，思考一个问题，法号三丰) 的大作中提到: 】
: 是很厉害，至少比于凯的地平线强。当然也不是其他的NPU都歇菜。楼主的底层
: kernnels算法在arm，或者nvidia的硬件上可能就没什么优势，这类都是要根据处理器
: 的架构优化的。楼主的网络设计主要是和其他小网络去比。至少目前还不能和大网络PK
: 性能。其实训练小模型更难，而且收敛慢。工程做多了就知道，如果需要从多方面优化
: ，灵活性必然下降。
: 从技术壁垒上讲， magic conv如果不公开细节，可能人家不愿意用。模型也是比较容
: 易偷的。底层的库和训练方法是偷不走的

Greenland

大约 5 年

33 楼

MKL的确写得很慢，我也是很无奈。MKL是intel在俄罗斯的部门做的。可能是大公司人
多了，知识都专业化了（也就是太分散了），每个人都只懂一部分知识。

另外要写得快，必须要懂intel的芯片的内部底层设计。这部分公开的data sheet，
handbook里都是没有的。程序员更是不懂芯片内部是怎么设计的。即使芯片的设计工程师也是分工，分模块的，他们也不会懂动态的算法代码 + 动态的流水线,processing
unit最终跑起来是一个什么样的动态状态。cpu芯片设计只考虑各种比较通用的优化场
景。

【在 baochaomeigu (baochaomeigu) 的大作中提到: 】
: no offense, but (suppose I'm potential investor or customer)
: > several times faster than MKL or openblas
: 是重写了整个库？还只是你需要用到的几个函数？
: 如果是前者有点不可思议，尤其MKL是 intel 自己出的。
: ImageNet

pptwo

大约 5 年

34 楼

Goto去intel也有六七年了吧，至少BLAS不应该糟糕啊

【在 Greenland (greenland) 的大作中提到: 】
: MKL的确写得很慢，我也是很无奈。MKL是intel在俄罗斯的部门做的。可能是大公司人
: 多了，知识都专业化了（也就是太分散了），每个人都只懂一部分知识。
: 另外要写得快，必须要懂intel的芯片的内部底层设计。这部分公开的data sheet，
: handbook里都是没有的。程序员更是不懂芯片内部是怎么设计的。即使芯片的设计工程
: 师也是分工，分模块的，他们也不会懂动态的算法代码 + 动态的流水线,processing
: unit最终跑起来是一个什么样的动态状态。cpu芯片设计只考虑各种比较通用的优化场
: 景。

Greenland

大约 5 年

35 楼

对于我们的算法，最理想的硬件，当然是自己设计新一代的芯片。现有的芯片不管是
x64，arm还是gpu，很多东西我改不了，如果能改，那性能、功耗还会好很多。

这两天已经在被人推着要做芯片了，资金筹备中。基于MagicNet的软件引擎，可能会导致NPU的一轮洗牌。基于MagicNet的芯片性能将会超过MagicNet的软件引擎本身, 自己
把自己disrupt掉一次。

正在找芯片设计，fpga设计方面的合伙人。有这方面经验或者资源的，务必私信我一下。:-)

【在 per (look back) 的大作中提到: 】
: 厉害啊！
: 这是不是意味着那么多做NPU的要哭晕在厕所？
: 对于你的算法来说，最理想的硬件是什么？

wdong

大约 5 年

36 楼

NVDA跌成屎了，没卖得出去。这下不知道要套到什么时候了。

【在 timetodo (time2do) 的大作中提到: 】
: 大哥你这要是开始推广了记得说一声啊
: 摔杯为号我还有不少Nvidia的股票赶紧卖

lightroom

大约 5 年

37 楼

BLAS是优化大型矩阵，throughput是最重要的优化目标。深学基本上的中等大小的矩阵，比如CUDNN。楼主的重点是小型矩阵，所以是有优化空间的。举个例子，用CUDNN做
inference，一般batch要4以上才比较快。为什么不能写一个对batch=1的优化库呢？

【在 pptwo (pp) 的大作中提到: 】
: Goto去intel也有六七年了吧，至少BLAS不应该糟糕啊

guvest

大约 5 年

38 楼

楼主是优化小型矩阵的？这个不太理解啊。
问题规模如果比较小的话。神经网络往往未必是最好的算法。

【在 lightroom (吃一条鱼，思考一个问题，法号三丰) 的大作中提到: 】
: BLAS是优化大型矩阵，throughput是最重要的优化目标。深学基本上的中等大小的矩阵
: ，比如CUDNN。楼主的重点是小型矩阵，所以是有优化空间的。举个例子，用CUDNN做: inference，一般batch要4以上才比较快。为什么不能写一个对batch=1的优化库呢？

guvest

大约 5 年

39 楼

楼主的例子是自动驾驶吧。很难想象小网络可以做自动驾驶啊。
【在 lightroom (吃一条鱼，思考一个问题，法号三丰) 的大作中提到: 】
: 是很厉害，至少比于凯的地平线强。当然也不是其他的NPU都歇菜。楼主的底层
: kernnels算法在arm，或者nvidia的硬件上可能就没什么优势，这类都是要根据处理器
: 的架构优化的。楼主的网络设计主要是和其他小网络去比。至少目前还不能和大网络PK
: 性能。其实训练小模型更难，而且收敛慢。工程做多了就知道，如果需要从多方面优化
: ，灵活性必然下降。
: 从技术壁垒上讲， magic conv如果不公开细节，可能人家不愿意用。模型也是比较容
: 易偷的。底层的库和训练方法是偷不走的

lightroom

大约 5 年

40 楼

不是指网络大小，而是op的大小. C=op(A, B), A是模型参数，B是N个data tensor，其中N是batch size。CUDNN基本B=1时吃不饱，因为B太小了。楼主的东东应该是针对B=1
优化的，这个对edge computing比较重要

【在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 楼主是优化小型矩阵的？这个不太理解啊。
: 问题规模如果比较小的话。神经网络往往未必是最好的算法。

aeo26

大约 5 年

41 楼

潜水的冒一下泡～

楼主太强了，能把MKL和OpenBlas提升个几倍。

而且不用这些底层libraries的话，整个NN的架构都得重写。

然后还有一堆optimization

实在太牛了

LostAngeles

大约 5 年

42 楼

果然NVDA应声大跌

superxy1101

大约 5 年

43 楼

lightroom是明白人. cudnn虽然也可以做inference,但是主要针对training,优化目标
是training throughput, 相当于拉货的18轮重卡, 数据量越大相对效率越高. 楼主要
是针对inference latency优化, 相当于是单座赛车, 应该去和tensorRT比.

【在 lightroom (吃一条鱼，思考一个问题，法号三丰) 的大作中提到: 】
: 不是指网络大小，而是op的大小. C=op(A, B), A是模型参数，B是N个data tensor，其
: 中N是batch size。CUDNN基本B=1时吃不饱，因为B太小了。楼主的东东应该是针对B=
1
: 优化的，这个对edge computing比较重要

silverhawk

大约 5 年

44 楼

FPGA 方案有个问题是对上下游要求都很高，系统一旦没有搭建对的话可能会性能骤降

举个例子：有些FPGA就是直接在server上PCIE加FPGA，很直接正常，但是放在PROD环境，数据从网卡来，然后CPU去处理了再给PCIE，FPGA再度（忽略DMA之类细节），这样一样FPGA做serving一大优势line speed处理网络数据然后直接serving就没了
【在 wflower (流) 的大作中提到: 】
: 未来大厂的服务器端很有可能上fpga的解决方案，其实intel在这方面已经布局有几
年了
: 小作坊估计gpu还是主流
: 其实无论是gpu还是cpu，算神经网络都是浪费。

repast

大约 5 年

45 楼

nervana 还米有发布，到底要跳票到哪一天?http://www.computerworld.in/news/ces-2019-intel-ship-new-nervana-neural-network-processor-2019

wdong

大约 5 年

46 楼

你的分析是对的。但是现在神经网络计算时间，哪怕算上楼主magic convolution
的speedup，都远远要超过PCIe传数据的时间。去CPU转一圈应该没啥问题。

【在 silverhawk (silverhawk) 的大作中提到: 】
: FPGA 方案有个问题是对上下游要求都很高，系统一旦没有搭建对的话可能会性能骤降
: 举个例子：有些FPGA就是直接在server上PCIE加FPGA，很直接正常，但是放在PROD环境
: ，数据从网卡来，然后CPU去处理了再给PCIE，FPGA再度（忽略DMA之类细节），这样一
: 样FPGA做serving一大优势line speed处理网络数据然后直接serving就没了
: 年了