憋大招:Deep Learning runs faster without a GPU

G
Greenland
楼主 (未名空间)

Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
object detection accuracy - Powered by MagicNet and MagicConvolution.
https://www.youtube.com/watch?v=BIO0HOgUOY8


Detecting 2,000 faces from a single image running on CPU:


平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-)

下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/
asic等的预研。。。

团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬
们,Ph.D们一起探讨技术,做我们的advisor

w
wdong
2 楼

这个牛。半年前好像就听说你这个东西了。

【 在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-)
: 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................


L
Liber8
3 楼

算法创新 还是 具体程序实现创新?
视频0:50 有一个小东西检测到了 然后车就压过去了
【 在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-)
: 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................


G
Greenland
4 楼

进度一直在被delay,工程量巨大,脑子不够用,差点就没憋出来。好歹年底前基本完
工,然后匆忙准备展会。Xmas和New Year都没过,:-(

【 在 wdong (万事休) 的大作中提到: 】
: 这个牛。半年前好像就听说你这个东西了。

G
Greenland
5 楼

要加速这么多,得要optimize the full stack

算法创新: Replace traditional convolution with MagicConvolution

底层实现创新:Rewrite all math library and ops, several times faster than
MKL or openblas

模型创新: Custom neural network backbone and object detection head

训练创新: Better way to train the network because high accuracy ImageNet classification does not imply high accuracy in other tasks such as object
detection and segmentation.

0:50的确有点问题,我也刚看到,哈哈。应该是某些class样本不够多造成的。

【 在 Liber8 (Space-Time continuum) 的大作中提到: 】
: 算法创新 还是 具体程序实现创新?
: 视频0:50 有一个小东西检测到了 然后车就压过去了

x
xyz14
6 楼

很想知道底层实现创新是怎样实现的

【 在 Greenland (greenland) 的大作中提到: 】
: 要加速这么多,得要optimize the full stack
: 算法创新: Replace traditional convolution with MagicConvolution
: 底层实现创新:Rewrite all math library and ops, several times faster than : MKL or openblas
: 模型创新: Custom neural network backbone and object detection head
: 训练创新: Better way to train the network because high accuracy
ImageNet
: classification does not imply high accuracy in other tasks such as object
: detection and segmentation.
: 0:50的确有点问题,我也刚看到,哈哈。应该是某些class样本不够多造成的。

g
guvest
7 楼

太牛了。方便透漏下几个人干了多少小时吗?

【 在 Greenland(greenland) 的大作中提到: 】

: 要加速这么多,得要optimize the full stack

: 算法创新: Replace traditional convolution with MagicConvolution

: 底层实现创新:Rewrite all math library and ops, several times faster
than

: MKL or openblas

: 模型创新: Custom neural network backbone and object detection head
: 训练创新: Better way to train the network because high accuracy
ImageNet

: classification does not imply high accuracy in other tasks such as
object

: detection and segmentation.

: 0:50的确有点问题,我也刚看到,哈哈。应该是某些class样本不够多造成的。

l
lightroom
8 楼

牛。cpu优化包括x86和arm吗?

【在 Greenland(greenland)的大作中提到:】
:要加速这么多,得要optimize the full stack


g
guvest
9 楼

假如把你们的算法和训练方法在GPU实现。是不是比现有的yolo等库快很多?

【 在 Greenland(greenland) 的大作中提到: 】

: 要加速这么多,得要optimize the full stack

: 算法创新: Replace traditional convolution with MagicConvolution

: 底层实现创新:Rewrite all math library and ops, several times faster
than

: MKL or openblas

: 模型创新: Custom neural network backbone and object detection head
: 训练创新: Better way to train the network because high accuracy
ImageNet

: classification does not imply high accuracy in other tasks such as
object

: detection and segmentation.

: 0:50的确有点问题,我也刚看到,哈哈。应该是某些class样本不够多造成的。

T
TeacherWei
10 楼

co ask
屯屯屯

【 在 guvest(我爱你老婆Anna) 的大作中提到: 】

: 假如把你们的算法和训练方法在GPU实现。是不是比现有的yolo等库快很多?

: than

: ImageNet

: object

r
romanholiday
11 楼

可惜, 刚签了一个合作方,不然可以谈谈。

【 在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-)
: 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................


r
romanholiday
12 楼

试着放到nvidia tx-2 甚至RPI 上,看样子都能real-time, 前景广阔啊。

【 在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-)
: 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................


g
guvest
13 楼

AI芯片白菜价指日可待

【 在 romanholiday(Michael) 的大作中提到: 】

: 试着放到nvidia tx-2 甚至RPI 上,看样子都能real-time, 前景广阔啊。

p
pldi
14 楼

小白一个,请问这种商业模式是咋样?模型不开源而纯提供inference api?如果模型对客户可见,怎么防止客户直接把模型完全拿去把你们踢开?

MagicConvolution我猜是和depthwise convolution类似来降低计算复杂度?
w
wflower
15 楼

可是每个功能都这么撸一遍,会不会飞灰湮灭啊?哈哈哈

【 在 Greenland(greenland) 的大作中提到: 】

: 要加速这么多,得要optimize the full stack

: 算法创新: Replace traditional convolution with MagicConvolution

: 底层实现创新:Rewrite all math library and ops, several times faster
than

: MKL or openblas

: 模型创新: Custom neural network backbone and object detection head
: 训练创新: Better way to train the network because high accuracy
ImageNet

: classification does not imply high accuracy in other tasks such as
object

: detection and segmentation.

: 0:50的确有点问题,我也刚看到,哈哈。应该是某些class样本不够多造成的。

r
realoption
16 楼

一个 GPU能要多少钱?除非你想把所有AI放到一个 chip上,否则没有实际意义
【 在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-)
: 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................


w
wdong
17 楼

1. 就我所知有的比较重要的应用,现在的GPU也还是不够快。
2. 就是够快,耗电也扛不住。
3. GPU没CPU好用。CPU我可以很便宜上128G内存,serve几十个个模型。用户多了
大家都慢点但是都能用。GPU很难做服务器应用。
4. 现在各种鸡毛NPU初创厂商无数,看着都烦。概率为1全都是用现在通用的那套
CNN做的。楼主最好一锤子买卖把他们全灭了大家再重新来过。

楼主这个广阔天地大有作为。

【 在 realoption (Options) 的大作中提到: 】
: 一个 GPU能要多少钱?除非你想把所有AI放到一个 chip上,否则没有实际意义

m
minquan
18 楼

负载增加,golang程序不变,只需要换个更多核的服务器,效率就加倍了?

【 在 wdong (万事休) 的大作中提到: 】
: 1. 就我所知有的比较重要的应用,现在的GPU也还是不够快。
: 2. 就是够快,耗电也扛不住。
: 3. GPU没CPU好用。CPU我可以很便宜上128G内存,serve几十个个模型。用户多了
: 大家都慢点但是都能用。GPU很难做服务器应用。
: 4. 现在各种鸡毛NPU初创厂商无数,看着都烦。概率为1全都是用现在通用的那套
: CNN做的。楼主最好一锤子买卖把他们全灭了大家再重新来过。
: 楼主这个广阔天地大有作为。

r
romanholiday
19 楼

确实, 一旦这些asic量产,fpga, gpu之类估计都要靠边站。

【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: AI芯片白菜价指日可待
:
: 试着放到nvidia tx-2 甚至RPI 上,看样子都能real-time, 前景广阔啊。
:

g
guvest
20 楼

Inference芯片應該沒問題。訓練不好說。neural network訓練算法也未必就是只有bp
一個辦法。

【 在 romanholiday(Michael) 的大作中提到: 】

: 确实, 一旦这些asic量产,fpga, gpu之类估计都要靠边站。

g
guvest
21 楼

CPU如果能提高訓練速度的話。語言,架構都能節省好多。

【 在 wdong(万事休) 的大作中提到: 】

: 1. 就我所知有的比较重要的应用,现在的GPU也还是不够快。

: 2. 就是够快,耗电也扛不住。

: 3. GPU没CPU好用。CPU我可以很便宜上128G内存,serve几十个个模型。用户多了

: 大家都慢点但是都能用。GPU很难做服务器应用。

: 4. 现在各种鸡毛NPU初创厂商无数,看着都烦。概率为1全都是用现在通用的那套

: CNN做的。楼主最好一锤子买卖把他们全灭了大家再重新来过。

: 楼主这个广阔天地大有作为。

p
per
22 楼

short NVDA?

【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: CPU如果能提高訓練速度的話。語言,架構都能節省好多。
:
: 1. 就我所知有的比较重要的应用,现在的GPU也还是不够快。
:
: 2. 就是够快,耗电也扛不住。
:
: 3. GPU没CPU好用。CPU我可以很便宜上128G内存,serve几十个个模型。用户
多了
:
: 大家都慢点但是都能用。GPU很难做服务器应用。
:
: 4. 现在各种鸡毛NPU初创厂商无数,看着都烦。概率为1全都是用现在通用的
那套
:
: CNN做的。楼主最好一锤子买卖把他们全灭了大家再重新来过。
:
: 楼主这个广阔天地大有作为。
:

l
lightroom
23 楼

先在serving, 大家基本上都要上T4, 用tensor cores 比32bit要快3,4倍,功率75w。
pcie卡2k出头

【在 wdong(万事休)的大作中提到:】
:1. 就我所知有的比较重要的应用,现在的GPU也还是不够快。
:2. 就是够快,耗电也扛不住。

w
wflower
24 楼

未来大厂的服务器端很有可能上fpga的解决方案,其实intel在这方面已经布局有几年了

小作坊估计gpu还是主流

其实无论是gpu还是cpu,算神经网络都是浪费。

【 在 lightroom (吃一条鱼,思考一个问题,法号三丰) 的大作中提到: 】
: 先在serving, 大家基本上都要上T4, 用tensor cores 比32bit要快3,4倍,功率75w。
: pcie卡2k出头
: :1. 就我所知有的比较重要的应用,现在的GPU也还是不够快。
: :2. 就是够快,耗电也扛不住。

p
per
25 楼

厉害啊!
这是不是意味着那么多做NPU的要哭晕在厕所?
对于你的算法来说,最理想的硬件是什么?

【 在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-)
: 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................


l
lightroom
26 楼

fpga没戏,频率太低。除非模型足够小,都放到SRAM里

【 在 wflower (流) 的大作中提到: 】
: 未来大厂的服务器端很有可能上fpga的解决方案,其实intel在这方面已经布局有几
年了
: 小作坊估计gpu还是主流
: 其实无论是gpu还是cpu,算神经网络都是浪费。

l
lightroom
27 楼

是很厉害,至少比于凯的地平线强。当然也不是其他的NPU都歇菜。楼主的底层
kernnels算法在arm,或者nvidia的硬件上可能就没什么优势,这类都是要根据处理器
的架构优化的。楼主的网络设计主要是和其他小网络去比。至少目前还不能和大网络PK性能。其实训练小模型更难,而且收敛慢。工程做多了就知道,如果需要从多方面优化,灵活性必然下降。

从技术壁垒上讲, magic conv如果不公开细节,可能人家不愿意用。模型也是比较容
易偷的。底层的库和训练方法是偷不走的

【 在 per (look back) 的大作中提到: 】
: 厉害啊!
: 这是不是意味着那么多做NPU的要哭晕在厕所?
: 对于你的算法来说,最理想的硬件是什么?

t
timetodo
28 楼

大哥 你这要是开始推广了 记得说一声啊
摔杯为号 我还有不少Nvidia的股票 赶紧卖
b
baochaomeigu
29 楼

no offense, but (suppose I'm potential investor or customer)

> several times faster than MKL or openblas

是重写了整个库?还只是你需要用到的几个函数?
如果是前者有点不可思议,尤其MKL是 intel 自己出的。

【 在 Greenland (greenland) 的大作中提到: 】
: 要加速这么多,得要optimize the full stack
: 算法创新: Replace traditional convolution with MagicConvolution
: 底层实现创新:Rewrite all math library and ops, several times faster than : MKL or openblas
: 模型创新: Custom neural network backbone and object detection head
: 训练创新: Better way to train the network because high accuracy
ImageNet
: classification does not imply high accuracy in other tasks such as object
: detection and segmentation.
: 0:50的确有点问题,我也刚看到,哈哈。应该是某些class样本不够多造成的。

r
romanholiday
30 楼

赶紧PR, 能像DeePhi一样被大厂收了也是很不错

【 在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-)
: 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................


g
guvest
31 楼

如果是小网络。楼主要赶快推进市场把钱赚回来。科研是个风险巨大的事。明年也许别人也有别的模型,这谁也不知道。假如是cifar 10以下尺寸的图像分类问题,我非常肯定DL不是最好的办法。

但是DL的优势是在可以scale 上去。自动驾驶信息不够,那就多上传感器,用更快的专用总线,更多并行单位的芯片。有钱这些都不是事。
回到20年前。谁也没想到,神经网络的核心优势居然是按照数据量可以scale up起来。连接主义也许真的是自然选择出来的结构。

【 在 lightroom(吃一条鱼,思考一个问题,法号三丰) 的大作中提到: 】

: 是很厉害,至少比于凯的地平线强。当然也不是其他的NPU都歇菜。楼主的底层

: kernnels算法在arm,或者nvidia的硬件上可能就没什么优势,这类都是要根据
处理器

: 的架构优化的。楼主的网络设计主要是和其他小网络去比。至少目前还不能和大网络PK

: 性能。其实训练小模型更难,而且收敛慢。工程做多了就知道,如果需要从多方面优化

: ,灵活性必然下降。

: 从技术壁垒上讲, magic conv如果不公开细节,可能人家不愿意用。模型也是
比较容

: 易偷的。底层的库和训练方法是偷不走的

G
Greenland
32 楼

arm架构上也有很大的加速优势,很快就会支持了。nvidia的架构是有问题的,技术迭
代被锁死在某一类并行计算方案和网络模型上,加速优势不明显。不过我们自己写过部
分gpu kernel,依旧比CuDNN快很多。目前不支持gpu架构,主要是开发成本,时间成本太高,尤其是gpu架构公开的细节太少,需要做大量的逆向工程,然后才能做到更好的
代码优化,这个时间花得不太值得,商业上也没有什么价值,因为nvidia显卡本身就非常贵。

我们没有去用一些大家常用的优化方法,比如剪枝,Int8 quantization之类的。主要
目的是让用户不折腾就可以享受到加速效果,降低学习、使用门槛。后期会把
quantization之类的加进去,这部分难度不大,速度可以进一步更快,适合高阶玩家。

【 在 lightroom (吃一条鱼,思考一个问题,法号三丰) 的大作中提到: 】
: 是很厉害,至少比于凯的地平线强。当然也不是其他的NPU都歇菜。楼主的底层
: kernnels算法在arm,或者nvidia的硬件上可能就没什么优势,这类都是要根据处理器
: 的架构优化的。楼主的网络设计主要是和其他小网络去比。至少目前还不能和大网络PK
: 性能。其实训练小模型更难,而且收敛慢。工程做多了就知道,如果需要从多方面优化
: ,灵活性必然下降。
: 从技术壁垒上讲, magic conv如果不公开细节,可能人家不愿意用。模型也是比较容
: 易偷的。底层的库和训练方法是偷不走的

G
Greenland
33 楼

MKL的确写得很慢,我也是很无奈。MKL是intel在俄罗斯的部门做的。可能是大公司人
多了,知识都专业化了(也就是太分散了),每个人都只懂一部分知识。

另外要写得快,必须要懂intel的芯片的内部底层设计。这部分公开的data sheet,
handbook里都是没有的。程序员更是不懂芯片内部是怎么设计的。即使芯片的设计工程师也是分工,分模块的,他们也不会懂动态的算法代码 + 动态的流水线,processing
unit最终跑起来是一个什么样的动态状态。cpu芯片设计只考虑各种比较通用的优化场
景。

【 在 baochaomeigu (baochaomeigu) 的大作中提到: 】
: no offense, but (suppose I'm potential investor or customer)
: > several times faster than MKL or openblas
: 是重写了整个库?还只是你需要用到的几个函数?
: 如果是前者有点不可思议,尤其MKL是 intel 自己出的。
: ImageNet

p
pptwo
34 楼

Goto去intel也有六七年了吧,至少BLAS不应该糟糕啊

【 在 Greenland (greenland) 的大作中提到: 】
: MKL的确写得很慢,我也是很无奈。MKL是intel在俄罗斯的部门做的。可能是大公司人
: 多了,知识都专业化了(也就是太分散了),每个人都只懂一部分知识。
: 另外要写得快,必须要懂intel的芯片的内部底层设计。这部分公开的data sheet,
: handbook里都是没有的。程序员更是不懂芯片内部是怎么设计的。即使芯片的设计工程
: 师也是分工,分模块的,他们也不会懂动态的算法代码 + 动态的流水线,processing
: unit最终跑起来是一个什么样的动态状态。cpu芯片设计只考虑各种比较通用的优化场
: 景。

G
Greenland
35 楼

对于我们的算法,最理想的硬件,当然是自己设计新一代的芯片。现有的芯片不管是
x64,arm还是gpu,很多东西我改不了,如果能改,那性能、功耗还会好很多。

这两天已经在被人推着要做芯片了,资金筹备中。基于MagicNet的软件引擎,可能会导致NPU的一轮洗牌。基于MagicNet的芯片性能将会超过MagicNet的软件引擎本身, 自己
把自己disrupt掉一次。

正在找芯片设计,fpga设计方面的合伙人。有这方面经验或者资源的,务必私信我一下。:-)

【 在 per (look back) 的大作中提到: 】
: 厉害啊!
: 这是不是意味着那么多做NPU的要哭晕在厕所?
: 对于你的算法来说,最理想的硬件是什么?

w
wdong
36 楼

NVDA跌成屎了,没卖得出去。这下不知道要套到什么时候了。

【 在 timetodo (time2do) 的大作中提到: 】
: 大哥 你这要是开始推广了 记得说一声啊
: 摔杯为号 我还有不少Nvidia的股票 赶紧卖

l
lightroom
37 楼

BLAS是优化大型矩阵,throughput是最重要的优化目标。深学基本上的中等大小的矩阵,比如CUDNN。楼主的重点是小型矩阵,所以是有优化空间的。举个例子,用CUDNN做
inference,一般batch要4以上才比较快。为什么不能写一个对batch=1的优化库呢?

【 在 pptwo (pp) 的大作中提到: 】
: Goto去intel也有六七年了吧,至少BLAS不应该糟糕啊

g
guvest
38 楼

楼主是优化小型矩阵的?这个不太理解啊。
问题规模如果比较小的话。神经网络往往未必是最好的算法。

【 在 lightroom (吃一条鱼,思考一个问题,法号三丰) 的大作中提到: 】
: BLAS是优化大型矩阵,throughput是最重要的优化目标。深学基本上的中等大小的矩阵
: ,比如CUDNN。楼主的重点是小型矩阵,所以是有优化空间的。举个例子,用CUDNN做: inference,一般batch要4以上才比较快。为什么不能写一个对batch=1的优化库呢?

g
guvest
39 楼

楼主的例子是自动驾驶吧。很难想象小网络可以做自动驾驶啊。
【 在 lightroom (吃一条鱼,思考一个问题,法号三丰) 的大作中提到: 】
: 是很厉害,至少比于凯的地平线强。当然也不是其他的NPU都歇菜。楼主的底层
: kernnels算法在arm,或者nvidia的硬件上可能就没什么优势,这类都是要根据处理器
: 的架构优化的。楼主的网络设计主要是和其他小网络去比。至少目前还不能和大网络PK
: 性能。其实训练小模型更难,而且收敛慢。工程做多了就知道,如果需要从多方面优化
: ,灵活性必然下降。
: 从技术壁垒上讲, magic conv如果不公开细节,可能人家不愿意用。模型也是比较容
: 易偷的。底层的库和训练方法是偷不走的

l
lightroom
40 楼

不是指网络大小,而是op的大小. C=op(A, B), A是模型参数,B是N个data tensor,其中N是batch size。CUDNN基本B=1时吃不饱,因为B太小了。楼主的东东应该是针对B=1
优化的,这个对edge computing比较重要

【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 楼主是优化小型矩阵的?这个不太理解啊。
: 问题规模如果比较小的话。神经网络往往未必是最好的算法。

a
aeo26
41 楼

潜水的冒一下泡~

楼主太强了,能把MKL和OpenBlas提升个几倍。

而且不用这些底层libraries的话,整个NN的架构都得重写。

然后还有一堆optimization

实在太牛了

L
LostAngeles
42 楼

果然NVDA应声大跌
s
superxy1101
43 楼

lightroom是明白人. cudnn虽然也可以做inference,但是主要针对training,优化目标
是training throughput, 相当于拉货的18轮重卡, 数据量越大相对效率越高. 楼主要
是针对inference latency优化, 相当于是单座赛车, 应该去和tensorRT比.

【 在 lightroom (吃一条鱼,思考一个问题,法号三丰) 的大作中提到: 】
: 不是指网络大小,而是op的大小. C=op(A, B), A是模型参数,B是N个data tensor,其
: 中N是batch size。CUDNN基本B=1时吃不饱,因为B太小了。楼主的东东应该是针对B=
1
: 优化的,这个对edge computing比较重要

s
silverhawk
44 楼

FPGA 方案有个问题是对上下游要求都很高,系统一旦没有搭建对的话可能会性能骤降

举个例子:有些FPGA就是直接在server上PCIE加FPGA,很直接正常,但是放在PROD环境,数据从网卡来,然后CPU去处理了再给PCIE,FPGA再度(忽略DMA之类细节),这样一样FPGA做serving一大优势line speed处理网络数据然后直接serving就没了
【 在 wflower (流) 的大作中提到: 】
: 未来大厂的服务器端很有可能上fpga的解决方案,其实intel在这方面已经布局有几
年了
: 小作坊估计gpu还是主流
: 其实无论是gpu还是cpu,算神经网络都是浪费。

r
repast
45 楼
w
wdong
46 楼

你的分析是对的。但是现在神经网络计算时间,哪怕算上楼主magic convolution
的speedup,都远远要超过PCIe传数据的时间。去CPU转一圈应该没啥问题。

【 在 silverhawk (silverhawk) 的大作中提到: 】
: FPGA 方案有个问题是对上下游要求都很高,系统一旦没有搭建对的话可能会性能骤降
: 举个例子:有些FPGA就是直接在server上PCIE加FPGA,很直接正常,但是放在PROD环境
: ,数据从网卡来,然后CPU去处理了再给PCIE,FPGA再度(忽略DMA之类细节),这样一
: 样FPGA做serving一大优势line speed处理网络数据然后直接serving就没了
: 年了