Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same object detection accuracy - Powered by MagicNet and MagicConvolution.
https://www.youtube.com/watch?v=BIO0HOgUOY8
Detecting 2,000 faces from a single image running on CPU:
【 在 Greenland (greenland) 的大作中提到: 】 : Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI : computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same : object detection accuracy - Powered by MagicNet and MagicConvolution. : https://www.youtube.com/watch?v=BIO0HOgUOY8 : Detecting 2,000 faces from a single image running on CPU: : http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg : 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-) : 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。 : 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬 : ...................
算法创新 还是 具体程序实现创新? 视频0:50 有一个小东西检测到了 然后车就压过去了 【 在 Greenland (greenland) 的大作中提到: 】 : Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI : computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same : object detection accuracy - Powered by MagicNet and MagicConvolution. : https://www.youtube.com/watch?v=BIO0HOgUOY8 : Detecting 2,000 faces from a single image running on CPU: : http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg : 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-) : 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。 : 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬 : ...................
算法创新: Replace traditional convolution with MagicConvolution
底层实现创新:Rewrite all math library and ops, several times faster than MKL or openblas
模型创新: Custom neural network backbone and object detection head
训练创新: Better way to train the network because high accuracy ImageNet classification does not imply high accuracy in other tasks such as object detection and segmentation.
【 在 Greenland (greenland) 的大作中提到: 】 : 要加速这么多,得要optimize the full stack : 算法创新: Replace traditional convolution with MagicConvolution : 底层实现创新:Rewrite all math library and ops, several times faster than : MKL or openblas : 模型创新: Custom neural network backbone and object detection head : 训练创新: Better way to train the network because high accuracy ImageNet : classification does not imply high accuracy in other tasks such as object : detection and segmentation. : 0:50的确有点问题,我也刚看到,哈哈。应该是某些class样本不够多造成的。
【 在 Greenland (greenland) 的大作中提到: 】 : Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI : computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same : object detection accuracy - Powered by MagicNet and MagicConvolution. : https://www.youtube.com/watch?v=BIO0HOgUOY8 : Detecting 2,000 faces from a single image running on CPU: : http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg : 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-) : 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。 : 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬 : ...................
【 在 Greenland (greenland) 的大作中提到: 】 : Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI : computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same : object detection accuracy - Powered by MagicNet and MagicConvolution. : https://www.youtube.com/watch?v=BIO0HOgUOY8 : Detecting 2,000 faces from a single image running on CPU: : http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg : 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-) : 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。 : 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬 : ...................
一个 GPU能要多少钱?除非你想把所有AI放到一个 chip上,否则没有实际意义 【 在 Greenland (greenland) 的大作中提到: 】 : Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI : computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same : object detection accuracy - Powered by MagicNet and MagicConvolution. : https://www.youtube.com/watch?v=BIO0HOgUOY8 : Detecting 2,000 faces from a single image running on CPU: : http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg : 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-) : 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。 : 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬 : ...................
【 在 Greenland (greenland) 的大作中提到: 】 : Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI : computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same : object detection accuracy - Powered by MagicNet and MagicConvolution. : https://www.youtube.com/watch?v=BIO0HOgUOY8 : Detecting 2,000 faces from a single image running on CPU: : http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg : 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-) : 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。 : 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬 : ...................
【 在 Greenland (greenland) 的大作中提到: 】 : 要加速这么多,得要optimize the full stack : 算法创新: Replace traditional convolution with MagicConvolution : 底层实现创新:Rewrite all math library and ops, several times faster than : MKL or openblas : 模型创新: Custom neural network backbone and object detection head : 训练创新: Better way to train the network because high accuracy ImageNet : classification does not imply high accuracy in other tasks such as object : detection and segmentation. : 0:50的确有点问题,我也刚看到,哈哈。应该是某些class样本不够多造成的。
【 在 Greenland (greenland) 的大作中提到: 】 : Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI : computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same : object detection accuracy - Powered by MagicNet and MagicConvolution. : https://www.youtube.com/watch?v=BIO0HOgUOY8 : Detecting 2,000 faces from a single image running on CPU: : http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg : 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-) : 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。 : 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬 : ...................
【 在 baochaomeigu (baochaomeigu) 的大作中提到: 】 : no offense, but (suppose I'm potential investor or customer) : > several times faster than MKL or openblas : 是重写了整个库?还只是你需要用到的几个函数? : 如果是前者有点不可思议,尤其MKL是 intel 自己出的。 : ImageNet
Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
object detection accuracy - Powered by MagicNet and MagicConvolution.
Detecting 2,000 faces from a single image running on CPU:
平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-)
下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/
asic等的预研。。。
团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬
们,Ph.D们一起探讨技术,做我们的advisor
这个牛。半年前好像就听说你这个东西了。
【 在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-)
: 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................
算法创新 还是 具体程序实现创新?
视频0:50 有一个小东西检测到了 然后车就压过去了
【 在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-)
: 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................
进度一直在被delay,工程量巨大,脑子不够用,差点就没憋出来。好歹年底前基本完
工,然后匆忙准备展会。Xmas和New Year都没过,:-(
【 在 wdong (万事休) 的大作中提到: 】
: 这个牛。半年前好像就听说你这个东西了。
要加速这么多,得要optimize the full stack
算法创新: Replace traditional convolution with MagicConvolution
底层实现创新:Rewrite all math library and ops, several times faster than
MKL or openblas
模型创新: Custom neural network backbone and object detection head
训练创新: Better way to train the network because high accuracy ImageNet classification does not imply high accuracy in other tasks such as object
detection and segmentation.
0:50的确有点问题,我也刚看到,哈哈。应该是某些class样本不够多造成的。
【 在 Liber8 (Space-Time continuum) 的大作中提到: 】
: 算法创新 还是 具体程序实现创新?
: 视频0:50 有一个小东西检测到了 然后车就压过去了
很想知道底层实现创新是怎样实现的
【 在 Greenland (greenland) 的大作中提到: 】
: 要加速这么多,得要optimize the full stack
: 算法创新: Replace traditional convolution with MagicConvolution
: 底层实现创新:Rewrite all math library and ops, several times faster than : MKL or openblas
: 模型创新: Custom neural network backbone and object detection head
: 训练创新: Better way to train the network because high accuracy
ImageNet
: classification does not imply high accuracy in other tasks such as object
: detection and segmentation.
: 0:50的确有点问题,我也刚看到,哈哈。应该是某些class样本不够多造成的。
太牛了。方便透漏下几个人干了多少小时吗?
【 在 Greenland(greenland) 的大作中提到: 】
: 要加速这么多,得要optimize the full stack
: 算法创新: Replace traditional convolution with MagicConvolution
: 底层实现创新:Rewrite all math library and ops, several times faster
than
: MKL or openblas
: 模型创新: Custom neural network backbone and object detection head
: 训练创新: Better way to train the network because high accuracy
ImageNet
: classification does not imply high accuracy in other tasks such as
object
: detection and segmentation.
: 0:50的确有点问题,我也刚看到,哈哈。应该是某些class样本不够多造成的。
牛。cpu优化包括x86和arm吗?
【在 Greenland(greenland)的大作中提到:】
:要加速这么多,得要optimize the full stack
:
假如把你们的算法和训练方法在GPU实现。是不是比现有的yolo等库快很多?
【 在 Greenland(greenland) 的大作中提到: 】
: 要加速这么多,得要optimize the full stack
: 算法创新: Replace traditional convolution with MagicConvolution
: 底层实现创新:Rewrite all math library and ops, several times faster
than
: MKL or openblas
: 模型创新: Custom neural network backbone and object detection head
: 训练创新: Better way to train the network because high accuracy
ImageNet
: classification does not imply high accuracy in other tasks such as
object
: detection and segmentation.
: 0:50的确有点问题,我也刚看到,哈哈。应该是某些class样本不够多造成的。
co ask
屯屯屯
【 在 guvest(我爱你老婆Anna) 的大作中提到: 】
: 假如把你们的算法和训练方法在GPU实现。是不是比现有的yolo等库快很多?
: than
: ImageNet
: object
可惜, 刚签了一个合作方,不然可以谈谈。
【 在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-)
: 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................
试着放到nvidia tx-2 甚至RPI 上,看样子都能real-time, 前景广阔啊。
【 在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-)
: 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................
AI芯片白菜价指日可待
【 在 romanholiday(Michael) 的大作中提到: 】
: 试着放到nvidia tx-2 甚至RPI 上,看样子都能real-time, 前景广阔啊。
小白一个,请问这种商业模式是咋样?模型不开源而纯提供inference api?如果模型对客户可见,怎么防止客户直接把模型完全拿去把你们踢开?
MagicConvolution我猜是和depthwise convolution类似来降低计算复杂度?
可是每个功能都这么撸一遍,会不会飞灰湮灭啊?哈哈哈
【 在 Greenland(greenland) 的大作中提到: 】
: 要加速这么多,得要optimize the full stack
: 算法创新: Replace traditional convolution with MagicConvolution
: 底层实现创新:Rewrite all math library and ops, several times faster
than
: MKL or openblas
: 模型创新: Custom neural network backbone and object detection head
: 训练创新: Better way to train the network because high accuracy
ImageNet
: classification does not imply high accuracy in other tasks such as
object
: detection and segmentation.
: 0:50的确有点问题,我也刚看到,哈哈。应该是某些class样本不够多造成的。
一个 GPU能要多少钱?除非你想把所有AI放到一个 chip上,否则没有实际意义
【 在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-)
: 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................
1. 就我所知有的比较重要的应用,现在的GPU也还是不够快。
2. 就是够快,耗电也扛不住。
3. GPU没CPU好用。CPU我可以很便宜上128G内存,serve几十个个模型。用户多了
大家都慢点但是都能用。GPU很难做服务器应用。
4. 现在各种鸡毛NPU初创厂商无数,看着都烦。概率为1全都是用现在通用的那套
CNN做的。楼主最好一锤子买卖把他们全灭了大家再重新来过。
楼主这个广阔天地大有作为。
【 在 realoption (Options) 的大作中提到: 】
: 一个 GPU能要多少钱?除非你想把所有AI放到一个 chip上,否则没有实际意义
负载增加,golang程序不变,只需要换个更多核的服务器,效率就加倍了?
【 在 wdong (万事休) 的大作中提到: 】
: 1. 就我所知有的比较重要的应用,现在的GPU也还是不够快。
: 2. 就是够快,耗电也扛不住。
: 3. GPU没CPU好用。CPU我可以很便宜上128G内存,serve几十个个模型。用户多了
: 大家都慢点但是都能用。GPU很难做服务器应用。
: 4. 现在各种鸡毛NPU初创厂商无数,看着都烦。概率为1全都是用现在通用的那套
: CNN做的。楼主最好一锤子买卖把他们全灭了大家再重新来过。
: 楼主这个广阔天地大有作为。
确实, 一旦这些asic量产,fpga, gpu之类估计都要靠边站。
【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: AI芯片白菜价指日可待
:
: 试着放到nvidia tx-2 甚至RPI 上,看样子都能real-time, 前景广阔啊。
:
Inference芯片應該沒問題。訓練不好說。neural network訓練算法也未必就是只有bp
一個辦法。
【 在 romanholiday(Michael) 的大作中提到: 】
: 确实, 一旦这些asic量产,fpga, gpu之类估计都要靠边站。
CPU如果能提高訓練速度的話。語言,架構都能節省好多。
【 在 wdong(万事休) 的大作中提到: 】
: 1. 就我所知有的比较重要的应用,现在的GPU也还是不够快。
: 2. 就是够快,耗电也扛不住。
: 3. GPU没CPU好用。CPU我可以很便宜上128G内存,serve几十个个模型。用户多了
: 大家都慢点但是都能用。GPU很难做服务器应用。
: 4. 现在各种鸡毛NPU初创厂商无数,看着都烦。概率为1全都是用现在通用的那套
: CNN做的。楼主最好一锤子买卖把他们全灭了大家再重新来过。
: 楼主这个广阔天地大有作为。
short NVDA?
【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: CPU如果能提高訓練速度的話。語言,架構都能節省好多。
:
: 1. 就我所知有的比较重要的应用,现在的GPU也还是不够快。
:
: 2. 就是够快,耗电也扛不住。
:
: 3. GPU没CPU好用。CPU我可以很便宜上128G内存,serve几十个个模型。用户
多了
:
: 大家都慢点但是都能用。GPU很难做服务器应用。
:
: 4. 现在各种鸡毛NPU初创厂商无数,看着都烦。概率为1全都是用现在通用的
那套
:
: CNN做的。楼主最好一锤子买卖把他们全灭了大家再重新来过。
:
: 楼主这个广阔天地大有作为。
:
先在serving, 大家基本上都要上T4, 用tensor cores 比32bit要快3,4倍,功率75w。
pcie卡2k出头
【在 wdong(万事休)的大作中提到:】
:1. 就我所知有的比较重要的应用,现在的GPU也还是不够快。
:2. 就是够快,耗电也扛不住。
未来大厂的服务器端很有可能上fpga的解决方案,其实intel在这方面已经布局有几年了
小作坊估计gpu还是主流
其实无论是gpu还是cpu,算神经网络都是浪费。
【 在 lightroom (吃一条鱼,思考一个问题,法号三丰) 的大作中提到: 】
: 先在serving, 大家基本上都要上T4, 用tensor cores 比32bit要快3,4倍,功率75w。
: pcie卡2k出头
: :1. 就我所知有的比较重要的应用,现在的GPU也还是不够快。
: :2. 就是够快,耗电也扛不住。
厉害啊!
这是不是意味着那么多做NPU的要哭晕在厕所?
对于你的算法来说,最理想的硬件是什么?
【 在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-)
: 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................
fpga没戏,频率太低。除非模型足够小,都放到SRAM里
【 在 wflower (流) 的大作中提到: 】
: 未来大厂的服务器端很有可能上fpga的解决方案,其实intel在这方面已经布局有几
年了
: 小作坊估计gpu还是主流
: 其实无论是gpu还是cpu,算神经网络都是浪费。
是很厉害,至少比于凯的地平线强。当然也不是其他的NPU都歇菜。楼主的底层
kernnels算法在arm,或者nvidia的硬件上可能就没什么优势,这类都是要根据处理器
的架构优化的。楼主的网络设计主要是和其他小网络去比。至少目前还不能和大网络PK性能。其实训练小模型更难,而且收敛慢。工程做多了就知道,如果需要从多方面优化,灵活性必然下降。
从技术壁垒上讲, magic conv如果不公开细节,可能人家不愿意用。模型也是比较容
易偷的。底层的库和训练方法是偷不走的
【 在 per (look back) 的大作中提到: 】
: 厉害啊!
: 这是不是意味着那么多做NPU的要哭晕在厕所?
: 对于你的算法来说,最理想的硬件是什么?
大哥 你这要是开始推广了 记得说一声啊
摔杯为号 我还有不少Nvidia的股票 赶紧卖
no offense, but (suppose I'm potential investor or customer)
> several times faster than MKL or openblas
是重写了整个库?还只是你需要用到的几个函数?
如果是前者有点不可思议,尤其MKL是 intel 自己出的。
【 在 Greenland (greenland) 的大作中提到: 】
: 要加速这么多,得要optimize the full stack
: 算法创新: Replace traditional convolution with MagicConvolution
: 底层实现创新:Rewrite all math library and ops, several times faster than : MKL or openblas
: 模型创新: Custom neural network backbone and object detection head
: 训练创新: Better way to train the network because high accuracy
ImageNet
: classification does not imply high accuracy in other tasks such as object
: detection and segmentation.
: 0:50的确有点问题,我也刚看到,哈哈。应该是某些class样本不够多造成的。
赶紧PR, 能像DeePhi一样被大厂收了也是很不错
【 在 Greenland (greenland) 的大作中提到: 】
: Self-driving AI task running on a 0.9GHz CPU processor delivers 78% AI
: computing power of an NVIDIA Titan X (or 1080Ti) GPU, achieving the same
: object detection accuracy - Powered by MagicNet and MagicConvolution.
: https://www.youtube.com/watch?v=BIO0HOgUOY8
: Detecting 2,000 faces from a single image running on CPU:
: http://www.pqlabs.ai/uploads/9/3/6/5/93653090/face-0097_1_orig.jpg
: 平时都在憋大招,很少冒泡。如果有Reddit大V,或者Twitter大V,帮忙转贴一下 :-)
: 下一步要做些安防,无人驾驶/adas,医疗等领域的网络、应用优化,新型网络FPGA/: asic等的预研。。。
: 团队实力比较弱,缺少PhD牛人,而且一下子并行做不了那么多东西。欢迎版上的大佬
: ...................
如果是小网络。楼主要赶快推进市场把钱赚回来。科研是个风险巨大的事。明年也许别人也有别的模型,这谁也不知道。假如是cifar 10以下尺寸的图像分类问题,我非常肯定DL不是最好的办法。
但是DL的优势是在可以scale 上去。自动驾驶信息不够,那就多上传感器,用更快的专用总线,更多并行单位的芯片。有钱这些都不是事。
回到20年前。谁也没想到,神经网络的核心优势居然是按照数据量可以scale up起来。连接主义也许真的是自然选择出来的结构。
【 在 lightroom(吃一条鱼,思考一个问题,法号三丰) 的大作中提到: 】
: 是很厉害,至少比于凯的地平线强。当然也不是其他的NPU都歇菜。楼主的底层
: kernnels算法在arm,或者nvidia的硬件上可能就没什么优势,这类都是要根据
处理器
: 的架构优化的。楼主的网络设计主要是和其他小网络去比。至少目前还不能和大网络PK
: 性能。其实训练小模型更难,而且收敛慢。工程做多了就知道,如果需要从多方面优化
: ,灵活性必然下降。
: 从技术壁垒上讲, magic conv如果不公开细节,可能人家不愿意用。模型也是
比较容
: 易偷的。底层的库和训练方法是偷不走的
arm架构上也有很大的加速优势,很快就会支持了。nvidia的架构是有问题的,技术迭
代被锁死在某一类并行计算方案和网络模型上,加速优势不明显。不过我们自己写过部
分gpu kernel,依旧比CuDNN快很多。目前不支持gpu架构,主要是开发成本,时间成本太高,尤其是gpu架构公开的细节太少,需要做大量的逆向工程,然后才能做到更好的
代码优化,这个时间花得不太值得,商业上也没有什么价值,因为nvidia显卡本身就非常贵。
我们没有去用一些大家常用的优化方法,比如剪枝,Int8 quantization之类的。主要
目的是让用户不折腾就可以享受到加速效果,降低学习、使用门槛。后期会把
quantization之类的加进去,这部分难度不大,速度可以进一步更快,适合高阶玩家。
【 在 lightroom (吃一条鱼,思考一个问题,法号三丰) 的大作中提到: 】
: 是很厉害,至少比于凯的地平线强。当然也不是其他的NPU都歇菜。楼主的底层
: kernnels算法在arm,或者nvidia的硬件上可能就没什么优势,这类都是要根据处理器
: 的架构优化的。楼主的网络设计主要是和其他小网络去比。至少目前还不能和大网络PK
: 性能。其实训练小模型更难,而且收敛慢。工程做多了就知道,如果需要从多方面优化
: ,灵活性必然下降。
: 从技术壁垒上讲, magic conv如果不公开细节,可能人家不愿意用。模型也是比较容
: 易偷的。底层的库和训练方法是偷不走的
MKL的确写得很慢,我也是很无奈。MKL是intel在俄罗斯的部门做的。可能是大公司人
多了,知识都专业化了(也就是太分散了),每个人都只懂一部分知识。
另外要写得快,必须要懂intel的芯片的内部底层设计。这部分公开的data sheet,
handbook里都是没有的。程序员更是不懂芯片内部是怎么设计的。即使芯片的设计工程师也是分工,分模块的,他们也不会懂动态的算法代码 + 动态的流水线,processing
unit最终跑起来是一个什么样的动态状态。cpu芯片设计只考虑各种比较通用的优化场
景。
【 在 baochaomeigu (baochaomeigu) 的大作中提到: 】
: no offense, but (suppose I'm potential investor or customer)
: > several times faster than MKL or openblas
: 是重写了整个库?还只是你需要用到的几个函数?
: 如果是前者有点不可思议,尤其MKL是 intel 自己出的。
: ImageNet
Goto去intel也有六七年了吧,至少BLAS不应该糟糕啊
【 在 Greenland (greenland) 的大作中提到: 】
: MKL的确写得很慢,我也是很无奈。MKL是intel在俄罗斯的部门做的。可能是大公司人
: 多了,知识都专业化了(也就是太分散了),每个人都只懂一部分知识。
: 另外要写得快,必须要懂intel的芯片的内部底层设计。这部分公开的data sheet,
: handbook里都是没有的。程序员更是不懂芯片内部是怎么设计的。即使芯片的设计工程
: 师也是分工,分模块的,他们也不会懂动态的算法代码 + 动态的流水线,processing
: unit最终跑起来是一个什么样的动态状态。cpu芯片设计只考虑各种比较通用的优化场
: 景。
对于我们的算法,最理想的硬件,当然是自己设计新一代的芯片。现有的芯片不管是
x64,arm还是gpu,很多东西我改不了,如果能改,那性能、功耗还会好很多。
这两天已经在被人推着要做芯片了,资金筹备中。基于MagicNet的软件引擎,可能会导致NPU的一轮洗牌。基于MagicNet的芯片性能将会超过MagicNet的软件引擎本身, 自己
把自己disrupt掉一次。
正在找芯片设计,fpga设计方面的合伙人。有这方面经验或者资源的,务必私信我一下。:-)
【 在 per (look back) 的大作中提到: 】
: 厉害啊!
: 这是不是意味着那么多做NPU的要哭晕在厕所?
: 对于你的算法来说,最理想的硬件是什么?
NVDA跌成屎了,没卖得出去。这下不知道要套到什么时候了。
【 在 timetodo (time2do) 的大作中提到: 】
: 大哥 你这要是开始推广了 记得说一声啊
: 摔杯为号 我还有不少Nvidia的股票 赶紧卖
BLAS是优化大型矩阵,throughput是最重要的优化目标。深学基本上的中等大小的矩阵,比如CUDNN。楼主的重点是小型矩阵,所以是有优化空间的。举个例子,用CUDNN做
inference,一般batch要4以上才比较快。为什么不能写一个对batch=1的优化库呢?
【 在 pptwo (pp) 的大作中提到: 】
: Goto去intel也有六七年了吧,至少BLAS不应该糟糕啊
楼主是优化小型矩阵的?这个不太理解啊。
问题规模如果比较小的话。神经网络往往未必是最好的算法。
【 在 lightroom (吃一条鱼,思考一个问题,法号三丰) 的大作中提到: 】
: BLAS是优化大型矩阵,throughput是最重要的优化目标。深学基本上的中等大小的矩阵
: ,比如CUDNN。楼主的重点是小型矩阵,所以是有优化空间的。举个例子,用CUDNN做: inference,一般batch要4以上才比较快。为什么不能写一个对batch=1的优化库呢?
楼主的例子是自动驾驶吧。很难想象小网络可以做自动驾驶啊。
【 在 lightroom (吃一条鱼,思考一个问题,法号三丰) 的大作中提到: 】
: 是很厉害,至少比于凯的地平线强。当然也不是其他的NPU都歇菜。楼主的底层
: kernnels算法在arm,或者nvidia的硬件上可能就没什么优势,这类都是要根据处理器
: 的架构优化的。楼主的网络设计主要是和其他小网络去比。至少目前还不能和大网络PK
: 性能。其实训练小模型更难,而且收敛慢。工程做多了就知道,如果需要从多方面优化
: ,灵活性必然下降。
: 从技术壁垒上讲, magic conv如果不公开细节,可能人家不愿意用。模型也是比较容
: 易偷的。底层的库和训练方法是偷不走的
不是指网络大小,而是op的大小. C=op(A, B), A是模型参数,B是N个data tensor,其中N是batch size。CUDNN基本B=1时吃不饱,因为B太小了。楼主的东东应该是针对B=1
优化的,这个对edge computing比较重要
【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 楼主是优化小型矩阵的?这个不太理解啊。
: 问题规模如果比较小的话。神经网络往往未必是最好的算法。
潜水的冒一下泡~
楼主太强了,能把MKL和OpenBlas提升个几倍。
而且不用这些底层libraries的话,整个NN的架构都得重写。
然后还有一堆optimization
实在太牛了
果然NVDA应声大跌
lightroom是明白人. cudnn虽然也可以做inference,但是主要针对training,优化目标
是training throughput, 相当于拉货的18轮重卡, 数据量越大相对效率越高. 楼主要
是针对inference latency优化, 相当于是单座赛车, 应该去和tensorRT比.
【 在 lightroom (吃一条鱼,思考一个问题,法号三丰) 的大作中提到: 】
: 不是指网络大小,而是op的大小. C=op(A, B), A是模型参数,B是N个data tensor,其
: 中N是batch size。CUDNN基本B=1时吃不饱,因为B太小了。楼主的东东应该是针对B=
1
: 优化的,这个对edge computing比较重要
FPGA 方案有个问题是对上下游要求都很高,系统一旦没有搭建对的话可能会性能骤降
举个例子:有些FPGA就是直接在server上PCIE加FPGA,很直接正常,但是放在PROD环境,数据从网卡来,然后CPU去处理了再给PCIE,FPGA再度(忽略DMA之类细节),这样一样FPGA做serving一大优势line speed处理网络数据然后直接serving就没了
【 在 wflower (流) 的大作中提到: 】
: 未来大厂的服务器端很有可能上fpga的解决方案,其实intel在这方面已经布局有几
年了
: 小作坊估计gpu还是主流
: 其实无论是gpu还是cpu,算神经网络都是浪费。
nervana 还米有发布,到底要跳票到哪一天?http://www.computerworld.in/news/ces-2019-intel-ship-new-nervana-neural-network-processor-2019
你的分析是对的。但是现在神经网络计算时间,哪怕算上楼主magic convolution
的speedup,都远远要超过PCIe传数据的时间。去CPU转一圈应该没啥问题。
【 在 silverhawk (silverhawk) 的大作中提到: 】
: FPGA 方案有个问题是对上下游要求都很高,系统一旦没有搭建对的话可能会性能骤降
: 举个例子:有些FPGA就是直接在server上PCIE加FPGA,很直接正常,但是放在PROD环境
: ,数据从网卡来,然后CPU去处理了再给PCIE,FPGA再度(忽略DMA之类细节),这样一
: 样FPGA做serving一大优势line speed处理网络数据然后直接serving就没了
: 年了