看帖神器
未名空间
追帖动态
头条新闻
每日新帖
最新热帖
新闻存档
热帖存档
文学峸
虎扑论坛
未名空间
北美华人网
北美微论坛
看帖神器
登录
← 下载
《看帖神器》官方
iOS App
,体验轻松追帖。
神经网络和量子力学的关系
查看未名空间今日新帖
最新回复:2021年1月9日 23点32分 PT
共 (22) 楼
返回列表
订阅追帖
只看未读
更多选项
阅读全帖
只看图片
只看视频
查看原帖
w
wdong
4 年多
楼主 (未名空间)
量子力学基本数学原理:
1. 物理系统表示为可分希尔伯特空间H,状态为空间H中的复向量。
2. 可观察量标识为空间H上的厄密算子。
3. 对状态φ测量可观察量M的操作为:
φMφ*, *表示复向量共厄转置
再回过来看,神经网络也会把对象表达为n维线性空间中的嵌入,
但是神经网络的基本操作为一般为内积。我最近在研究实际商业
场景的时候发现,有些特性用多层内积是很难实现的。举一个
最简单的销量预测的例子:
关系:[门店,日期,销量]
这个例子最简单的模型是,门店有一个基础销量A, 日期有一个
浮动系数B。各个门店基础销量不同,但是都按相同的系数B浮动。
那么最后销量Y就是Y = AB。
但是如果把关系的特征表示为[A, B],用多层内积网络是难以拟合
函数Y=AB的。但是如果用量子力学的方法,则问题迎刃而解:
Y = 1/2 [A, B] [0 1] |A|
[1 0] |B|
也就是 M = 1/2 [0,1; 1,0]
如果进行扩展,A, B都可以是向量;M可以扩展为三维张量,
这样Y就是还是一个向量,上面可以再套同样的结构。这样
任意阶的Y都可以用这个结构拟合。
我昨天和同事讨论,很遗憾发现这个二次型结构其实已经
在self-attention等网络结构中被用过了,并没有novelty。
但是我觉得这个和量子力学的联系还是挺有意思的,所以
写出来分享给大家。在量子力学早期他们肯定也试过内积,
但是发现会出问题。用了二次型后,并不需要多层结构。
这个是不是意味着只要维度足够大,网络的层数其实是
可以减少的?
c
chebyshev
4 年多
2 楼
(1)
乘法拟合不出来,这个能看懂。
没看懂何以
Y = [A,B] M tranpose([A B])
就可以拟合了?
[A,B],M, tranpose([A,B]) 都当作feature?
(2)
一层的宽度神经网,对应于y=f1(x)+f2(x)+...fn(x)
多层的深度神经网,对应于g1(g2(..gn(x).)))
两者是数学等价的。总体来说,compose优于加法。
后者训练的时候,可以链式求导数。类似动态规划。
执行的时候,能节省乘法。类似于多项式求值。
另外,函数compose对应于多次坐标变换一个一个来。
加法其实没什么物理意义。
古代有过无限宽的多项式神经网络。最早的你看这个网页的图:
https://neuron.eng.wayne.edu/tarek/MITbook/chap2/2_3.html
这叫所谓的Kolmogorov learning algorithm。
(3)
乘法在闭区间上,点够多的话应该可以fitting。
因为正交函数,例如chebyshev在闭区间就可以fitting任意函数。
【 在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理:
: 1. 物理系统表示为可分希尔伯特空间H,状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为:
: φMφ*, *表示复向量共厄转置
: 再回过来看,神经网络也会把对象表达为n维线性空间中的嵌入,
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现,有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子:
: 关系:[门店,日期,销量]
: ...................
w
wdong
4 年多
3 楼
如果A是门店feature,B是日期feature,在极端简化的情况下,
A, B分别是一个数字。 M是单层神经网络的拟合系数。
下面这个直接用矩阵乘法得到
[A, B] x [0, 0.5; 0.5, 0] x [A, B]* = AB
实际训练的时候,M是模型参数,训练数据是[A, B, Y]。
典型的数据集在这个比赛中有
https://www.kaggle.com/c/rossmann-store-sales
【 在 chebyshev (......) 的大作中提到: 】
: (1)
: 乘法拟合不出来,这个能看懂。
: 没看懂何以
: Y = [A,B] M tranpose([A B])
: 就可以拟合了?
: [A,B],M, tranpose([A,B]) 都当作feature?
: (2)
: 一层的宽度神经网,对应于y=f1(x)+f2(x)+...fn(x)
: 多层的深度神经网,对应于g1(g2(..gn(x).)))
: 两者是数学等价的。总体来说,compose优于加法。
: ...................
c
chebyshev
4 年多
4 楼
[A B Y]拟合不出来,这个可以理解。(约定Y是label)
我的意思是不懂为何你说加了M,就能拟合?
(矩阵乘法那个我看明白了,老邢这个站总是差一列对不齐)
【 在 wdong (万事休) 的大作中提到: 】
: 如果A是门店feature,B是日期feature,在极端简化的情况下,
: A, B分别是一个数字。 M是单层神经网络的拟合系数。
: 下面这个直接用矩阵乘法得到
: [A, B] x [0, 0.5; 0.5, 0] x [A, B]* = AB
: 实际训练的时候,M是模型参数,训练数据是[A, B, Y]。
: 典型的数据集在这个比赛中有
: https://www.kaggle.com/c/rossmann-store-sales
c
chebyshev
4 年多
5 楼
哦,我明白了。
你的意思是,DL神经网络是w*x为基础的。
你改成x*w*x二次型。
M相当于权值。
这个有道理,可以试下。
【 在 chebyshev (......) 的大作中提到: 】
: [A B Y]拟合不出来,这个可以理解。(约定Y是label)
: 我的意思是不懂为何你说加了M,就能拟合?
: (矩阵乘法那个我看明白了,老邢这个站总是差一列对不齐)
w
wdong
4 年多
6 楼
我觉得量子力学那套东西还有很多可挖掘的。
什么特征值之类的,应该会有很大的用处。
前人其实是对这个世界进行了一个面向对象
的建模。
【 在 chebyshev (......) 的大作中提到: 】
: 哦,我明白了。
: 你的意思是,DL神经网络是w*x为基础的。
: 你改成x*w*x二次型。
: M相当于权值。
: 这个有道理,可以试下。
c
chebyshev
4 年多
7 楼
以前有过quadratic neural network,我google "quadratic neural network"看到有新结果。
"
Better performance is obtained by moving from piecewise linear connections
to piecewise quadratic, even better performance can be obtained by moving to higher order polynomials."
----https://arxiv.org/abs/1505.04211
【 在 chebyshev (......) 的大作中提到: 】
: 哦,我明白了。
: 你的意思是,DL神经网络是w*x为基础的。
: 你改成x*w*x二次型。
: M相当于权值。
: 这个有道理,可以试下。
c
chebyshev
4 年多
8 楼
是。而且都是看得见摸得着的。
例如气体加x热量,升高y度。
x和y的比率,到一定区间后,古典物理就fit不上了。必须用量子力学来fitting。
不过我怀疑ANN说不定也能fitting。就是不知道有没有普适性。
【 在 wdong (万事休) 的大作中提到: 】
: 我觉得量子力学那套东西还有很多可挖掘的。
: 什么特征值之类的,应该会有很大的用处。
: 前人其实是对这个世界进行了一个面向对象
: 的建模。
T
TeacherWei
4 年多
9 楼
这贴有意思,记下了。有空慢慢学习。
【 在 wdong(万事休) 的大作中提到: 】
: 我觉得量子力学那套东西还有很多可挖掘的。
: 什么特征值之类的,应该会有很大的用处。
: 前人其实是对这个世界进行了一个面向对象
: 的建模。
l
lightroom
4 年多
10 楼
深学搞tabulate data不合算。深学必须把data的prior写进网络里才有优势。vision, nlp是把整个domain的prior写进了网络,根本不是自己学features。tabulate data
要各各击破,太难了。
n
netghost
4 年多
11 楼
問題是quadratic programming除了convex的情況本來就是很困難的事情了,除了
modeling,計算上沒有優勢吧。
【 在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理:
: 1. 物理系统表示为可分希尔伯特空间H,状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为:
: φMφ*, *表示复向量共厄转置
: 再回过来看,神经网络也会把对象表达为n维线性空间中的嵌入,
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现,有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子:
: 关系:[门店,日期,销量]
: ...................
C
Caravel
4 年多
12 楼
不太明白为什么拟合不了,神经网络加上非线性激活函数,多层网络应该什么都可以拟合啊, 当然训练起来可能会难一点。
【 在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理:
: 1. 物理系统表示为可分希尔伯特空间H,状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为:
: φMφ*, *表示复向量共厄转置
: 再回过来看,神经网络也会把对象表达为n维线性空间中的嵌入,
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现,有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子:
: 关系:[门店,日期,销量]
: ...................
L
Liber8
4 年多
13 楼
数据不足 数据要是把输入空间都塞满了 当然可以拟合 不过也就不用神经网络了
【 在 Caravel (克拉维尔) 的大作中提到: 】
: 不太明白为什么拟合不了,神经网络加上非线性激活函数,多层网络应该什么都可以拟
: 合啊, 当然训练起来可能会难一点。
s
sanwadie
4 年多
14 楼
看标题以为又是那个佛/玄学家在借量子力学卖神秘主义。进来一看,原来这么硬核。
不明觉厉!赞一个。
【 在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理:
: 1. 物理系统表示为可分希尔伯特空间H,状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为:
: φMφ*, *表示复向量共厄转置
: 再回过来看,神经网络也会把对象表达为n维线性空间中的嵌入,
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现,有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子:
: 关系:[门店,日期,销量]
: ...................
w
wass
4 年多
15 楼
理论模型没有意义,DL就是多目标优化,最好的理论是拟线性逼近。
现在的DL都是拟线性逼近,但是那个模型没有帮大家找到更好的拟线性逼近算法。
p
pseudo
4 年多
16 楼
你的这种方法,也是一个把 AA, AB,BB 当做新的 feature 的线性模型啊。
当然这种方法可以通过增加每层的复杂度,来减少层数。
【 在 wdong (万事休) 的大作中提到: 】
: 如果A是门店feature,B是日期feature,在极端简化的情况下,
: A, B分别是一个数字。 M是单层神经网络的拟合系数。
: 下面这个直接用矩阵乘法得到
: [A, B] x [0, 0.5; 0.5, 0] x [A, B]* = AB
: 实际训练的时候,M是模型参数,训练数据是[A, B, Y]。
: 典型的数据集在这个比赛中有
: https://www.kaggle.com/c/rossmann-store-sales
l
liuliyang2
4 年多
17 楼
牛批
聚客软件:本公司长期销售餐饮软件,主营:餐厅点餐系统,点菜宝,平板点餐,手机点餐,扫码点餐,各行业收银机,打印机,耗材等,可完美适用中餐 西餐 日韩料理
自助餐 火锅店 奶茶店 串串店 烧烤店 咖啡店 汉堡店 面店等等!
本公司诚招各地软件代理。
TEL:0755-26631190
软件下载地址 https://www.gicater.net/index_en.html?lang=en
q
qed
4 年多
18 楼
没太看出来这跟量子力学有啥必然关系,
二次型经典力学刚体运动里也有
【 在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理:
: 1. 物理系统表示为可分希尔伯特空间H,状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为:
: φMφ*, *表示复向量共厄转置
: 再回过来看,神经网络也会把对象表达为n维线性空间中的嵌入,
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现,有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子:
: 关系:[门店,日期,销量]
: ...................
g
guvest
4 年多
19 楼
你这ID有20年没出现了吧?新年好。
他明说的只是2元的情况。2元安排成[0 x; -x 0]这样的形式从哈密顿力学就开始了。
但是多元多项式本质上是不同的。数学上简练的形式确实是张量。
我博士论文的一部分是开发一些多元多项式的符号化简,求微分,求积分的算法和程序。当时没好好整,这部分严重依赖Mathematica的能力。
等发现这个工具问题比我要借助此工具解决的问题更重要的时候,已经晚了。没可能找5年专门搞这件事了。
【 在 qed(小白兔终于熬成了大灰狼) 的大作中提到: 】
<br>: 没太看出来这跟量子力学有啥必然关系,
<br>: 二次型经典力学刚体运动里也有
<br>
l
lixilinx
4 年多
20 楼
定义先行(非杜撰):
一阶网络: nonlinearity(linear function)
高阶网络: nonlinearity(linear function) * nonlinearity(linear function) * ...
二次型当然归类为一阶网络,只是其feature是augmented,是kernel machine的一种特例;gated和有attention的网络是二阶的,只是早期人们不这么叫,也对这些没太大的研究兴趣,因为:
一阶的网络已经有full capacity了(相对正交基,一阶的网络已经over complete了),当然可表达任意的vector to vector mapping和sequence to sequence mapping。哪为什么又冒出这么多五花八门的网络?因为流行的大趋势就是over parameterization
,这个能让一阶优化方法的成功率高一点点,但其capacity与一阶网络是一样的。有人喜欢先大量的over parameterization,再做prune、量化、模型压缩等等;有人更愿意从简单的模型出发,如果模型优化难一点,就在优化上做点功夫。
over parameterization的极端就是SVM这类的kernel machine,一阶,一存,凸的,全局收敛。但我个人认为kernel machine没法解决curse of dim。有失有得。
q
qed
4 年多
21 楼
如果你说的是张量,这个跟量子力学的关系也不是必然的,
从纯数学的角度,最早的量子力学没有什么创新的地方,
矩阵,本征值,特征向量,厄米矩阵,酉变换等等数学上早就有了,
张量,直积这些东西群论的东西,
量子力学的初创者要么把线性代数里诸如矩阵及其乘法重新发明
了一下,要么把正确的数学工具引入进行了合理的应用...
要是量子力学的第三种表述路径积分对神经网络有所启发--
还别说,从一个起点经多层网络连接后到一个终点真和路径积分有点象,
折算量子启发了--因为路径积分迄今为止没有严格的数学定义.
这年月,干啥都要扯上量子的大旗?明明就是代数
【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 标 题: Re: 神经网络和量子力学的关系
: 发信站: BBS 未名空间站 (Sat Jan 9 12:35:25 2021, 美东)
:
: 你这ID有20年没出现了吧?新年好。
:
: 他明说的只是2元的情况。2元安排成[0 x; -x 0]这样的形式从哈密顿力学就开始了。
:
: 但是多元多项式本质上是不同的。数学上简练的形式确实是张量。
:
: 我博士论文的一部分是开发一些多元多项式的符号化简,求微分,求积分的算法和程序
: 。当时没好好整,这部分严重依赖Mathematica的能力。
:
: 等发现这个工具问题比我要借助此工具解决的问题更重要的时候,已经晚了。没可能找
: 5年专门搞这件事了。
:
:
:
: 【 在 qed(小白兔终于熬成了大灰狼) 的大作中提到: 】
: <br>: 没太看出来这跟量子力学有啥必然关系,
: <br>: 二次型经典力学刚体运动里也有
: <br>
:
:
: --
c
chebyshev
4 年多
22 楼
1.
QED就是摄动法----这条你觉得对不?
2.
Neural network也是摄动法。一层层神经网络,就是一次次小的坐标变换。
3.
高维空间,多元多项式展开坐标变换要计算的时候,安排running index的办法,
成系统的理论就是张量。
这三条看法,第一条把握不大。2,3可以部分实证。
【 在 qed (小白兔终于熬成了大灰狼) 的大作中提到: 】
: 如果你说的是张量,这个跟量子力学的关系也不是必然的,
: 从纯数学的角度,最早的量子力学没有什么创新的地方,
: 矩阵,本征值,特征向量,厄米矩阵,酉变换等等数学上早就有了,
: 张量,直积这些东西群论的东西,
: 量子力学的初创者要么把线性代数里诸如矩阵及其乘法重新发明
: 了一下,要么把正确的数学工具引入进行了合理的应用...
: 要是量子力学的第三种表述路径积分对神经网络有所启发--
: 还别说,从一个起点经多层网络连接后到一个终点真和路径积分有点象,
: 折算量子启发了--因为路径积分迄今为止没有严格的数学定义.
: 这年月,干啥都要扯上量子的大旗?明明就是代数
请输入帖子链接
收藏帖子
量子力学基本数学原理:
1. 物理系统表示为可分希尔伯特空间H,状态为空间H中的复向量。
2. 可观察量标识为空间H上的厄密算子。
3. 对状态φ测量可观察量M的操作为:
φMφ*, *表示复向量共厄转置
再回过来看,神经网络也会把对象表达为n维线性空间中的嵌入,
但是神经网络的基本操作为一般为内积。我最近在研究实际商业
场景的时候发现,有些特性用多层内积是很难实现的。举一个
最简单的销量预测的例子:
关系:[门店,日期,销量]
这个例子最简单的模型是,门店有一个基础销量A, 日期有一个
浮动系数B。各个门店基础销量不同,但是都按相同的系数B浮动。
那么最后销量Y就是Y = AB。
但是如果把关系的特征表示为[A, B],用多层内积网络是难以拟合
函数Y=AB的。但是如果用量子力学的方法,则问题迎刃而解:
Y = 1/2 [A, B] [0 1] |A|
[1 0] |B|
也就是 M = 1/2 [0,1; 1,0]
如果进行扩展,A, B都可以是向量;M可以扩展为三维张量,
这样Y就是还是一个向量,上面可以再套同样的结构。这样
任意阶的Y都可以用这个结构拟合。
我昨天和同事讨论,很遗憾发现这个二次型结构其实已经
在self-attention等网络结构中被用过了,并没有novelty。
但是我觉得这个和量子力学的联系还是挺有意思的,所以
写出来分享给大家。在量子力学早期他们肯定也试过内积,
但是发现会出问题。用了二次型后,并不需要多层结构。
这个是不是意味着只要维度足够大,网络的层数其实是
可以减少的?
(1)
乘法拟合不出来,这个能看懂。
没看懂何以
Y = [A,B] M tranpose([A B])
就可以拟合了?
[A,B],M, tranpose([A,B]) 都当作feature?
(2)
一层的宽度神经网,对应于y=f1(x)+f2(x)+...fn(x)
多层的深度神经网,对应于g1(g2(..gn(x).)))
两者是数学等价的。总体来说,compose优于加法。
后者训练的时候,可以链式求导数。类似动态规划。
执行的时候,能节省乘法。类似于多项式求值。
另外,函数compose对应于多次坐标变换一个一个来。
加法其实没什么物理意义。
古代有过无限宽的多项式神经网络。最早的你看这个网页的图:https://neuron.eng.wayne.edu/tarek/MITbook/chap2/2_3.html
这叫所谓的Kolmogorov learning algorithm。
(3)
乘法在闭区间上,点够多的话应该可以fitting。
因为正交函数,例如chebyshev在闭区间就可以fitting任意函数。
【 在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理:
: 1. 物理系统表示为可分希尔伯特空间H,状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为:
: φMφ*, *表示复向量共厄转置
: 再回过来看,神经网络也会把对象表达为n维线性空间中的嵌入,
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现,有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子:
: 关系:[门店,日期,销量]
: ...................
如果A是门店feature,B是日期feature,在极端简化的情况下,
A, B分别是一个数字。 M是单层神经网络的拟合系数。
下面这个直接用矩阵乘法得到
[A, B] x [0, 0.5; 0.5, 0] x [A, B]* = AB
实际训练的时候,M是模型参数,训练数据是[A, B, Y]。
典型的数据集在这个比赛中有https://www.kaggle.com/c/rossmann-store-sales
【 在 chebyshev (......) 的大作中提到: 】
: (1)
: 乘法拟合不出来,这个能看懂。
: 没看懂何以
: Y = [A,B] M tranpose([A B])
: 就可以拟合了?
: [A,B],M, tranpose([A,B]) 都当作feature?
: (2)
: 一层的宽度神经网,对应于y=f1(x)+f2(x)+...fn(x)
: 多层的深度神经网,对应于g1(g2(..gn(x).)))
: 两者是数学等价的。总体来说,compose优于加法。
: ...................
[A B Y]拟合不出来,这个可以理解。(约定Y是label)
我的意思是不懂为何你说加了M,就能拟合?
(矩阵乘法那个我看明白了,老邢这个站总是差一列对不齐)
【 在 wdong (万事休) 的大作中提到: 】
: 如果A是门店feature,B是日期feature,在极端简化的情况下,
: A, B分别是一个数字。 M是单层神经网络的拟合系数。
: 下面这个直接用矩阵乘法得到
: [A, B] x [0, 0.5; 0.5, 0] x [A, B]* = AB
: 实际训练的时候,M是模型参数,训练数据是[A, B, Y]。
: 典型的数据集在这个比赛中有
: https://www.kaggle.com/c/rossmann-store-sales
哦,我明白了。
你的意思是,DL神经网络是w*x为基础的。
你改成x*w*x二次型。
M相当于权值。
这个有道理,可以试下。
【 在 chebyshev (......) 的大作中提到: 】
: [A B Y]拟合不出来,这个可以理解。(约定Y是label)
: 我的意思是不懂为何你说加了M,就能拟合?
: (矩阵乘法那个我看明白了,老邢这个站总是差一列对不齐)
我觉得量子力学那套东西还有很多可挖掘的。
什么特征值之类的,应该会有很大的用处。
前人其实是对这个世界进行了一个面向对象
的建模。
【 在 chebyshev (......) 的大作中提到: 】
: 哦,我明白了。
: 你的意思是,DL神经网络是w*x为基础的。
: 你改成x*w*x二次型。
: M相当于权值。
: 这个有道理,可以试下。
以前有过quadratic neural network,我google "quadratic neural network"看到有新结果。
"
Better performance is obtained by moving from piecewise linear connections
to piecewise quadratic, even better performance can be obtained by moving to higher order polynomials."
----https://arxiv.org/abs/1505.04211
【 在 chebyshev (......) 的大作中提到: 】
: 哦,我明白了。
: 你的意思是,DL神经网络是w*x为基础的。
: 你改成x*w*x二次型。
: M相当于权值。
: 这个有道理,可以试下。
是。而且都是看得见摸得着的。
例如气体加x热量,升高y度。
x和y的比率,到一定区间后,古典物理就fit不上了。必须用量子力学来fitting。
不过我怀疑ANN说不定也能fitting。就是不知道有没有普适性。
【 在 wdong (万事休) 的大作中提到: 】
: 我觉得量子力学那套东西还有很多可挖掘的。
: 什么特征值之类的,应该会有很大的用处。
: 前人其实是对这个世界进行了一个面向对象
: 的建模。
这贴有意思,记下了。有空慢慢学习。
【 在 wdong(万事休) 的大作中提到: 】
: 我觉得量子力学那套东西还有很多可挖掘的。
: 什么特征值之类的,应该会有很大的用处。
: 前人其实是对这个世界进行了一个面向对象
: 的建模。
深学搞tabulate data不合算。深学必须把data的prior写进网络里才有优势。vision, nlp是把整个domain的prior写进了网络,根本不是自己学features。tabulate data
要各各击破,太难了。
問題是quadratic programming除了convex的情況本來就是很困難的事情了,除了
modeling,計算上沒有優勢吧。
【 在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理:
: 1. 物理系统表示为可分希尔伯特空间H,状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为:
: φMφ*, *表示复向量共厄转置
: 再回过来看,神经网络也会把对象表达为n维线性空间中的嵌入,
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现,有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子:
: 关系:[门店,日期,销量]
: ...................
不太明白为什么拟合不了,神经网络加上非线性激活函数,多层网络应该什么都可以拟合啊, 当然训练起来可能会难一点。
【 在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理:
: 1. 物理系统表示为可分希尔伯特空间H,状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为:
: φMφ*, *表示复向量共厄转置
: 再回过来看,神经网络也会把对象表达为n维线性空间中的嵌入,
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现,有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子:
: 关系:[门店,日期,销量]
: ...................
数据不足 数据要是把输入空间都塞满了 当然可以拟合 不过也就不用神经网络了
【 在 Caravel (克拉维尔) 的大作中提到: 】
: 不太明白为什么拟合不了,神经网络加上非线性激活函数,多层网络应该什么都可以拟
: 合啊, 当然训练起来可能会难一点。
看标题以为又是那个佛/玄学家在借量子力学卖神秘主义。进来一看,原来这么硬核。
不明觉厉!赞一个。
【 在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理:
: 1. 物理系统表示为可分希尔伯特空间H,状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为:
: φMφ*, *表示复向量共厄转置
: 再回过来看,神经网络也会把对象表达为n维线性空间中的嵌入,
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现,有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子:
: 关系:[门店,日期,销量]
: ...................
理论模型没有意义,DL就是多目标优化,最好的理论是拟线性逼近。
现在的DL都是拟线性逼近,但是那个模型没有帮大家找到更好的拟线性逼近算法。
你的这种方法,也是一个把 AA, AB,BB 当做新的 feature 的线性模型啊。
当然这种方法可以通过增加每层的复杂度,来减少层数。
【 在 wdong (万事休) 的大作中提到: 】
: 如果A是门店feature,B是日期feature,在极端简化的情况下,
: A, B分别是一个数字。 M是单层神经网络的拟合系数。
: 下面这个直接用矩阵乘法得到
: [A, B] x [0, 0.5; 0.5, 0] x [A, B]* = AB
: 实际训练的时候,M是模型参数,训练数据是[A, B, Y]。
: 典型的数据集在这个比赛中有
: https://www.kaggle.com/c/rossmann-store-sales
牛批
聚客软件:本公司长期销售餐饮软件,主营:餐厅点餐系统,点菜宝,平板点餐,手机点餐,扫码点餐,各行业收银机,打印机,耗材等,可完美适用中餐 西餐 日韩料理
自助餐 火锅店 奶茶店 串串店 烧烤店 咖啡店 汉堡店 面店等等!
本公司诚招各地软件代理。
TEL:0755-26631190
软件下载地址 https://www.gicater.net/index_en.html?lang=en
没太看出来这跟量子力学有啥必然关系,
二次型经典力学刚体运动里也有
【 在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理:
: 1. 物理系统表示为可分希尔伯特空间H,状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为:
: φMφ*, *表示复向量共厄转置
: 再回过来看,神经网络也会把对象表达为n维线性空间中的嵌入,
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现,有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子:
: 关系:[门店,日期,销量]
: ...................
你这ID有20年没出现了吧?新年好。
他明说的只是2元的情况。2元安排成[0 x; -x 0]这样的形式从哈密顿力学就开始了。
但是多元多项式本质上是不同的。数学上简练的形式确实是张量。
我博士论文的一部分是开发一些多元多项式的符号化简,求微分,求积分的算法和程序。当时没好好整,这部分严重依赖Mathematica的能力。
等发现这个工具问题比我要借助此工具解决的问题更重要的时候,已经晚了。没可能找5年专门搞这件事了。
【 在 qed(小白兔终于熬成了大灰狼) 的大作中提到: 】
<br>: 没太看出来这跟量子力学有啥必然关系,
<br>: 二次型经典力学刚体运动里也有
<br>
定义先行(非杜撰):
一阶网络: nonlinearity(linear function)
高阶网络: nonlinearity(linear function) * nonlinearity(linear function) * ...
二次型当然归类为一阶网络,只是其feature是augmented,是kernel machine的一种特例;gated和有attention的网络是二阶的,只是早期人们不这么叫,也对这些没太大的研究兴趣,因为:
一阶的网络已经有full capacity了(相对正交基,一阶的网络已经over complete了),当然可表达任意的vector to vector mapping和sequence to sequence mapping。哪为什么又冒出这么多五花八门的网络?因为流行的大趋势就是over parameterization
,这个能让一阶优化方法的成功率高一点点,但其capacity与一阶网络是一样的。有人喜欢先大量的over parameterization,再做prune、量化、模型压缩等等;有人更愿意从简单的模型出发,如果模型优化难一点,就在优化上做点功夫。
over parameterization的极端就是SVM这类的kernel machine,一阶,一存,凸的,全局收敛。但我个人认为kernel machine没法解决curse of dim。有失有得。
如果你说的是张量,这个跟量子力学的关系也不是必然的,
从纯数学的角度,最早的量子力学没有什么创新的地方,
矩阵,本征值,特征向量,厄米矩阵,酉变换等等数学上早就有了,
张量,直积这些东西群论的东西,
量子力学的初创者要么把线性代数里诸如矩阵及其乘法重新发明
了一下,要么把正确的数学工具引入进行了合理的应用...
要是量子力学的第三种表述路径积分对神经网络有所启发--
还别说,从一个起点经多层网络连接后到一个终点真和路径积分有点象,
折算量子启发了--因为路径积分迄今为止没有严格的数学定义.
这年月,干啥都要扯上量子的大旗?明明就是代数
【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 标 题: Re: 神经网络和量子力学的关系
: 发信站: BBS 未名空间站 (Sat Jan 9 12:35:25 2021, 美东)
:
: 你这ID有20年没出现了吧?新年好。
:
: 他明说的只是2元的情况。2元安排成[0 x; -x 0]这样的形式从哈密顿力学就开始了。
:
: 但是多元多项式本质上是不同的。数学上简练的形式确实是张量。
:
: 我博士论文的一部分是开发一些多元多项式的符号化简,求微分,求积分的算法和程序
: 。当时没好好整,这部分严重依赖Mathematica的能力。
:
: 等发现这个工具问题比我要借助此工具解决的问题更重要的时候,已经晚了。没可能找
: 5年专门搞这件事了。
:
:
:
: 【 在 qed(小白兔终于熬成了大灰狼) 的大作中提到: 】
: <br>: 没太看出来这跟量子力学有啥必然关系,
: <br>: 二次型经典力学刚体运动里也有
: <br>
:
:
: --
1.
QED就是摄动法----这条你觉得对不?
2.
Neural network也是摄动法。一层层神经网络,就是一次次小的坐标变换。
3.
高维空间,多元多项式展开坐标变换要计算的时候,安排running index的办法,
成系统的理论就是张量。
这三条看法,第一条把握不大。2,3可以部分实证。
【 在 qed (小白兔终于熬成了大灰狼) 的大作中提到: 】
: 如果你说的是张量,这个跟量子力学的关系也不是必然的,
: 从纯数学的角度,最早的量子力学没有什么创新的地方,
: 矩阵,本征值,特征向量,厄米矩阵,酉变换等等数学上早就有了,
: 张量,直积这些东西群论的东西,
: 量子力学的初创者要么把线性代数里诸如矩阵及其乘法重新发明
: 了一下,要么把正确的数学工具引入进行了合理的应用...
: 要是量子力学的第三种表述路径积分对神经网络有所启发--
: 还别说,从一个起点经多层网络连接后到一个终点真和路径积分有点象,
: 折算量子启发了--因为路径积分迄今为止没有严格的数学定义.
: 这年月,干啥都要扯上量子的大旗?明明就是代数