神经网络和量子力学的关系

w
wdong
楼主 (未名空间)

量子力学基本数学原理:

1. 物理系统表示为可分希尔伯特空间H,状态为空间H中的复向量。
2. 可观察量标识为空间H上的厄密算子。
3. 对状态φ测量可观察量M的操作为:

φMφ*, *表示复向量共厄转置

再回过来看,神经网络也会把对象表达为n维线性空间中的嵌入,
但是神经网络的基本操作为一般为内积。我最近在研究实际商业
场景的时候发现,有些特性用多层内积是很难实现的。举一个
最简单的销量预测的例子:

关系:[门店,日期,销量]

这个例子最简单的模型是,门店有一个基础销量A, 日期有一个
浮动系数B。各个门店基础销量不同,但是都按相同的系数B浮动。
那么最后销量Y就是Y = AB。

但是如果把关系的特征表示为[A, B],用多层内积网络是难以拟合
函数Y=AB的。但是如果用量子力学的方法,则问题迎刃而解:

Y = 1/2 [A, B] [0 1] |A|
[1 0] |B|

也就是 M = 1/2 [0,1; 1,0]

如果进行扩展,A, B都可以是向量;M可以扩展为三维张量,
这样Y就是还是一个向量,上面可以再套同样的结构。这样
任意阶的Y都可以用这个结构拟合。

我昨天和同事讨论,很遗憾发现这个二次型结构其实已经
在self-attention等网络结构中被用过了,并没有novelty。
但是我觉得这个和量子力学的联系还是挺有意思的,所以
写出来分享给大家。在量子力学早期他们肯定也试过内积,
但是发现会出问题。用了二次型后,并不需要多层结构。
这个是不是意味着只要维度足够大,网络的层数其实是
可以减少的?

c
chebyshev

(1)

乘法拟合不出来,这个能看懂。

没看懂何以

Y = [A,B] M tranpose([A B])
就可以拟合了?

[A,B],M, tranpose([A,B]) 都当作feature?

(2)
一层的宽度神经网,对应于y=f1(x)+f2(x)+...fn(x)
多层的深度神经网,对应于g1(g2(..gn(x).)))

两者是数学等价的。总体来说,compose优于加法。
后者训练的时候,可以链式求导数。类似动态规划。
执行的时候,能节省乘法。类似于多项式求值。

另外,函数compose对应于多次坐标变换一个一个来。
加法其实没什么物理意义。

古代有过无限宽的多项式神经网络。最早的你看这个网页的图:https://neuron.eng.wayne.edu/tarek/MITbook/chap2/2_3.html

这叫所谓的Kolmogorov learning algorithm。

(3)
乘法在闭区间上,点够多的话应该可以fitting。
因为正交函数,例如chebyshev在闭区间就可以fitting任意函数。

【 在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理:
: 1. 物理系统表示为可分希尔伯特空间H,状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为:
: φMφ*, *表示复向量共厄转置
: 再回过来看,神经网络也会把对象表达为n维线性空间中的嵌入,
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现,有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子:
: 关系:[门店,日期,销量]
: ...................

w
wdong

如果A是门店feature,B是日期feature,在极端简化的情况下,
A, B分别是一个数字。 M是单层神经网络的拟合系数。

下面这个直接用矩阵乘法得到

[A, B] x [0, 0.5; 0.5, 0] x [A, B]* = AB

实际训练的时候,M是模型参数,训练数据是[A, B, Y]。

典型的数据集在这个比赛中有https://www.kaggle.com/c/rossmann-store-sales

【 在 chebyshev (......) 的大作中提到: 】
: (1)
: 乘法拟合不出来,这个能看懂。
: 没看懂何以
: Y = [A,B] M tranpose([A B])
: 就可以拟合了?
: [A,B],M, tranpose([A,B]) 都当作feature?
: (2)
: 一层的宽度神经网,对应于y=f1(x)+f2(x)+...fn(x)
: 多层的深度神经网,对应于g1(g2(..gn(x).)))
: 两者是数学等价的。总体来说,compose优于加法。
: ...................

c
chebyshev

[A B Y]拟合不出来,这个可以理解。(约定Y是label)
我的意思是不懂为何你说加了M,就能拟合?
(矩阵乘法那个我看明白了,老邢这个站总是差一列对不齐)
【 在 wdong (万事休) 的大作中提到: 】
: 如果A是门店feature,B是日期feature,在极端简化的情况下,
: A, B分别是一个数字。 M是单层神经网络的拟合系数。
: 下面这个直接用矩阵乘法得到
: [A, B] x [0, 0.5; 0.5, 0] x [A, B]* = AB
: 实际训练的时候,M是模型参数,训练数据是[A, B, Y]。
: 典型的数据集在这个比赛中有
: https://www.kaggle.com/c/rossmann-store-sales

c
chebyshev

哦,我明白了。

你的意思是,DL神经网络是w*x为基础的。
你改成x*w*x二次型。
M相当于权值。

这个有道理,可以试下。
【 在 chebyshev (......) 的大作中提到: 】
: [A B Y]拟合不出来,这个可以理解。(约定Y是label)
: 我的意思是不懂为何你说加了M,就能拟合?
: (矩阵乘法那个我看明白了,老邢这个站总是差一列对不齐)

w
wdong

我觉得量子力学那套东西还有很多可挖掘的。
什么特征值之类的,应该会有很大的用处。
前人其实是对这个世界进行了一个面向对象
的建模。

【 在 chebyshev (......) 的大作中提到: 】
: 哦,我明白了。
: 你的意思是,DL神经网络是w*x为基础的。
: 你改成x*w*x二次型。
: M相当于权值。
: 这个有道理,可以试下。

c
chebyshev

以前有过quadratic neural network,我google "quadratic neural network"看到有新结果。

"
Better performance is obtained by moving from piecewise linear connections
to piecewise quadratic, even better performance can be obtained by moving to higher order polynomials."
----https://arxiv.org/abs/1505.04211

【 在 chebyshev (......) 的大作中提到: 】
: 哦,我明白了。
: 你的意思是,DL神经网络是w*x为基础的。
: 你改成x*w*x二次型。
: M相当于权值。
: 这个有道理,可以试下。

c
chebyshev

是。而且都是看得见摸得着的。
例如气体加x热量,升高y度。
x和y的比率,到一定区间后,古典物理就fit不上了。必须用量子力学来fitting。

不过我怀疑ANN说不定也能fitting。就是不知道有没有普适性。
【 在 wdong (万事休) 的大作中提到: 】
: 我觉得量子力学那套东西还有很多可挖掘的。
: 什么特征值之类的,应该会有很大的用处。
: 前人其实是对这个世界进行了一个面向对象
: 的建模。

T
TeacherWei

这贴有意思,记下了。有空慢慢学习。

【 在 wdong(万事休) 的大作中提到: 】

: 我觉得量子力学那套东西还有很多可挖掘的。

: 什么特征值之类的,应该会有很大的用处。

: 前人其实是对这个世界进行了一个面向对象

: 的建模。

l
lightroom

深学搞tabulate data不合算。深学必须把data的prior写进网络里才有优势。vision, nlp是把整个domain的prior写进了网络,根本不是自己学features。tabulate data
要各各击破,太难了。

n
netghost

問題是quadratic programming除了convex的情況本來就是很困難的事情了,除了
modeling,計算上沒有優勢吧。

【 在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理:
: 1. 物理系统表示为可分希尔伯特空间H,状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为:
: φMφ*, *表示复向量共厄转置
: 再回过来看,神经网络也会把对象表达为n维线性空间中的嵌入,
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现,有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子:
: 关系:[门店,日期,销量]
: ...................

C
Caravel

不太明白为什么拟合不了,神经网络加上非线性激活函数,多层网络应该什么都可以拟合啊, 当然训练起来可能会难一点。

【 在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理:
: 1. 物理系统表示为可分希尔伯特空间H,状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为:
: φMφ*, *表示复向量共厄转置
: 再回过来看,神经网络也会把对象表达为n维线性空间中的嵌入,
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现,有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子:
: 关系:[门店,日期,销量]
: ...................

L
Liber8

数据不足 数据要是把输入空间都塞满了 当然可以拟合 不过也就不用神经网络了
【 在 Caravel (克拉维尔) 的大作中提到: 】
: 不太明白为什么拟合不了,神经网络加上非线性激活函数,多层网络应该什么都可以拟
: 合啊, 当然训练起来可能会难一点。

s
sanwadie


看标题以为又是那个佛/玄学家在借量子力学卖神秘主义。进来一看,原来这么硬核。
不明觉厉!赞一个。

【 在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理:
: 1. 物理系统表示为可分希尔伯特空间H,状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为:
: φMφ*, *表示复向量共厄转置
: 再回过来看,神经网络也会把对象表达为n维线性空间中的嵌入,
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现,有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子:
: 关系:[门店,日期,销量]
: ...................

w
wass

理论模型没有意义,DL就是多目标优化,最好的理论是拟线性逼近。

现在的DL都是拟线性逼近,但是那个模型没有帮大家找到更好的拟线性逼近算法。

p
pseudo

你的这种方法,也是一个把 AA, AB,BB 当做新的 feature 的线性模型啊。

当然这种方法可以通过增加每层的复杂度,来减少层数。

【 在 wdong (万事休) 的大作中提到: 】
: 如果A是门店feature,B是日期feature,在极端简化的情况下,
: A, B分别是一个数字。 M是单层神经网络的拟合系数。
: 下面这个直接用矩阵乘法得到
: [A, B] x [0, 0.5; 0.5, 0] x [A, B]* = AB
: 实际训练的时候,M是模型参数,训练数据是[A, B, Y]。
: 典型的数据集在这个比赛中有
: https://www.kaggle.com/c/rossmann-store-sales

l
liuliyang2

牛批

聚客软件:本公司长期销售餐饮软件,主营:餐厅点餐系统,点菜宝,平板点餐,手机点餐,扫码点餐,各行业收银机,打印机,耗材等,可完美适用中餐 西餐 日韩料理
自助餐 火锅店 奶茶店 串串店 烧烤店 咖啡店 汉堡店 面店等等!
本公司诚招各地软件代理。
TEL:0755-26631190

软件下载地址 https://www.gicater.net/index_en.html?lang=en
q
qed

没太看出来这跟量子力学有啥必然关系,

二次型经典力学刚体运动里也有

【 在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理:
: 1. 物理系统表示为可分希尔伯特空间H,状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为:
: φMφ*, *表示复向量共厄转置
: 再回过来看,神经网络也会把对象表达为n维线性空间中的嵌入,
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现,有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子:
: 关系:[门店,日期,销量]
: ...................

g
guvest

你这ID有20年没出现了吧?新年好。

他明说的只是2元的情况。2元安排成[0 x; -x 0]这样的形式从哈密顿力学就开始了。

但是多元多项式本质上是不同的。数学上简练的形式确实是张量。

我博士论文的一部分是开发一些多元多项式的符号化简,求微分,求积分的算法和程序。当时没好好整,这部分严重依赖Mathematica的能力。

等发现这个工具问题比我要借助此工具解决的问题更重要的时候,已经晚了。没可能找5年专门搞这件事了。

【 在 qed(小白兔终于熬成了大灰狼) 的大作中提到: 】
<br>: 没太看出来这跟量子力学有啥必然关系,
<br>: 二次型经典力学刚体运动里也有
<br>

l
lixilinx

定义先行(非杜撰):
一阶网络: nonlinearity(linear function)
高阶网络: nonlinearity(linear function) * nonlinearity(linear function) * ...
二次型当然归类为一阶网络,只是其feature是augmented,是kernel machine的一种特例;gated和有attention的网络是二阶的,只是早期人们不这么叫,也对这些没太大的研究兴趣,因为:

一阶的网络已经有full capacity了(相对正交基,一阶的网络已经over complete了),当然可表达任意的vector to vector mapping和sequence to sequence mapping。哪为什么又冒出这么多五花八门的网络?因为流行的大趋势就是over parameterization
,这个能让一阶优化方法的成功率高一点点,但其capacity与一阶网络是一样的。有人喜欢先大量的over parameterization,再做prune、量化、模型压缩等等;有人更愿意从简单的模型出发,如果模型优化难一点,就在优化上做点功夫。

over parameterization的极端就是SVM这类的kernel machine,一阶,一存,凸的,全局收敛。但我个人认为kernel machine没法解决curse of dim。有失有得。
q
qed

如果你说的是张量,这个跟量子力学的关系也不是必然的,

从纯数学的角度,最早的量子力学没有什么创新的地方,

矩阵,本征值,特征向量,厄米矩阵,酉变换等等数学上早就有了,

张量,直积这些东西群论的东西,

量子力学的初创者要么把线性代数里诸如矩阵及其乘法重新发明

了一下,要么把正确的数学工具引入进行了合理的应用...

要是量子力学的第三种表述路径积分对神经网络有所启发--

还别说,从一个起点经多层网络连接后到一个终点真和路径积分有点象,

折算量子启发了--因为路径积分迄今为止没有严格的数学定义.

这年月,干啥都要扯上量子的大旗?明明就是代数

【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 标 题: Re: 神经网络和量子力学的关系
: 发信站: BBS 未名空间站 (Sat Jan 9 12:35:25 2021, 美东)
:
: 你这ID有20年没出现了吧?新年好。
:
: 他明说的只是2元的情况。2元安排成[0 x; -x 0]这样的形式从哈密顿力学就开始了。
:
: 但是多元多项式本质上是不同的。数学上简练的形式确实是张量。
:
: 我博士论文的一部分是开发一些多元多项式的符号化简,求微分,求积分的算法和程序
: 。当时没好好整,这部分严重依赖Mathematica的能力。
:
: 等发现这个工具问题比我要借助此工具解决的问题更重要的时候,已经晚了。没可能找
: 5年专门搞这件事了。
:
:
:
: 【 在 qed(小白兔终于熬成了大灰狼) 的大作中提到: 】
: <br>: 没太看出来这跟量子力学有啥必然关系,
: <br>: 二次型经典力学刚体运动里也有
: <br>
:
:
: --
c
chebyshev

1.
QED就是摄动法----这条你觉得对不?
2.
Neural network也是摄动法。一层层神经网络,就是一次次小的坐标变换。

3.
高维空间,多元多项式展开坐标变换要计算的时候,安排running index的办法,
成系统的理论就是张量。

这三条看法,第一条把握不大。2,3可以部分实证。

【 在 qed (小白兔终于熬成了大灰狼) 的大作中提到: 】
: 如果你说的是张量,这个跟量子力学的关系也不是必然的,
: 从纯数学的角度,最早的量子力学没有什么创新的地方,
: 矩阵,本征值,特征向量,厄米矩阵,酉变换等等数学上早就有了,
: 张量,直积这些东西群论的东西,
: 量子力学的初创者要么把线性代数里诸如矩阵及其乘法重新发明
: 了一下,要么把正确的数学工具引入进行了合理的应用...
: 要是量子力学的第三种表述路径积分对神经网络有所启发--
: 还别说,从一个起点经多层网络连接后到一个终点真和路径积分有点象,
: 折算量子启发了--因为路径积分迄今为止没有严格的数学定义.
: 这年月,干啥都要扯上量子的大旗?明明就是代数