神经网络和量子力学的关系

4 年多

楼主 (未名空间)

量子力学基本数学原理：

1. 物理系统表示为可分希尔伯特空间H，状态为空间H中的复向量。
2. 可观察量标识为空间H上的厄密算子。
3. 对状态φ测量可观察量M的操作为：

φMφ*， *表示复向量共厄转置

再回过来看，神经网络也会把对象表达为n维线性空间中的嵌入，
但是神经网络的基本操作为一般为内积。我最近在研究实际商业
场景的时候发现，有些特性用多层内积是很难实现的。举一个
最简单的销量预测的例子：

关系：[门店，日期，销量]

这个例子最简单的模型是，门店有一个基础销量A, 日期有一个
浮动系数B。各个门店基础销量不同，但是都按相同的系数B浮动。
那么最后销量Y就是Y = AB。

但是如果把关系的特征表示为[A, B]，用多层内积网络是难以拟合
函数Y=AB的。但是如果用量子力学的方法，则问题迎刃而解：

Y = 1/2 [A, B] [0 1] |A|
[1 0] |B|

也就是 M = 1/2 [0,1; 1,0]

如果进行扩展，A, B都可以是向量；M可以扩展为三维张量，
这样Y就是还是一个向量，上面可以再套同样的结构。这样
任意阶的Y都可以用这个结构拟合。

我昨天和同事讨论，很遗憾发现这个二次型结构其实已经
在self-attention等网络结构中被用过了，并没有novelty。
但是我觉得这个和量子力学的联系还是挺有意思的，所以
写出来分享给大家。在量子力学早期他们肯定也试过内积，
但是发现会出问题。用了二次型后，并不需要多层结构。
这个是不是意味着只要维度足够大，网络的层数其实是
可以减少的？

chebyshev

4 年多

(1)

乘法拟合不出来，这个能看懂。

没看懂何以

Y = [A,B] M tranpose([A B])
就可以拟合了?

[A,B],M, tranpose([A,B]) 都当作feature?

(2)
一层的宽度神经网，对应于y=f1(x)+f2(x)+...fn(x)
多层的深度神经网，对应于g1(g2(..gn(x).)))

两者是数学等价的。总体来说，compose优于加法。
后者训练的时候，可以链式求导数。类似动态规划。
执行的时候，能节省乘法。类似于多项式求值。

另外，函数compose对应于多次坐标变换一个一个来。
加法其实没什么物理意义。

古代有过无限宽的多项式神经网络。最早的你看这个网页的图：https://neuron.eng.wayne.edu/tarek/MITbook/chap2/2_3.html

这叫所谓的Kolmogorov learning algorithm。

（3）
乘法在闭区间上，点够多的话应该可以fitting。
因为正交函数，例如chebyshev在闭区间就可以fitting任意函数。

【在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理：
: 1. 物理系统表示为可分希尔伯特空间H，状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为：
: φMφ*， *表示复向量共厄转置
: 再回过来看，神经网络也会把对象表达为n维线性空间中的嵌入，
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现，有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子：
: 关系：[门店，日期，销量]
: ...................

wdong

4 年多

如果A是门店feature，B是日期feature，在极端简化的情况下，
A, B分别是一个数字。 M是单层神经网络的拟合系数。

下面这个直接用矩阵乘法得到

[A, B] x [0, 0.5; 0.5, 0] x [A, B]* = AB

实际训练的时候，M是模型参数，训练数据是[A, B, Y]。

典型的数据集在这个比赛中有https://www.kaggle.com/c/rossmann-store-sales

【在 chebyshev (......) 的大作中提到: 】
: (1)
: 乘法拟合不出来，这个能看懂。
: 没看懂何以
: Y = [A,B] M tranpose([A B])
: 就可以拟合了?
: [A,B],M, tranpose([A,B]) 都当作feature?
: (2)
: 一层的宽度神经网，对应于y=f1(x)+f2(x)+...fn(x)
: 多层的深度神经网，对应于g1(g2(..gn(x).)))
: 两者是数学等价的。总体来说，compose优于加法。
: ...................

chebyshev

4 年多

[A B Y]拟合不出来，这个可以理解。(约定Y是label)
我的意思是不懂为何你说加了M,就能拟合？
（矩阵乘法那个我看明白了，老邢这个站总是差一列对不齐）
【在 wdong (万事休) 的大作中提到: 】
: 如果A是门店feature，B是日期feature，在极端简化的情况下，
: A, B分别是一个数字。 M是单层神经网络的拟合系数。
: 下面这个直接用矩阵乘法得到
: [A, B] x [0, 0.5; 0.5, 0] x [A, B]* = AB
: 实际训练的时候，M是模型参数，训练数据是[A, B, Y]。
: 典型的数据集在这个比赛中有
: https://www.kaggle.com/c/rossmann-store-sales

chebyshev

4 年多

哦，我明白了。

你的意思是，DL神经网络是w*x为基础的。
你改成x*w*x二次型。
M相当于权值。

这个有道理，可以试下。
【在 chebyshev (......) 的大作中提到: 】
: [A B Y]拟合不出来，这个可以理解。(约定Y是label)
: 我的意思是不懂为何你说加了M,就能拟合？
: （矩阵乘法那个我看明白了，老邢这个站总是差一列对不齐）

wdong

4 年多

我觉得量子力学那套东西还有很多可挖掘的。
什么特征值之类的，应该会有很大的用处。
前人其实是对这个世界进行了一个面向对象
的建模。

【在 chebyshev (......) 的大作中提到: 】
: 哦，我明白了。
: 你的意思是，DL神经网络是w*x为基础的。
: 你改成x*w*x二次型。
: M相当于权值。
: 这个有道理，可以试下。

chebyshev

4 年多

以前有过quadratic neural network,我google "quadratic neural network"看到有新结果。

"
Better performance is obtained by moving from piecewise linear connections
to piecewise quadratic, even better performance can be obtained by moving to higher order polynomials."
----https://arxiv.org/abs/1505.04211

【在 chebyshev (......) 的大作中提到: 】
: 哦，我明白了。
: 你的意思是，DL神经网络是w*x为基础的。
: 你改成x*w*x二次型。
: M相当于权值。
: 这个有道理，可以试下。

chebyshev

4 年多

是。而且都是看得见摸得着的。
例如气体加x热量，升高y度。
x和y的比率，到一定区间后，古典物理就fit不上了。必须用量子力学来fitting。

不过我怀疑ANN说不定也能fitting。就是不知道有没有普适性。
【在 wdong (万事休) 的大作中提到: 】
: 我觉得量子力学那套东西还有很多可挖掘的。
: 什么特征值之类的，应该会有很大的用处。
: 前人其实是对这个世界进行了一个面向对象
: 的建模。

TeacherWei

4 年多

这贴有意思，记下了。有空慢慢学习。

【在 wdong(万事休) 的大作中提到: 】

: 我觉得量子力学那套东西还有很多可挖掘的。

: 什么特征值之类的，应该会有很大的用处。

: 前人其实是对这个世界进行了一个面向对象

: 的建模。

lightroom

4 年多

深学搞tabulate data不合算。深学必须把data的prior写进网络里才有优势。vision, nlp是把整个domain的prior写进了网络，根本不是自己学features。tabulate data
要各各击破，太难了。

netghost

4 年多

問題是quadratic programming除了convex的情況本來就是很困難的事情了，除了
modeling，計算上沒有優勢吧。

【在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理：
: 1. 物理系统表示为可分希尔伯特空间H，状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为：
: φMφ*， *表示复向量共厄转置
: 再回过来看，神经网络也会把对象表达为n维线性空间中的嵌入，
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现，有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子：
: 关系：[门店，日期，销量]
: ...................

Caravel

4 年多

不太明白为什么拟合不了，神经网络加上非线性激活函数，多层网络应该什么都可以拟合啊，当然训练起来可能会难一点。

【在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理：
: 1. 物理系统表示为可分希尔伯特空间H，状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为：
: φMφ*， *表示复向量共厄转置
: 再回过来看，神经网络也会把对象表达为n维线性空间中的嵌入，
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现，有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子：
: 关系：[门店，日期，销量]
: ...................

Liber8

4 年多

数据不足数据要是把输入空间都塞满了当然可以拟合不过也就不用神经网络了
【在 Caravel (克拉维尔) 的大作中提到: 】
: 不太明白为什么拟合不了，神经网络加上非线性激活函数，多层网络应该什么都可以拟
: 合啊，当然训练起来可能会难一点。

sanwadie

4 年多

看标题以为又是那个佛/玄学家在借量子力学卖神秘主义。进来一看，原来这么硬核。
不明觉厉！赞一个。

【在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理：
: 1. 物理系统表示为可分希尔伯特空间H，状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为：
: φMφ*， *表示复向量共厄转置
: 再回过来看，神经网络也会把对象表达为n维线性空间中的嵌入，
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现，有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子：
: 关系：[门店，日期，销量]
: ...................

wass

4 年多

理论模型没有意义，DL就是多目标优化，最好的理论是拟线性逼近。

现在的DL都是拟线性逼近，但是那个模型没有帮大家找到更好的拟线性逼近算法。

pseudo

4 年多

你的这种方法，也是一个把 AA, AB，BB 当做新的 feature 的线性模型啊。

当然这种方法可以通过增加每层的复杂度，来减少层数。

【在 wdong (万事休) 的大作中提到: 】
: 如果A是门店feature，B是日期feature，在极端简化的情况下，
: A, B分别是一个数字。 M是单层神经网络的拟合系数。
: 下面这个直接用矩阵乘法得到
: [A, B] x [0, 0.5; 0.5, 0] x [A, B]* = AB
: 实际训练的时候，M是模型参数，训练数据是[A, B, Y]。
: 典型的数据集在这个比赛中有
: https://www.kaggle.com/c/rossmann-store-sales

liuliyang2

4 年多

牛批

聚客软件：本公司长期销售餐饮软件，主营：餐厅点餐系统，点菜宝，平板点餐，手机点餐，扫码点餐，各行业收银机，打印机，耗材等，可完美适用中餐西餐日韩料理
自助餐火锅店奶茶店串串店烧烤店咖啡店汉堡店面店等等！
本公司诚招各地软件代理。
TEL：0755-26631190

软件下载地址 https://www.gicater.net/index_en.html?lang=en

qed

4 年多

没太看出来这跟量子力学有啥必然关系,

二次型经典力学刚体运动里也有

【在 wdong (万事休) 的大作中提到: 】
: 量子力学基本数学原理：
: 1. 物理系统表示为可分希尔伯特空间H，状态为空间H中的复向量。
: 2. 可观察量标识为空间H上的厄密算子。
: 3. 对状态φ测量可观察量M的操作为：
: φMφ*， *表示复向量共厄转置
: 再回过来看，神经网络也会把对象表达为n维线性空间中的嵌入，
: 但是神经网络的基本操作为一般为内积。我最近在研究实际商业
: 场景的时候发现，有些特性用多层内积是很难实现的。举一个
: 最简单的销量预测的例子：
: 关系：[门店，日期，销量]
: ...................

guvest

4 年多

你这ID有20年没出现了吧？新年好。

他明说的只是2元的情况。2元安排成[0 x; -x 0]这样的形式从哈密顿力学就开始了。

但是多元多项式本质上是不同的。数学上简练的形式确实是张量。

我博士论文的一部分是开发一些多元多项式的符号化简，求微分，求积分的算法和程序。当时没好好整，这部分严重依赖Mathematica的能力。

等发现这个工具问题比我要借助此工具解决的问题更重要的时候，已经晚了。没可能找5年专门搞这件事了。

【在 qed(小白兔终于熬成了大灰狼) 的大作中提到: 】
 : 没太看出来这跟量子力学有啥必然关系,
 : 二次型经典力学刚体运动里也有

lixilinx

4 年多

定义先行（非杜撰）：
一阶网络： nonlinearity(linear function)
高阶网络： nonlinearity(linear function) * nonlinearity(linear function) * ...
二次型当然归类为一阶网络，只是其feature是augmented，是kernel machine的一种特例；gated和有attention的网络是二阶的，只是早期人们不这么叫，也对这些没太大的研究兴趣，因为：

一阶的网络已经有full capacity了（相对正交基，一阶的网络已经over complete了），当然可表达任意的vector to vector mapping和sequence to sequence mapping。哪为什么又冒出这么多五花八门的网络？因为流行的大趋势就是over parameterization
，这个能让一阶优化方法的成功率高一点点，但其capacity与一阶网络是一样的。有人喜欢先大量的over parameterization，再做prune、量化、模型压缩等等；有人更愿意从简单的模型出发，如果模型优化难一点，就在优化上做点功夫。

over parameterization的极端就是SVM这类的kernel machine，一阶，一存，凸的，全局收敛。但我个人认为kernel machine没法解决curse of dim。有失有得。

qed

4 年多

如果你说的是张量,这个跟量子力学的关系也不是必然的,

从纯数学的角度,最早的量子力学没有什么创新的地方,

矩阵,本征值,特征向量,厄米矩阵,酉变换等等数学上早就有了,

张量,直积这些东西群论的东西,

量子力学的初创者要么把线性代数里诸如矩阵及其乘法重新发明

了一下,要么把正确的数学工具引入进行了合理的应用...

要是量子力学的第三种表述路径积分对神经网络有所启发--

还别说,从一个起点经多层网络连接后到一个终点真和路径积分有点象,

折算量子启发了--因为路径积分迄今为止没有严格的数学定义.

这年月,干啥都要扯上量子的大旗?明明就是代数

【在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 标题: Re: 神经网络和量子力学的关系
: 发信站: BBS 未名空间站 (Sat Jan 9 12:35:25 2021, 美东)
:
: 你这ID有20年没出现了吧？新年好。
:
: 他明说的只是2元的情况。2元安排成[0 x; -x 0]这样的形式从哈密顿力学就开始了。
:
: 但是多元多项式本质上是不同的。数学上简练的形式确实是张量。
:
: 我博士论文的一部分是开发一些多元多项式的符号化简，求微分，求积分的算法和程序
: 。当时没好好整，这部分严重依赖Mathematica的能力。
:
: 等发现这个工具问题比我要借助此工具解决的问题更重要的时候，已经晚了。没可能找
: 5年专门搞这件事了。
:
:
:
: 【在 qed(小白兔终于熬成了大灰狼) 的大作中提到: 】
: : 没太看出来这跟量子力学有啥必然关系,
: : 二次型经典力学刚体运动里也有
: 
:
:
: --

chebyshev

4 年多

1.
QED就是摄动法----这条你觉得对不？
2.
Neural network也是摄动法。一层层神经网络，就是一次次小的坐标变换。

3.
高维空间，多元多项式展开坐标变换要计算的时候，安排running index的办法，
成系统的理论就是张量。

这三条看法，第一条把握不大。2，3可以部分实证。

【在 qed (小白兔终于熬成了大灰狼) 的大作中提到: 】
: 如果你说的是张量,这个跟量子力学的关系也不是必然的,
: 从纯数学的角度,最早的量子力学没有什么创新的地方,
: 矩阵,本征值,特征向量,厄米矩阵,酉变换等等数学上早就有了,
: 张量,直积这些东西群论的东西,
: 量子力学的初创者要么把线性代数里诸如矩阵及其乘法重新发明
: 了一下,要么把正确的数学工具引入进行了合理的应用...
: 要是量子力学的第三种表述路径积分对神经网络有所启发--
: 还别说,从一个起点经多层网络连接后到一个终点真和路径积分有点象,
: 折算量子启发了--因为路径积分迄今为止没有严格的数学定义.
: 这年月,干啥都要扯上量子的大旗?明明就是代数