求助帖- 马工马婆,数学好的看过来看过来。AI neural network , calculus有关

半个马和甲
楼主 (北美华人网)
朋友最近在学习AI。 但是她multiple variables calculus derivative 都忘记了。她甚至连chain rule of single variable calculus 也不记得。
她现在上的课是公司让去进修的,会和她的绩效挂钩。 所以不存在不学这个选项。
请问如何可以快速帮助她恢复稳固这些知识啊。(比如什么YT LINK OR BLOG OR APP ) 。 她说上次听到derivative好像one decade ago ...... (我自己也教不了她~~~因为我也忘记的差不多了)
另外,学习Neural network 为什么和multi variables calculus 很有关呢? Calculus knowledge 在整个AI 学习(industrial usage not research ) 有多重要呢? 不是说都是统计吗?
华人卧虎藏龙, 谢谢各位的帮助和解答! 另外,有没有正在学习的分享,哪些BLOG , 网站这方面说的好的呀? 谢谢
y
youyouzou
朋友最近在学习AI。 但是她multiple variables calculus derivative 都忘记了。她甚至连chain rule of single variable calculus 也不记得。
她现在上的课是公司让去进修的,会和她的绩效挂钩。 所以不存在不学这个选项。
请问如何可以快速帮助她恢复稳固这些知识啊。(比如什么YT LINK OR BLOG OR APP ) 。 她说上次听到derivative好像one decade ago ...... (我自己也教不了她~~~因为我也忘记的差不多了)
另外,学习Neural network 为什么和multi variables calculus 很有关呢? Calculus knowledge 在整个AI 学习(industrial usage not research ) 有多重要呢? 不是说都是统计吗?
华人卧虎藏龙, 谢谢各位的帮助和解答! 另外,有没有正在学习的分享,哪些BLOG , 网站这方面说的好的呀? 谢谢
半个马和甲 发表于 2024-01-31 10:43


统计就时建立在 大数据输入,寻找 神经网络 链接 网络矩阵系数 的过程。
回去重新复习 大学高数一,和线性代数课本。可能还要找本习题集刷刷。
D
DDee
统计基于calculus啊
半个马和甲
大家都在上班吗。自己先顶下~~~ 在学习或工作运用AI的牛人马工马婆,faculty 看过来看过来~~~~ or is there any other forum community I can go to ask questions as such ? Like a reddit sub community? 不用学习论坛N年了,现在连去哪里问问题也不知道了:(
w
wfmlover
重新上大一的微积分课啊
半个马和甲
回复 2楼的帖子
谢谢好心的网友回复。 有没有什么俗称课的VIDEO ,之类可以快速学习啊。重新学习大概率好像来不及了。 这才是第一课~~老师很快MOVE ON 了感觉。
另外,在真实工作中,不会解derivatives 是大问题吗? 有没有可能真的计算干脆就交给机器做啊? 谢谢
最后有人有什么好的习题集/课本可以推荐的?
f
fogger
回复 1楼半个马和甲的帖子
油管搜3b1b calculus
n
nickbear
你得提供多点信息,她是什么职位,上的什么课,为什么这个课在工作中需要,才好给建议 multiple variables calculus在深度学习里主要是为了理解gradient descent是怎么work的 有基本理解能看懂公式就行,如果上过随便找本教材复习一下
G
Giovanna
我是做这个的,derivative不能说天天用吧,设计loss的时候也是重点。不知道怎么帮你,我大学学得最好的就是各门数学课,速成不知道。。。
y
youyouzou
你得提供多点信息,她是什么职位,上的什么课,为什么这个课在工作中需要,才好给建议 multiple variables calculus在深度学习里主要是为了理解gradient descent是怎么work的 有基本理解能看懂公式就行,如果上过随便找本教材复习一下
nickbear 发表于 2024-01-31 11:19


现在还用 LMS 算法吗?30多年前上课用的,当时理解不了这个为啥是个重要和出名的算法? 也不明白 为啥 Mean Square 比mean Power 4(或2n) 好?
还说这个算法 有局部最小解缺陷,后来有 门特卡罗 随机大不步长算法。可是一直发理解这个真能作为通用算法 一定能收敛性到 全局最优解吗?
一直觉的这种算命先生 算除外全局最优解 差不多。太多的unknowns.
是不是 神经网络的的参数,需要经验积累(不是理论严格证明),不断地改 初始 参数值,然后考算法收敛到 全局最优解啊? 这样创造了 调参数的 AI工作?
从来没学过任何一门AI课,只是30多年前学了一门“神经网络”研究生课程,后两年接触了一点目标函数优化的文献算法。后来就做的几乎无相关的活。这里就瞎问问 AI大体上是什么?
s
snowhigh
速成不知道,有一个笨办法是遇到不懂的概念就网上查,一个个挖下去,挖到底就懂了。
H
High.eee
我们学流体力学的时候用的。要分解一些复杂变量的时候就会用到。 主要看她当年的数理基础好不好,如果基础不好,就很难的。找本书下功夫啃一啃吧。 另外代入物理意义会比较容易理解一些。AI不只是统计,有算法在里面的。
G
Giovanna

现在还用 LMS 算法吗?30多年前上课用的,当时理解不了这个为啥是个重要和出名的算法? 也不明白 为啥 Mean Square 比mean Power 4(或2n) 好?
还说这个算法 有局部最小解缺陷,后来有 门特卡罗 随机大不步长算法。可是一直发理解这个真能作为通用算法 一定能收敛性到 全局最优解吗?
一直觉的这种算命先生 算除外全局最优解 差不多。太多的unknowns.
是不是 神经网络的的参数,需要经验积累(不是理论严格证明),不断地改 初始 参数值,然后考算法收敛到 全局最优解啊? 这样创造了 调参数的 AI工作?
从来没学过任何一门AI课,只是30多年前学了一门“神经网络”研究生课程,后两年接触了一点目标函数优化的文献算法。后来就做的几乎无相关的活。这里就瞎问问 AI大体上是什么?

youyouzou 发表于 2024-01-31 11:42

经典是因为最简单且最常见,各种特性早就里里外外的摸清楚了,同时衍生了很多基础算法,拿来就用的工具多直接上手,不需要重新造轮子。不能说这个一定就比其他好,而是取决于你想要多aggressive,power 4肯定比power 2更aggressive,再进一步甚至可以用exponential,取决于你的模型有多强调这个loss,想达到什么效果。并不需要严格证明,但至少大概的learning方向和强度是有数的。训练过程中观察模型的behavior,各方面trade-off才能取得理想的效果。不是调参那么简单。
t
trymeagain
是不是考虑换一个工作?
达芬奇
neural network的核心是通过训练数据用back propagation减少loss function,back propagation的核心是使用chain rule计算partial derivative,所以要学calculus,当然现在都是auto differentiation,不需要自己计算
G
Giovanna
我们学流体力学的时候用的。要分解一些复杂变量的时候就会用到。 主要看她当年的数理基础好不好,如果基础不好,就很难的。找本书下功夫啃一啃吧。 另外代入物理意义会比较容易理解一些。AI不只是统计,有算法在里面的。
High.eee 发表于 2024-01-31 12:55

是的,我大一学数学也是纳闷,为什么发明这么多奇奇怪怪的变幻和notation,到了第二年学物理的时候全用上了。。。当初还有一门必修课就叫数学物理方法lol
x
xiaxie8
朋友最近在学习AI。 但是她multiple variables calculus derivative 都忘记了。她甚至连chain rule of single variable calculus 也不记得。
她现在上的课是公司让去进修的,会和她的绩效挂钩。 所以不存在不学这个选项。
请问如何可以快速帮助她恢复稳固这些知识啊。(比如什么YT LINK OR BLOG OR APP ) 。 她说上次听到derivative好像one decade ago ...... (我自己也教不了她~~~因为我也忘记的差不多了)
另外,学习Neural network 为什么和multi variables calculus 很有关呢? Calculus knowledge 在整个AI 学习(industrial usage not research ) 有多重要呢? 不是说都是统计吗?
华人卧虎藏龙, 谢谢各位的帮助和解答! 另外,有没有正在学习的分享,哪些BLOG , 网站这方面说的好的呀? 谢谢
半个马和甲 发表于 2024-01-31 10:43

一元微积分cheat sheet:
https://tutorial.math.lamar.edu/pdf/calculus_cheat_sheet_all.pdf

多元微积分cheat sheet:
用Harvard College那个网上的。
半个马和甲
谢谢各位好心智慧的MM提供的建议。感叹谁能想到这个年纪还要靠着大学知识重新学习。
补充下朋友的背景
非大厂, 非IT ,但也是software engineer是core revenue business department. 技术人员 principal architect, 她多年负责的是 game engine design and all kinds graphic related technology。 至于为啥现在要被送去学AI ? 这个我也不清楚。只能说AI在各个科技领域未来几年必然主力替代许多现在的运用技术。
所以,自己derivatives 不好, 但如果理解理论,AI部分会够用嘛? 听她说课程速度很快。可能没有时间去重学大学数学知识~~ 。所以急需速成高效的得到需要的知识。 谢谢
p
pony2014
的确,NN模型的核心就是chain rule从最后一环往前推,当loss能最小化时,就能得到解了,就怕loss function太复杂,得到是局部最优解。如果理解了这个,就会简单不少,而且现在软件都有各种包optimize loss function. 楼主是要自己写算法吗?这个要求就高了,必须从底层开始了解最优化的过程。而且,我朋友说,现在很多DS就是调包侠🥲…… 能摸清模型里哪些参数是重要的并且会调,也是大牛。👍
半个马和甲
的确,NN模型的核心就是chain rule从最后一环往前推,当loss能最小化时,就能得到解了,就怕loss function太复杂,得到是局部最优解。如果理解了这个,就会简单不少,而且现在软件都有各种包optimize loss function. 楼主是要自己写算法吗?这个要求就高了,必须从底层开始了解最优化的过程。而且,我朋友说,现在很多DS就是调包侠🥲…… 能摸清模型里哪些参数是重要的并且会调,也是大牛。👍
pony2014 发表于 2024-01-31 14:15

谢谢。那是不是说,只要把chain rule 的底层逻辑搞懂了,不需要自己会计算derivatives or differential equations?
朋友是coder 不是DS 。将来可能看样子需要会公司需要建立起自己的AI 系统。 记得,GPT刚出现的时候,公司就弄来一个自己的server , 让员工可以各种自己测试AI 什么的。 ~~~
p
pony2014
回复 20楼半个马和甲的帖子
我不清楚你朋友用什么工具,如果要求自己从头解方程,并且不能借用第三方的优化工具,那就得会各种微分知识和知道根据设计的模型architecture完整的写出loss function.🥲所以建议重温大学的高等数学,这个估计你朋友以后也用得上。
p
pony2014
刚才写了一段,没发出去🤣🤣。我还是建议你朋友复习高等数学的微积分知识,看情形这些知识以后也用得上。
s
sunnyStore
大家都在上班吗。自己先顶下~~~ 在学习或工作运用AI的牛人马工马婆,faculty 看过来看过来~~~~ or is there any other forum community I can go to ask questions as such ? Like a reddit sub community? 不用学习论坛N年了,现在连去哪里问问题也不知道了:(
半个马和甲 发表于 2024-01-31 10:50

微积分屠龙刀,倚天剑上就讲过这些BASIC的理解 英文是 how to ace calculus 两本 当小说看,花一个下午去仔细翻一下
A
April.Qian
LLM里用到的calculus,statistics和linear algebra都非常简单。入门推荐看StatQuest (https://www.youtube.com/@statquest), 然后跟着Andrej Karpathy的视频把代码从头到尾多码几遍就好了https://www.youtube.com/@AndrejKarpathy,看完后自己实现chatgpt的decoder也不是很难。想学reinforcement learning的话就看Richard Sutton,Andrew Barto的经典书,可以配合这个频道一起看 https://www.youtube.com/playlist?list=PLzvYlJMoZ02Dxtwe-MmH4nOB5jYlMGBjr,也可以看Steve Brunton的youtube频道。 每天坚持看两三个小时,不到半年肯定都搞通了。
r
raindrop2020
标记一下
n
nickbear

现在还用 LMS 算法吗?30多年前上课用的,当时理解不了这个为啥是个重要和出名的算法? 也不明白 为啥 Mean Square 比mean Power 4(或2n) 好?
还说这个算法 有局部最小解缺陷,后来有 门特卡罗 随机大不步长算法。可是一直发理解这个真能作为通用算法 一定能收敛性到 全局最优解吗?
一直觉的这种算命先生 算除外全局最优解 差不多。太多的unknowns.
是不是 神经网络的的参数,需要经验积累(不是理论严格证明),不断地改 初始 参数值,然后考算法收敛到 全局最优解啊? 这样创造了 调参数的 AI工作?
从来没学过任何一门AI课,只是30多年前学了一门“神经网络”研究生课程,后两年接触了一点目标函数优化的文献算法。后来就做的几乎无相关的活。这里就瞎问问 AI大体上是什么?

youyouzou 发表于 2024-01-31 11:42

你这不是一个问题是好多问题 LMS是经典算法在于它的计算简单,结果漂亮,应用场合广 它其实主要是用在信号和控制等满足Gausian noise assumption的场合,ML有些算法也用到它,但不是初始的用途 优化目标当然以达到要求的最简单为好,如果你mean square就能解决问题,为啥要费力算4次方呢
深度网络调参难是因为这是个多维空间的优化,层数越多参数空间越大,所谓的curse of dimensionality 不存在magical算法可以保证全局最优,但是当数据量和算力足够的情况下可以靠多次尝试得到更好的结果 ML的一条基本原则就是越大的模型需要越多的数据来训练 以前实际应用三层就到头了,2000年以后因为有了大数据和分布式计算的算力,可以支持更复杂的模型,但是越复杂的模型对初始参数越敏感
AI这个概念现在泛化了,啥都往里装,以前的AI一般指专家系统,知识提取,逻辑推理这些,ML则是基于数据建模,现在都统称AI
h
heyykitty0
理解back propagation需要点微积分知识吧。主要是理解梯度。
M
Mydots
如果是calculus 本身,这里的高中calculus教材 非常适合初学者,比国内大学教材通俗易懂。初学者视频推荐khan academy
D
DaHill
Mark
H
High.eee
谢谢。那是不是说,只要把chain rule 的底层逻辑搞懂了,不需要自己会计算derivatives or differential equations?
朋友是coder 不是DS 。将来可能看样子需要会公司需要建立起自己的AI 系统。 记得,GPT刚出现的时候,公司就弄来一个自己的server , 让员工可以各种自己测试AI 什么的。 ~~~
半个马和甲 发表于 2024-01-31 14:21

如果要接触算法部分的code,那就要懂。不接触不用。
G
Giovanna
谢谢。那是不是说,只要把chain rule 的底层逻辑搞懂了,不需要自己会计算derivatives or differential equations?
朋友是coder 不是DS 。将来可能看样子需要会公司需要建立起自己的AI 系统。 记得,GPT刚出现的时候,公司就弄来一个自己的server , 让员工可以各种自己测试AI 什么的。 ~~~
半个马和甲 发表于 2024-01-31 14:21

如果只做implementation搭起来别人设计好的系统,完全没问题。如果想搞测试调参,甚至优化模型,没有intuition根本没戏,这玩意速成不了。
n
nickbear
谢谢各位好心智慧的MM提供的建议。感叹谁能想到这个年纪还要靠着大学知识重新学习。
补充下朋友的背景
非大厂, 非IT ,但也是software engineer是core revenue business department. 技术人员 principal architect, 她多年负责的是 game engine design and all kinds graphic related technology。 至于为啥现在要被送去学AI ? 这个我也不清楚。只能说AI在各个科技领域未来几年必然主力替代许多现在的运用技术。
所以,自己derivatives 不好, 但如果理解理论,AI部分会够用嘛? 听她说课程速度很快。可能没有时间去重学大学数学知识~~ 。所以急需速成高效的得到需要的知识。 谢谢
半个马和甲 发表于 2024-01-31 14:09

如果是这种情况我觉的不懂求导无所谓,甚至训练模型这些也大概率也不是他的活,architect需要懂的是ML系统设计 打个比方,理解Gradient Descent在深度网络训练里面怎么工作的,相当于理解汽车engine气缸打火是怎么工作的,只有设计engine修engine的人必须懂,一般人不懂也不妨碍开车



s
sunmoonparty
速成不知道,有一个笨办法是遇到不懂的概念就网上查,一个个挖下去,挖到底就懂了。
snowhigh 发表于 2024-01-31 12:36

这个办法不仅不笨,而且是最容易坚持的。 重新上大学课程是最难坚持的。
m
mt.everest
mark一下,我还在吭哧吭哧学big data和machine learning,妈的这又出新东西更不会了。好多看不懂的。
t
trymeagain
的确,NN模型的核心就是chain rule从最后一环往前推,当loss能最小化时,就能得到解了,就怕loss function太复杂,得到是局部最优解。如果理解了这个,就会简单不少,而且现在软件都有各种包optimize loss function. 楼主是要自己写算法吗?这个要求就高了,必须从底层开始了解最优化的过程。而且,我朋友说,现在很多DS就是调包侠🥲…… 能摸清模型里哪些参数是重要的并且会调,也是大牛。👍
pony2014 发表于 2024-01-31 14:15

不是有各种的包帮忙算吗?为啥还要自己算?pytorch?
t
trymeagain
LLM里用到的calculus,statistics和linear algebra都非常简单。入门推荐看StatQuest (https://www.youtube.com/@statquest), 然后跟着Andrej Karpathy的视频把代码从头到尾多码几遍就好了https://www.youtube.com/@AndrejKarpathy,看完后自己实现chatgpt的decoder也不是很难。想学reinforcement learning的话就看Richard Sutton,Andrew Barto的经典书,可以配合这个频道一起看 https://www.youtube.com/playlist?list=PLzvYlJMoZ02Dxtwe-MmH4nOB5jYlMGBjr,也可以看Steve Brunton的youtube频道。 每天坚持看两三个小时,不到半年肯定都搞通了。
April.Qian 发表于 2024-01-31 14:36

看完了怎么找工作呢?
f
fridec2
回复 1楼半个马和甲的帖子
> multiple variables calculus derivative 都忘记了。她甚至连chain rule of single variable calculus 
一个是 Calculus II 的, 一个是 Calculus I 的,重新学一遍吧
不明白的地方可以问问 chatGPT,再自己求证一下
Multivariable calculus, is a branch of calculus that deals with functions of multiple variables. 
Vector calculus, on the other hand, is a branch of mathematics concerned with differentiation and integration of vector fields, which are functions that assign a vector to each point in a subset of space.
One of the ways that these two branches of calculus relate is through the gradient. In multiple variable calculus, the gradient of a function at a point is a vector that points in the direction of the greatest rate of increase of the function, and its magnitude is the rate of increase in that direction.
A
April.Qian
看完了怎么找工作呢?
trymeagain 发表于 2024-01-31 19:21

哈哈, 找工作我没捷径,这方面有技术问题我可以回答。
s
shortorlong2003
Mark, 谢谢各位解答
A
April.Qian
不是有各种的包帮忙算吗?为啥还要自己算?pytorch?
trymeagain 发表于 2024-01-31 19:19

哈哈,自己算显得牛逼,自己码back propagation的各种derivative。当然现实中没人自己码,都是调用pytorch包。
j
jedi2006
Mark AI.
r
riple
mean一下,微积分这种过个十年就完全忘记的,应该是当年就没学懂😄
Y
Yuersmom
Mark~~
执迷不悔
mark一下 微积分干货
半个马和甲
回复 23楼sunnyStore的帖子
谢谢。是叫how to ace calculus streetwise guide 吗?
半个马和甲
回复 24楼的帖子
感谢如此详细的建议! 请问那个配合看的书名是? Reinforcement learning: am introduction 马?
s
shanggj
理解back propagation需要点微积分知识吧。主要是理解梯度。
heyykitty0 发表于 2024-01-31 14:40

当年看 吴恩达的 机器学习课 印象很深就是他不断的说, 数学看不懂没关系, 会用就行。 讲到 back propagation, 直接说 这个其实我也不是很懂。
M
Moscow79
你这不是一个问题是好多问题 LMS是经典算法在于它的计算简单,结果漂亮,应用场合广 它其实主要是用在信号和控制等满足Gausian noise assumption的场合,ML有些算法也用到它,但不是初始的用途 优化目标当然以达到要求的最简单为好,如果你mean square就能解决问题,为啥要费力算4次方呢
深度网络调参难是因为这是个多维空间的优化,层数越多参数空间越大,所谓的curse of dimensionality 不存在magical算法可以保证全局最优,但是当数据量和算力足够的情况下可以靠多次尝试得到更好的结果 ML的一条基本原则就是越大的模型需要越多的数据来训练 以前实际应用三层就到头了,2000年以后因为有了大数据和分布式计算的算力,可以支持更复杂的模型,但是越复杂的模型对初始参数越敏感
AI这个概念现在泛化了,啥都往里装,以前的AI一般指专家系统,知识提取,逻辑推理这些,ML则是基于数据建模,现在都统称AI

nickbear 发表于 2024-01-31 14:40

训练神经网络和传统的最优化不一样,没必要费劲去找全局最优,网络足够大足够深的时候every local minimum is a global minimum
w
waterbear

统计就时建立在 大数据输入,寻找 神经网络 链接 网络矩阵系数 的过程。
回去重新复习 大学高数一,和线性代数课本。可能还要找本习题集刷刷。
youyouzou 发表于 2024-01-31 10:50

很多基本概念google, chatgpt和youtube一下就有很详细的解释了
s
sunnyStore
微积分屠龙刀,倚天剑上就讲过这些BASIC的理解 英文是 how to ace calculus 两本 当小说看,花一个下午去仔细翻一下
sunnyStore 发表于 2024-01-31 14:33

对,就是how to ace calculus streetwise guide 基本你说的基本微积分的常识屠龙刀里都有。这书我有时推荐给忘了微积分的但又想懂基本sense的MBA。
l
lianzi
除了back propagation以外,基本上很少用到calculus。 Back propagation没人会手动去算。不过我觉得线代倒是还是要比较熟练,不然各种matrix的dimension都搞不明白,查错调参都不行。
A
April.Qian
LLM里用到的calculus,statistics和linear algebra都非常简单。入门推荐看StatQuest (https://www.youtube.com/@statquest), 然后跟着Andrej Karpathy的视频把代码从头到尾多码几遍就好了https://www.youtube.com/@AndrejKarpathy,看完后自己实现chatgpt的decoder也不是很难。想学reinforcement learning的话就看Richard Sutton,Andrew Barto的经典书,可以配合这个频道一起看 https://www.youtube.com/playlist?list=PLzvYlJMoZ02Dxtwe-MmH4nOB5jYlMGBjr,也可以看Steve Brunton的youtube频道。 每天坚持看两三个小时,不到半年肯定都搞通了。
April.Qian 发表于 2024-01-31 14:36

是的,reinforcement learning an introduction second edition. Sutton and Barto,
当然最快的学习方式还是看youtube视频,跟着视频码代码,比如Andrej youtube channel里的所有video,我是每个video都跟着码了几遍,把所有细节搞清楚以后就感觉chatgpt也没那么神秘吗😄
f
flaminglotus
蛮好的讨论,来学习下。
A
April.Qian
回复 24楼的帖子
感谢如此详细的建议! 请问那个配合看的书名是? Reinforcement learning: am introduction 马?
半个马和甲 发表于 2024-01-31 21:44

是的,reinforcement learning an introduction second edition. Sutton and Barto,
当然最快的学习方式还是看youtube视频,跟着视频码代码,比如Andrej youtube channel里的所有video,我是每个video都跟着码了几遍,把所有细节搞清楚以后就感觉chatgpt也没那么神秘吗😄
d
diablo23
Mark
e
ecko
是的,reinforcement learning an introduction second edition. Sutton and Barto,
当然最快的学习方式还是看youtube视频,跟着视频码代码,比如Andrej youtube channel里的所有video,我是每个video都跟着码了几遍,把所有细节搞清楚以后就感觉chatgpt也没那么神秘吗😄
April.Qian 发表于 2024-01-31 23:19

y
youyouzou
你这不是一个问题是好多问题 LMS是经典算法在于它的计算简单,结果漂亮,应用场合广 它其实主要是用在信号和控制等满足Gausian noise assumption的场合,ML有些算法也用到它,但不是初始的用途 优化目标当然以达到要求的最简单为好,如果你mean square就能解决问题,为啥要费力算4次方呢
深度网络调参难是因为这是个多维空间的优化,层数越多参数空间越大,所谓的curse of dimensionality 不存在magical算法可以保证全局最优,但是当数据量和算力足够的情况下可以靠多次尝试得到更好的结果 ML的一条基本原则就是越大的模型需要越多的数据来训练 以前实际应用三层就到头了,2000年以后因为有了大数据和分布式计算的算力,可以支持更复杂的模型,但是越复杂的模型对初始参数越敏感
AI这个概念现在泛化了,啥都往里装,以前的AI一般指专家系统,知识提取,逻辑推理这些,ML则是基于数据建模,现在都统称AI

nickbear 发表于 2024-01-31 14:40

谢谢解答。
30年前的时候,学校有mentor graphics送了很多worksation, 当时学习神经网络原理时,告诉我们这些工作站算个三层的要几天几夜。当然估计就是简单的LMS 目标函数,参数也少。
层数越多,每层的节点数越多,那么参数越多,算起来九月消耗算力,这个容易理解。现在算力够了。 初始参数选1,得出系数矩阵结果1, ... 初始参数选n,得出矩阵结果n, 最后怎么知道哪个厨师参数选的好?通过更多的测试数据集来竞赛 ? 即使得到一个最优的初始参数,及其矩阵细数结果,又怎么判断就是在全局最优解附近?
换个角度来问,就是怎么知道 选择的测试数据集合,就很能代表全体无限的数据 集合?这个靠经验和争论,实际无法给出结论? 多个中医把脉,哪个中医最接近实际结果,是不是类似?






g
ggtest
mark
a
ab18
没必要重新看一遍大学微积分,这部分是最基础的那部分,自己周末找一天静下心来学就够了,聪明的话俩小时就全搞明白
a
ab18

现在还用 LMS 算法吗?30多年前上课用的,当时理解不了这个为啥是个重要和出名的算法? 也不明白 为啥 Mean Square 比mean Power 4(或2n) 好?
还说这个算法 有局部最小解缺陷,后来有 门特卡罗 随机大不步长算法。可是一直发理解这个真能作为通用算法 一定能收敛性到 全局最优解吗?
一直觉的这种算命先生 算除外全局最优解 差不多。太多的unknowns.
是不是 神经网络的的参数,需要经验积累(不是理论严格证明),不断地改 初始 参数值,然后考算法收敛到 全局最优解啊? 这样创造了 调参数的 AI工作?
从来没学过任何一门AI课,只是30多年前学了一门“神经网络”研究生课程,后两年接触了一点目标函数优化的文献算法。后来就做的几乎无相关的活。这里就瞎问问 AI大体上是什么?

youyouzou 发表于 2024-01-31 11:42

least mean square是国内中学数学内容,最小二乘法 mean square跟很多东西是联系的,最基础是它从正态分布来的,正态分布又是个上帝最爱的分布,中央极限定理,一切的一切最后都变成了个正态分布
关于神经网络,为什么用上SGD就能收敛到一个“很好用”的最小值,理论上最近几年也有很多解释。这里面学问也挺多的,30年没碰过这类东西的,就谦虚一点别上来就是说人家算命先生调参数。人家自嘲一下,你就别跟着起哄了
a
ab18
训练神经网络和传统的最优化不一样,没必要费劲去找全局最优,网络足够大足够深的时候every local minimum is a global minimum
Moscow79 发表于 2024-01-31 21:49

这个说法是对的,需要足够宽的网络 过参数化和SGD bias也有影响
y
youyouzou
没必要重新看一遍大学微积分,这部分是最基础的那部分,自己周末找一天静下心来学就够了,聪明的话俩小时就全搞明白
ab18 发表于 2024-02-01 01:50


是不是就是偏微分方程这个:
f(x1,x2,....xn), by assuming only xi changes at time, then a partial derivative is derived as f'(xi), add all them together delta (f(x1, x2, ...xn) = f'(x1, x2, ...xn) delta(x1) + ...... + f'(x1, x2, ....xn) delta(xn), where each f'(....) assumes only one variable changes.
e.g. f(x1, x2) = x1^3 * e^x2 delta(f(x1, x2)) = ((x1^3)' * delta(x1)) * e^x2 + x1^3 * ((e^x2)' *delta(x2)) = 3*x1^2 * e^x2 * delta(x1) + x1^3 * e^x2 * delta(x2)
是不是就是chain 微分方程? delta (f(g(x)) = f'(g(x))*g'(x) * delta(x)
e.g. f(x) = exp((x^2))
delta(f(x)) = (exp(x^2))' * delta(x^2) = exp(x^2) * delta(x^2) = exp(x^2) * 2*x* delta(x) = 2*x*exp(x^2) * delta(x) that is f'(x) = delta(f(x))/delta(x) = 2 * x * exp(x^2)
和进一步组合起来的稍微复杂一点的公式?
y
youyouzou
least mean square是国内中学数学内容,最小二乘法 mean square跟很多东西是联系的,最基础是它从正态分布来的,正态分布又是个上帝最爱的分布,中央极限定理,一切的一切最后都变成了个正态分布
关于神经网络,为什么用上SGD就能收敛到一个“很好用”的最小值,理论上最近几年也有很多解释。这里面学问也挺多的,30年没碰过这类东西的,就谦虚一点别上来就是说人家算命先生调参数。人家自嘲一下,你就别跟着起哄了

ab18 发表于 2024-02-01 01:55


这个只是自己不懂,当然只能瞎问啊。不懂的人,才会问这种让别人嘲笑的问题,再为正常不过了。问问题方面,无知者无畏啊。
我也没有装逼,我都说了我也就只有这么一门课科普性知识课程,不拍大家来批判/嘲笑的。更期望的是大侠 三言两语给高屋建瓴总结出进展/科普101。
为啥不知道 global 最优点的情况下,怎么知道多个之中最好/足够好的,规则如何定义的,为啥不能问啊? 一堆中医诊断一个人,最终睡的诊断最正确,也是要有规则定义的,这个逻辑漏洞在哪里?
最小二乘法题度搜素,我是读研才学过的知识。现在国内中学生就学这个,那么他们微积分都学了,太牛逼了。😂
单身男
回复 1楼半个马和甲的帖子
纯正的数学统计学和概率学全是mitivariable calculus 真正要学懂统计学,一定要懂multivariable calculus,比如那些Jacobian, Lagrangian
o
ostrakon
朋友就是我系列?:)
a
ab18

这个只是自己不懂,当然只能瞎问啊。不懂的人,才会问这种让别人嘲笑的问题,再为正常不过了。问问题方面,无知者无畏啊。
我也没有装逼,我都说了我也就只有这么一门课科普性知识课程,不拍大家来批判/嘲笑的。更期望的是大侠 三言两语给高屋建瓴总结出进展/科普101。
为啥不知道 global 最优点的情况下,怎么知道多个之中最好/足够好的,规则如何定义的,为啥不能问啊? 一堆中医诊断一个人,最终睡的诊断最正确,也是要有规则定义的,这个逻辑漏洞在哪里?
最小二乘法题度搜素,我是读研才学过的知识。现在国内中学生就学这个,那么他们微积分都学了,太牛逼了。😂
youyouzou 发表于 2024-02-01 02:10

问问题可以好好问,这也是个大家互相学习的论坛,没必要话里话外阴阳怪气的,大家又不是小孩子 不会再回了,你也不用浪费时间继续跟我摆这个架子
y
youyouzou
问问题可以好好问,这也是个大家互相学习的论坛,没必要话里话外阴阳怪气的,大家又不是小孩子 不会再回了,你也不用浪费时间继续跟我摆这个架子
ab18 发表于 2024-02-01 03:28


我没有资格和架子和你摆。你就觉得我的问题白痴无聊,我也就这个水平。
我看你说中学生都了LMS,我只能摆出我的经历和推理,认为他们太牛逼了。我存疑,你存异吧。
任何人回不回,都是自己的决定。有的人需要浪费时间,有的时间宝贵。求同存异吧!
P S:拉黑也是一个选项
i
ifly123
Mark 一下,可以透露一下正在哪里上课?
y
yrwp
Mark
C
Cath226
天啊 coder都可以不记得derivative 顿时觉得我特么还是转码吧
C
Cath226
哈哈,自己算显得牛逼,自己码back propagation的各种derivative。当然现实中没人自己码,都是调用pytorch包。
April.Qian 发表于 2024-01-31 20:14

我不搞ML但是需要码gradient descent。 如果有explicit form,我们的经验还是用算出来的,误差小。特别是某些loss function的形式(比如参数太多)会导致gradient descent算法不稳定,数值求导多加一层误差。能不能收敛收敛到哪,就更不好控制了。 不过这可能确实不适合ML那些需要快速试不同的loss func的?毕竟换一个就得重写一遍,感觉很麻烦。数值求导简单直接又一劳永逸
A
April.Qian
我不搞ML但是需要码gradient descent。 如果有explicit form,我们的经验还是用算出来的,误差小。特别是某些loss function的形式(比如参数太多)会导致gradient descent算法不稳定,数值求导多加一层误差。能不能收敛收敛到哪,就更不好控制了。 不过这可能确实不适合ML那些需要快速试不同的loss func的?毕竟换一个就得重写一遍,感觉很麻烦。数值求导简单直接又一劳永逸
Cath226 发表于 2024-02-01 07:46

Machine learning和deep learning基本都是用automatic differentiation。
半个马和甲
谢谢大家!!! 我想问个非常傻逼化外人员的问题, 就是有人提到the essence of back propagation is chain rule of derivative. 有人可以稍微扩展开下吗?
A
April.Qian

是不是就是偏微分方程这个:
f(x1,x2,....xn), by assuming only xi changes at time, then a partial derivative is derived as f'(xi), add all them together delta (f(x1, x2, ...xn) = f'(x1, x2, ...xn) delta(x1) + ...... + f'(x1, x2, ....xn) delta(xn), where each f'(....) assumes only one variable changes.
e.g. f(x1, x2) = x1^3 * e^x2 delta(f(x1, x2)) = ((x1^3)' * delta(x1)) * e^x2 + x1^3 * ((e^x2)' *delta(x2)) = 3*x1^2 * e^x2 * delta(x1) + x1^3 * e^x2 * delta(x2)
是不是就是chain 微分方程? delta (f(g(x)) = f'(g(x))*g'(x) * delta(x)
e.g. f(x) = exp((x^2))
delta(f(x)) = (exp(x^2))' * delta(x^2) = exp(x^2) * delta(x^2) = exp(x^2) * 2*x* delta(x) = 2*x*exp(x^2) * delta(x) that is f'(x) = delta(f(x))/delta(x) = 2 * x * exp(x^2)
和进一步组合起来的稍微复杂一点的公式?

youyouzou 发表于 2024-02-01 02:07

是的。看这个视频怎么自己码backpropagation的求导,就是简单方程的导数加上chain rule。
https://www.youtube.com/watch?v=q8SA3rM6ckI

系统提示:若遇到视频无法播放请点击下方链接
https://www.youtube.com/embed/q8SA3rM6ckI
d
dryad
Mark mark
A
April.Qian
谢谢大家!!! 我想问个非常傻逼化外人员的问题, 就是有人提到the essence of back propagation is chain rule of derivative. 有人可以稍微扩展开下吗?
半个马和甲 发表于 2024-02-01 09:07

推荐你看这个入门视频 https://www.youtube.com/watch?v=IN2XmBhILt4&t=758s statquest上有一系列讲backpropagation的视频,up主制作的非常用心,讲的很细致易懂。
s
shanggj
是的。看这个视频怎么自己码backpropagation的求导,就是简单方程的导数加上chain rule。
https://www.youtube.com/watch?v=q8SA3rM6ckI
April.Qian 发表于 2024-02-01 09:07

不懂。 自己码这个 不用现成的工具包, 是就是觉得爽, 还是自己码的更好更快?
A
April.Qian
不懂。 自己码这个 不用现成的工具包, 是就是觉得爽, 还是自己码的更好更快?
shanggj 发表于 2024-02-01 09:11

自己平时练习的时候码几次可以更深入理解,工作中不会自己码。
j
jedi2006
这个真是个好帖子 楼里好多有用的信息!大家知道有没有什么群专门讨论这些东西的呀
l
littlebabyfat
mark
t
toddj
Mark.谢谢
f
freelele
Mark chain rule
t
tigerpi314
我们学流体力学的时候用的。要分解一些复杂变量的时候就会用到。 主要看她当年的数理基础好不好,如果基础不好,就很难的。找本书下功夫啃一啃吧。 另外代入物理意义会比较容易理解一些。AI不只是统计,有算法在里面的。
High.eee 发表于 2024-01-31 12:55

额,统计难道就不需要算法么
t
tigerpi314
话说,楼主这是自己即朋友,还是是女朋友? 一般朋友没有这么上心的