求助帖- 马工马婆，数学好的看过来看过来。AI neural network , calculus有关

一年多

楼主 (北美华人网)

朋友最近在学习AI。但是她multiple variables calculus derivative 都忘记了。她甚至连chain rule of single variable calculus 也不记得。
她现在上的课是公司让去进修的，会和她的绩效挂钩。所以不存在不学这个选项。
请问如何可以快速帮助她恢复稳固这些知识啊。（比如什么YT LINK OR BLOG OR APP ）。她说上次听到derivative好像one decade ago ...... （我自己也教不了她~~~因为我也忘记的差不多了）
另外，学习Neural network 为什么和multi variables calculus 很有关呢？ Calculus knowledge 在整个AI 学习（industrial usage not research ) 有多重要呢？不是说都是统计吗?
华人卧虎藏龙, 谢谢各位的帮助和解答！另外，有没有正在学习的分享，哪些BLOG ，网站这方面说的好的呀？谢谢

youyouzou

一年多

朋友最近在学习AI。但是她multiple variables calculus derivative 都忘记了。她甚至连chain rule of single variable calculus 也不记得。
她现在上的课是公司让去进修的，会和她的绩效挂钩。所以不存在不学这个选项。
请问如何可以快速帮助她恢复稳固这些知识啊。（比如什么YT LINK OR BLOG OR APP ）。她说上次听到derivative好像one decade ago ...... （我自己也教不了她~~~因为我也忘记的差不多了）
另外，学习Neural network 为什么和multi variables calculus 很有关呢？ Calculus knowledge 在整个AI 学习（industrial usage not research ) 有多重要呢？不是说都是统计吗?
华人卧虎藏龙, 谢谢各位的帮助和解答！另外，有没有正在学习的分享，哪些BLOG ，网站这方面说的好的呀？谢谢
半个马和甲发表于 2024-01-31 10:43

统计就时建立在大数据输入，寻找神经网络链接网络矩阵系数的过程。
回去重新复习大学高数一，和线性代数课本。可能还要找本习题集刷刷。

DDee

一年多

统计基于calculus啊

半

半个马和甲

一年多

大家都在上班吗。自己先顶下~~~ 在学习或工作运用AI的牛人马工马婆，faculty 看过来看过来~~~~ or is there any other forum community I can go to ask questions as such ? Like a reddit sub community? 不用学习论坛N年了，现在连去哪里问问题也不知道了：（

wfmlover

一年多

重新上大一的微积分课啊

半

半个马和甲

一年多

回复 2楼的帖子
谢谢好心的网友回复。有没有什么俗称课的VIDEO ，之类可以快速学习啊。重新学习大概率好像来不及了。这才是第一课~~老师很快MOVE ON 了感觉。
另外，在真实工作中，不会解derivatives 是大问题吗？有没有可能真的计算干脆就交给机器做啊？谢谢
最后有人有什么好的习题集/课本可以推荐的？

fogger

一年多

回复 1楼半个马和甲的帖子
油管搜3b1b calculus

nickbear

一年多

你得提供多点信息，她是什么职位，上的什么课，为什么这个课在工作中需要，才好给建议 multiple variables calculus在深度学习里主要是为了理解gradient descent是怎么work的有基本理解能看懂公式就行，如果上过随便找本教材复习一下

Giovanna

一年多

我是做这个的，derivative不能说天天用吧，设计loss的时候也是重点。不知道怎么帮你，我大学学得最好的就是各门数学课，速成不知道。。。

youyouzou

一年多

你得提供多点信息，她是什么职位，上的什么课，为什么这个课在工作中需要，才好给建议 multiple variables calculus在深度学习里主要是为了理解gradient descent是怎么work的有基本理解能看懂公式就行，如果上过随便找本教材复习一下
nickbear 发表于 2024-01-31 11:19

现在还用 LMS 算法吗？30多年前上课用的，当时理解不了这个为啥是个重要和出名的算法？也不明白为啥 Mean Square 比mean Power 4(或2n) 好？
还说这个算法有局部最小解缺陷，后来有门特卡罗随机大不步长算法。可是一直发理解这个真能作为通用算法一定能收敛性到全局最优解吗？
一直觉的这种算命先生算除外全局最优解差不多。太多的unknowns.
是不是神经网络的的参数，需要经验积累（不是理论严格证明），不断地改初始参数值，然后考算法收敛到全局最优解啊？这样创造了调参数的 AI工作？
从来没学过任何一门AI课，只是30多年前学了一门“神经网络”研究生课程，后两年接触了一点目标函数优化的文献算法。后来就做的几乎无相关的活。这里就瞎问问 AI大体上是什么？

snowhigh

一年多

速成不知道，有一个笨办法是遇到不懂的概念就网上查，一个个挖下去，挖到底就懂了。

High.eee

一年多

我们学流体力学的时候用的。要分解一些复杂变量的时候就会用到。主要看她当年的数理基础好不好，如果基础不好，就很难的。找本书下功夫啃一啃吧。另外代入物理意义会比较容易理解一些。AI不只是统计，有算法在里面的。

Giovanna

一年多

现在还用 LMS 算法吗？30多年前上课用的，当时理解不了这个为啥是个重要和出名的算法？也不明白为啥 Mean Square 比mean Power 4(或2n) 好？
还说这个算法有局部最小解缺陷，后来有门特卡罗随机大不步长算法。可是一直发理解这个真能作为通用算法一定能收敛性到全局最优解吗？
一直觉的这种算命先生算除外全局最优解差不多。太多的unknowns.
是不是神经网络的的参数，需要经验积累（不是理论严格证明），不断地改初始参数值，然后考算法收敛到全局最优解啊？这样创造了调参数的 AI工作？
从来没学过任何一门AI课，只是30多年前学了一门“神经网络”研究生课程，后两年接触了一点目标函数优化的文献算法。后来就做的几乎无相关的活。这里就瞎问问 AI大体上是什么？

youyouzou 发表于 2024-01-31 11:42

经典是因为最简单且最常见，各种特性早就里里外外的摸清楚了，同时衍生了很多基础算法，拿来就用的工具多直接上手，不需要重新造轮子。不能说这个一定就比其他好，而是取决于你想要多aggressive，power 4肯定比power 2更aggressive，再进一步甚至可以用exponential，取决于你的模型有多强调这个loss，想达到什么效果。并不需要严格证明，但至少大概的learning方向和强度是有数的。训练过程中观察模型的behavior，各方面trade-off才能取得理想的效果。不是调参那么简单。

trymeagain

一年多

是不是考虑换一个工作？

达

达芬奇

一年多

neural network的核心是通过训练数据用back propagation减少loss function，back propagation的核心是使用chain rule计算partial derivative，所以要学calculus，当然现在都是auto differentiation，不需要自己计算

Giovanna

一年多

我们学流体力学的时候用的。要分解一些复杂变量的时候就会用到。主要看她当年的数理基础好不好，如果基础不好，就很难的。找本书下功夫啃一啃吧。另外代入物理意义会比较容易理解一些。AI不只是统计，有算法在里面的。
High.eee 发表于 2024-01-31 12:55

是的，我大一学数学也是纳闷，为什么发明这么多奇奇怪怪的变幻和notation，到了第二年学物理的时候全用上了。。。当初还有一门必修课就叫数学物理方法lol

xiaxie8

一年多

朋友最近在学习AI。但是她multiple variables calculus derivative 都忘记了。她甚至连chain rule of single variable calculus 也不记得。
她现在上的课是公司让去进修的，会和她的绩效挂钩。所以不存在不学这个选项。
请问如何可以快速帮助她恢复稳固这些知识啊。（比如什么YT LINK OR BLOG OR APP ）。她说上次听到derivative好像one decade ago ...... （我自己也教不了她~~~因为我也忘记的差不多了）
另外，学习Neural network 为什么和multi variables calculus 很有关呢？ Calculus knowledge 在整个AI 学习（industrial usage not research ) 有多重要呢？不是说都是统计吗?
华人卧虎藏龙, 谢谢各位的帮助和解答！另外，有没有正在学习的分享，哪些BLOG ，网站这方面说的好的呀？谢谢
半个马和甲发表于 2024-01-31 10:43

一元微积分cheat sheet:
https://tutorial.math.lamar.edu/pdf/calculus_cheat_sheet_all.pdf

多元微积分cheat sheet:
用Harvard College那个网上的。

半

半个马和甲

一年多

谢谢各位好心智慧的MM提供的建议。感叹谁能想到这个年纪还要靠着大学知识重新学习。
补充下朋友的背景
非大厂, 非IT ，但也是software engineer是core revenue business department. 技术人员 principal architect, 她多年负责的是 game engine design and all kinds graphic related technology。至于为啥现在要被送去学AI ？这个我也不清楚。只能说AI在各个科技领域未来几年必然主力替代许多现在的运用技术。
所以，自己derivatives 不好, 但如果理解理论，AI部分会够用嘛？听她说课程速度很快。可能没有时间去重学大学数学知识~~ 。所以急需速成高效的得到需要的知识。谢谢

pony2014

一年多

的确，NN模型的核心就是chain rule从最后一环往前推，当loss能最小化时，就能得到解了，就怕loss function太复杂，得到是局部最优解。如果理解了这个，就会简单不少，而且现在软件都有各种包optimize loss function. 楼主是要自己写算法吗？这个要求就高了，必须从底层开始了解最优化的过程。而且，我朋友说，现在很多DS就是调包侠🥲…… 能摸清模型里哪些参数是重要的并且会调，也是大牛。👍

半

半个马和甲

一年多

的确，NN模型的核心就是chain rule从最后一环往前推，当loss能最小化时，就能得到解了，就怕loss function太复杂，得到是局部最优解。如果理解了这个，就会简单不少，而且现在软件都有各种包optimize loss function. 楼主是要自己写算法吗？这个要求就高了，必须从底层开始了解最优化的过程。而且，我朋友说，现在很多DS就是调包侠🥲…… 能摸清模型里哪些参数是重要的并且会调，也是大牛。👍
pony2014 发表于 2024-01-31 14:15

谢谢。那是不是说，只要把chain rule 的底层逻辑搞懂了，不需要自己会计算derivatives or differential equations?
朋友是coder 不是DS 。将来可能看样子需要会公司需要建立起自己的AI 系统。记得，GPT刚出现的时候，公司就弄来一个自己的server , 让员工可以各种自己测试AI 什么的。 ~~~

pony2014

一年多

回复 20楼半个马和甲的帖子
我不清楚你朋友用什么工具，如果要求自己从头解方程，并且不能借用第三方的优化工具，那就得会各种微分知识和知道根据设计的模型architecture完整的写出loss function.🥲所以建议重温大学的高等数学，这个估计你朋友以后也用得上。

pony2014

一年多

刚才写了一段，没发出去🤣🤣。我还是建议你朋友复习高等数学的微积分知识，看情形这些知识以后也用得上。

sunnyStore

一年多

大家都在上班吗。自己先顶下~~~ 在学习或工作运用AI的牛人马工马婆，faculty 看过来看过来~~~~ or is there any other forum community I can go to ask questions as such ? Like a reddit sub community? 不用学习论坛N年了，现在连去哪里问问题也不知道了：（
半个马和甲发表于 2024-01-31 10:50

微积分屠龙刀，倚天剑上就讲过这些BASIC的理解英文是 how to ace calculus 两本当小说看，花一个下午去仔细翻一下

April.Qian

一年多

LLM里用到的calculus,statistics和linear algebra都非常简单。入门推荐看StatQuest (https://www.youtube.com/@statquest), 然后跟着Andrej Karpathy的视频把代码从头到尾多码几遍就好了https://www.youtube.com/@AndrejKarpathy，看完后自己实现chatgpt的decoder也不是很难。想学reinforcement learning的话就看Richard Sutton，Andrew Barto的经典书，可以配合这个频道一起看 https://www.youtube.com/playlist?list=PLzvYlJMoZ02Dxtwe-MmH4nOB5jYlMGBjr，也可以看Steve Brunton的youtube频道。 每天坚持看两三个小时，不到半年肯定都搞通了。

raindrop2020

一年多

标记一下

nickbear

一年多

现在还用 LMS 算法吗？30多年前上课用的，当时理解不了这个为啥是个重要和出名的算法？也不明白为啥 Mean Square 比mean Power 4(或2n) 好？
还说这个算法有局部最小解缺陷，后来有门特卡罗随机大不步长算法。可是一直发理解这个真能作为通用算法一定能收敛性到全局最优解吗？
一直觉的这种算命先生算除外全局最优解差不多。太多的unknowns.
是不是神经网络的的参数，需要经验积累（不是理论严格证明），不断地改初始参数值，然后考算法收敛到全局最优解啊？这样创造了调参数的 AI工作？
从来没学过任何一门AI课，只是30多年前学了一门“神经网络”研究生课程，后两年接触了一点目标函数优化的文献算法。后来就做的几乎无相关的活。这里就瞎问问 AI大体上是什么？

youyouzou 发表于 2024-01-31 11:42

你这不是一个问题是好多问题 LMS是经典算法在于它的计算简单，结果漂亮，应用场合广它其实主要是用在信号和控制等满足Gausian noise assumption的场合，ML有些算法也用到它，但不是初始的用途优化目标当然以达到要求的最简单为好，如果你mean square就能解决问题，为啥要费力算4次方呢
深度网络调参难是因为这是个多维空间的优化，层数越多参数空间越大，所谓的curse of dimensionality 不存在magical算法可以保证全局最优，但是当数据量和算力足够的情况下可以靠多次尝试得到更好的结果 ML的一条基本原则就是越大的模型需要越多的数据来训练以前实际应用三层就到头了，2000年以后因为有了大数据和分布式计算的算力，可以支持更复杂的模型，但是越复杂的模型对初始参数越敏感
AI这个概念现在泛化了，啥都往里装，以前的AI一般指专家系统，知识提取，逻辑推理这些，ML则是基于数据建模，现在都统称AI

heyykitty0

一年多

理解back propagation需要点微积分知识吧。主要是理解梯度。

Mydots

一年多

如果是calculus 本身，这里的高中calculus教材非常适合初学者，比国内大学教材通俗易懂。初学者视频推荐khan academy

DaHill

一年多

Mark

High.eee

一年多

谢谢。那是不是说，只要把chain rule 的底层逻辑搞懂了，不需要自己会计算derivatives or differential equations?
朋友是coder 不是DS 。将来可能看样子需要会公司需要建立起自己的AI 系统。记得，GPT刚出现的时候，公司就弄来一个自己的server , 让员工可以各种自己测试AI 什么的。 ~~~
半个马和甲发表于 2024-01-31 14:21

如果要接触算法部分的code，那就要懂。不接触不用。

Giovanna

一年多

谢谢。那是不是说，只要把chain rule 的底层逻辑搞懂了，不需要自己会计算derivatives or differential equations?
朋友是coder 不是DS 。将来可能看样子需要会公司需要建立起自己的AI 系统。记得，GPT刚出现的时候，公司就弄来一个自己的server , 让员工可以各种自己测试AI 什么的。 ~~~
半个马和甲发表于 2024-01-31 14:21

如果只做implementation搭起来别人设计好的系统，完全没问题。如果想搞测试调参，甚至优化模型，没有intuition根本没戏，这玩意速成不了。

nickbear

一年多

谢谢各位好心智慧的MM提供的建议。感叹谁能想到这个年纪还要靠着大学知识重新学习。
补充下朋友的背景
非大厂, 非IT ，但也是software engineer是core revenue business department. 技术人员 principal architect, 她多年负责的是 game engine design and all kinds graphic related technology。至于为啥现在要被送去学AI ？这个我也不清楚。只能说AI在各个科技领域未来几年必然主力替代许多现在的运用技术。
所以，自己derivatives 不好, 但如果理解理论，AI部分会够用嘛？听她说课程速度很快。可能没有时间去重学大学数学知识~~ 。所以急需速成高效的得到需要的知识。谢谢
半个马和甲发表于 2024-01-31 14:09

如果是这种情况我觉的不懂求导无所谓，甚至训练模型这些也大概率也不是他的活，architect需要懂的是ML系统设计打个比方，理解Gradient Descent在深度网络训练里面怎么工作的，相当于理解汽车engine气缸打火是怎么工作的，只有设计engine修engine的人必须懂，一般人不懂也不妨碍开车

sunmoonparty

一年多

速成不知道，有一个笨办法是遇到不懂的概念就网上查，一个个挖下去，挖到底就懂了。
snowhigh 发表于 2024-01-31 12:36

这个办法不仅不笨，而且是最容易坚持的。重新上大学课程是最难坚持的。

mt.everest

一年多

mark一下，我还在吭哧吭哧学big data和machine learning，妈的这又出新东西更不会了。好多看不懂的。

trymeagain

一年多

的确，NN模型的核心就是chain rule从最后一环往前推，当loss能最小化时，就能得到解了，就怕loss function太复杂，得到是局部最优解。如果理解了这个，就会简单不少，而且现在软件都有各种包optimize loss function. 楼主是要自己写算法吗？这个要求就高了，必须从底层开始了解最优化的过程。而且，我朋友说，现在很多DS就是调包侠🥲…… 能摸清模型里哪些参数是重要的并且会调，也是大牛。👍
pony2014 发表于 2024-01-31 14:15

不是有各种的包帮忙算吗？为啥还要自己算？pytorch?

trymeagain

一年多

LLM里用到的calculus,statistics和linear algebra都非常简单。入门推荐看StatQuest (https://www.youtube.com/@statquest), 然后跟着Andrej Karpathy的视频把代码从头到尾多码几遍就好了https://www.youtube.com/@AndrejKarpathy，看完后自己实现chatgpt的decoder也不是很难。想学reinforcement learning的话就看Richard Sutton，Andrew Barto的经典书，可以配合这个频道一起看 https://www.youtube.com/playlist?list=PLzvYlJMoZ02Dxtwe-MmH4nOB5jYlMGBjr，也可以看Steve Brunton的youtube频道。 每天坚持看两三个小时，不到半年肯定都搞通了。
April.Qian 发表于 2024-01-31 14:36

看完了怎么找工作呢？

fridec2

一年多

回复 1楼半个马和甲的帖子
> multiple variables calculus derivative 都忘记了。她甚至连chain rule of single variable calculus
一个是 Calculus II 的，一个是 Calculus I 的，重新学一遍吧
不明白的地方可以问问 chatGPT，再自己求证一下
Multivariable calculus, is a branch of calculus that deals with functions of multiple variables.
Vector calculus, on the other hand, is a branch of mathematics concerned with differentiation and integration of vector fields, which are functions that assign a vector to each point in a subset of space.
One of the ways that these two branches of calculus relate is through the gradient. In multiple variable calculus, the gradient of a function at a point is a vector that points in the direction of the greatest rate of increase of the function, and its magnitude is the rate of increase in that direction.

April.Qian

一年多

看完了怎么找工作呢？
trymeagain 发表于 2024-01-31 19:21

哈哈，找工作我没捷径，这方面有技术问题我可以回答。

shortorlong2003

一年多

Mark, 谢谢各位解答

April.Qian

一年多

不是有各种的包帮忙算吗？为啥还要自己算？pytorch?
trymeagain 发表于 2024-01-31 19:19

哈哈，自己算显得牛逼，自己码back propagation的各种derivative。当然现实中没人自己码，都是调用pytorch包。

jedi2006

一年多

Mark AI.

riple

一年多

mean一下，微积分这种过个十年就完全忘记的，应该是当年就没学懂😄

Yuersmom

一年多

Mark~~

执

执迷不悔

一年多

mark一下微积分干货

半

半个马和甲

一年多

回复 23楼sunnyStore的帖子
谢谢。是叫how to ace calculus streetwise guide 吗？

半

半个马和甲

一年多

回复 24楼的帖子
感谢如此详细的建议！请问那个配合看的书名是？ Reinforcement learning: am introduction 马？

shanggj

一年多

理解back propagation需要点微积分知识吧。主要是理解梯度。
heyykitty0 发表于 2024-01-31 14:40

当年看吴恩达的机器学习课印象很深就是他不断的说，数学看不懂没关系，会用就行。讲到 back propagation，直接说这个其实我也不是很懂。

Moscow79

一年多

你这不是一个问题是好多问题 LMS是经典算法在于它的计算简单，结果漂亮，应用场合广它其实主要是用在信号和控制等满足Gausian noise assumption的场合，ML有些算法也用到它，但不是初始的用途优化目标当然以达到要求的最简单为好，如果你mean square就能解决问题，为啥要费力算4次方呢
深度网络调参难是因为这是个多维空间的优化，层数越多参数空间越大，所谓的curse of dimensionality 不存在magical算法可以保证全局最优，但是当数据量和算力足够的情况下可以靠多次尝试得到更好的结果 ML的一条基本原则就是越大的模型需要越多的数据来训练以前实际应用三层就到头了，2000年以后因为有了大数据和分布式计算的算力，可以支持更复杂的模型，但是越复杂的模型对初始参数越敏感
AI这个概念现在泛化了，啥都往里装，以前的AI一般指专家系统，知识提取，逻辑推理这些，ML则是基于数据建模，现在都统称AI

nickbear 发表于 2024-01-31 14:40

训练神经网络和传统的最优化不一样，没必要费劲去找全局最优，网络足够大足够深的时候every local minimum is a global minimum

waterbear

一年多

统计就时建立在大数据输入，寻找神经网络链接网络矩阵系数的过程。
回去重新复习大学高数一，和线性代数课本。可能还要找本习题集刷刷。
youyouzou 发表于 2024-01-31 10:50

很多基本概念google， chatgpt和youtube一下就有很详细的解释了

sunnyStore

一年多

微积分屠龙刀，倚天剑上就讲过这些BASIC的理解英文是 how to ace calculus 两本当小说看，花一个下午去仔细翻一下
sunnyStore 发表于 2024-01-31 14:33

对，就是how to ace calculus streetwise guide 基本你说的基本微积分的常识屠龙刀里都有。这书我有时推荐给忘了微积分的但又想懂基本sense的MBA。

lianzi

一年多

除了back propagation以外，基本上很少用到calculus。 Back propagation没人会手动去算。不过我觉得线代倒是还是要比较熟练，不然各种matrix的dimension都搞不明白，查错调参都不行。

April.Qian

一年多

LLM里用到的calculus,statistics和linear algebra都非常简单。入门推荐看StatQuest (https://www.youtube.com/@statquest), 然后跟着Andrej Karpathy的视频把代码从头到尾多码几遍就好了https://www.youtube.com/@AndrejKarpathy，看完后自己实现chatgpt的decoder也不是很难。想学reinforcement learning的话就看Richard Sutton，Andrew Barto的经典书，可以配合这个频道一起看 https://www.youtube.com/playlist?list=PLzvYlJMoZ02Dxtwe-MmH4nOB5jYlMGBjr，也可以看Steve Brunton的youtube频道。 每天坚持看两三个小时，不到半年肯定都搞通了。
April.Qian 发表于 2024-01-31 14:36

是的，reinforcement learning an introduction second edition. Sutton and Barto,
当然最快的学习方式还是看youtube视频，跟着视频码代码，比如Andrej youtube channel里的所有video，我是每个video都跟着码了几遍，把所有细节搞清楚以后就感觉chatgpt也没那么神秘吗😄

flaminglotus

一年多

蛮好的讨论，来学习下。

April.Qian

一年多

回复 24楼的帖子
感谢如此详细的建议！请问那个配合看的书名是？ Reinforcement learning: am introduction 马？
半个马和甲发表于 2024-01-31 21:44

diablo23

一年多

Mark

ecko

一年多

是的，reinforcement learning an introduction second edition. Sutton and Barto,
当然最快的学习方式还是看youtube视频，跟着视频码代码，比如Andrej youtube channel里的所有video，我是每个video都跟着码了几遍，把所有细节搞清楚以后就感觉chatgpt也没那么神秘吗😄
April.Qian 发表于 2024-01-31 23:19

youyouzou

一年多

你这不是一个问题是好多问题 LMS是经典算法在于它的计算简单，结果漂亮，应用场合广它其实主要是用在信号和控制等满足Gausian noise assumption的场合，ML有些算法也用到它，但不是初始的用途优化目标当然以达到要求的最简单为好，如果你mean square就能解决问题，为啥要费力算4次方呢
深度网络调参难是因为这是个多维空间的优化，层数越多参数空间越大，所谓的curse of dimensionality 不存在magical算法可以保证全局最优，但是当数据量和算力足够的情况下可以靠多次尝试得到更好的结果 ML的一条基本原则就是越大的模型需要越多的数据来训练以前实际应用三层就到头了，2000年以后因为有了大数据和分布式计算的算力，可以支持更复杂的模型，但是越复杂的模型对初始参数越敏感
AI这个概念现在泛化了，啥都往里装，以前的AI一般指专家系统，知识提取，逻辑推理这些，ML则是基于数据建模，现在都统称AI

nickbear 发表于 2024-01-31 14:40

谢谢解答。
30年前的时候，学校有mentor graphics送了很多worksation, 当时学习神经网络原理时，告诉我们这些工作站算个三层的要几天几夜。当然估计就是简单的LMS 目标函数，参数也少。
层数越多，每层的节点数越多，那么参数越多，算起来九月消耗算力，这个容易理解。现在算力够了。初始参数选1，得出系数矩阵结果1， ... 初始参数选n，得出矩阵结果n, 最后怎么知道哪个厨师参数选的好？通过更多的测试数据集来竞赛？即使得到一个最优的初始参数，及其矩阵细数结果，又怎么判断就是在全局最优解附近？
换个角度来问，就是怎么知道选择的测试数据集合，就很能代表全体无限的数据集合？这个靠经验和争论，实际无法给出结论？多个中医把脉，哪个中医最接近实际结果，是不是类似？

ggtest

一年多

mark

ab18

一年多

没必要重新看一遍大学微积分，这部分是最基础的那部分，自己周末找一天静下心来学就够了，聪明的话俩小时就全搞明白

ab18

一年多

现在还用 LMS 算法吗？30多年前上课用的，当时理解不了这个为啥是个重要和出名的算法？也不明白为啥 Mean Square 比mean Power 4(或2n) 好？
还说这个算法有局部最小解缺陷，后来有门特卡罗随机大不步长算法。可是一直发理解这个真能作为通用算法一定能收敛性到全局最优解吗？
一直觉的这种算命先生算除外全局最优解差不多。太多的unknowns.
是不是神经网络的的参数，需要经验积累（不是理论严格证明），不断地改初始参数值，然后考算法收敛到全局最优解啊？这样创造了调参数的 AI工作？
从来没学过任何一门AI课，只是30多年前学了一门“神经网络”研究生课程，后两年接触了一点目标函数优化的文献算法。后来就做的几乎无相关的活。这里就瞎问问 AI大体上是什么？

youyouzou 发表于 2024-01-31 11:42

least mean square是国内中学数学内容，最小二乘法 mean square跟很多东西是联系的，最基础是它从正态分布来的，正态分布又是个上帝最爱的分布，中央极限定理，一切的一切最后都变成了个正态分布
关于神经网络，为什么用上SGD就能收敛到一个“很好用”的最小值，理论上最近几年也有很多解释。这里面学问也挺多的，30年没碰过这类东西的，就谦虚一点别上来就是说人家算命先生调参数。人家自嘲一下，你就别跟着起哄了

ab18

一年多

训练神经网络和传统的最优化不一样，没必要费劲去找全局最优，网络足够大足够深的时候every local minimum is a global minimum
Moscow79 发表于 2024-01-31 21:49

这个说法是对的，需要足够宽的网络过参数化和SGD bias也有影响

youyouzou

一年多

没必要重新看一遍大学微积分，这部分是最基础的那部分，自己周末找一天静下心来学就够了，聪明的话俩小时就全搞明白
ab18 发表于 2024-02-01 01:50

是不是就是偏微分方程这个：
f(x1,x2,....xn), by assuming only xi changes at time, then a partial derivative is derived as f'(xi), add all them together delta (f(x1, x2, ...xn) = f'(x1, x2, ...xn) delta(x1) + ...... + f'(x1, x2, ....xn) delta(xn), where each f'(....) assumes only one variable changes.
e.g. f(x1, x2) = x1^3 * e^x2 delta(f(x1, x2)) = ((x1^3)' * delta(x1)) * e^x2 + x1^3 * ((e^x2)' *delta(x2)) = 3*x1^2 * e^x2 * delta(x1) + x1^3 * e^x2 * delta(x2)
是不是就是chain 微分方程? delta (f(g(x)) = f'(g(x))*g'(x) * delta(x)
e.g. f(x) = exp((x^2))
delta(f(x)) = (exp(x^2))' * delta(x^2) = exp(x^2) * delta(x^2) = exp(x^2) * 2*x* delta(x) = 2*x*exp(x^2) * delta(x) that is f'(x) = delta(f(x))/delta(x) = 2 * x * exp(x^2)
和进一步组合起来的稍微复杂一点的公式？

youyouzou

一年多

least mean square是国内中学数学内容，最小二乘法 mean square跟很多东西是联系的，最基础是它从正态分布来的，正态分布又是个上帝最爱的分布，中央极限定理，一切的一切最后都变成了个正态分布
关于神经网络，为什么用上SGD就能收敛到一个“很好用”的最小值，理论上最近几年也有很多解释。这里面学问也挺多的，30年没碰过这类东西的，就谦虚一点别上来就是说人家算命先生调参数。人家自嘲一下，你就别跟着起哄了

ab18 发表于 2024-02-01 01:55

这个只是自己不懂，当然只能瞎问啊。不懂的人，才会问这种让别人嘲笑的问题，再为正常不过了。问问题方面，无知者无畏啊。
我也没有装逼，我都说了我也就只有这么一门课科普性知识课程，不拍大家来批判/嘲笑的。更期望的是大侠三言两语给高屋建瓴总结出进展/科普101。
为啥不知道 global 最优点的情况下，怎么知道多个之中最好/足够好的，规则如何定义的，为啥不能问啊？一堆中医诊断一个人，最终睡的诊断最正确，也是要有规则定义的，这个逻辑漏洞在哪里？
最小二乘法题度搜素，我是读研才学过的知识。现在国内中学生就学这个，那么他们微积分都学了，太牛逼了。😂

单

单身男

一年多

回复 1楼半个马和甲的帖子
纯正的数学统计学和概率学全是mitivariable calculus 真正要学懂统计学，一定要懂multivariable calculus，比如那些Jacobian, Lagrangian

ostrakon

一年多

朋友就是我系列？:)

ab18

一年多

这个只是自己不懂，当然只能瞎问啊。不懂的人，才会问这种让别人嘲笑的问题，再为正常不过了。问问题方面，无知者无畏啊。
我也没有装逼，我都说了我也就只有这么一门课科普性知识课程，不拍大家来批判/嘲笑的。更期望的是大侠三言两语给高屋建瓴总结出进展/科普101。
为啥不知道 global 最优点的情况下，怎么知道多个之中最好/足够好的，规则如何定义的，为啥不能问啊？一堆中医诊断一个人，最终睡的诊断最正确，也是要有规则定义的，这个逻辑漏洞在哪里？
最小二乘法题度搜素，我是读研才学过的知识。现在国内中学生就学这个，那么他们微积分都学了，太牛逼了。😂
youyouzou 发表于 2024-02-01 02:10

问问题可以好好问，这也是个大家互相学习的论坛，没必要话里话外阴阳怪气的，大家又不是小孩子不会再回了，你也不用浪费时间继续跟我摆这个架子

youyouzou

一年多

问问题可以好好问，这也是个大家互相学习的论坛，没必要话里话外阴阳怪气的，大家又不是小孩子不会再回了，你也不用浪费时间继续跟我摆这个架子
ab18 发表于 2024-02-01 03:28

我没有资格和架子和你摆。你就觉得我的问题白痴无聊，我也就这个水平。
我看你说中学生都了LMS，我只能摆出我的经历和推理，认为他们太牛逼了。我存疑，你存异吧。
任何人回不回，都是自己的决定。有的人需要浪费时间，有的时间宝贵。求同存异吧！
P S：拉黑也是一个选项

ifly123

一年多

Mark 一下，可以透露一下正在哪里上课？

yrwp

一年多

Mark

Cath226

一年多

天啊 coder都可以不记得derivative 顿时觉得我特么还是转码吧

Cath226

一年多

哈哈，自己算显得牛逼，自己码back propagation的各种derivative。当然现实中没人自己码，都是调用pytorch包。
April.Qian 发表于 2024-01-31 20:14

我不搞ML但是需要码gradient descent。如果有explicit form，我们的经验还是用算出来的，误差小。特别是某些loss function的形式（比如参数太多）会导致gradient descent算法不稳定，数值求导多加一层误差。能不能收敛收敛到哪，就更不好控制了。不过这可能确实不适合ML那些需要快速试不同的loss func的？毕竟换一个就得重写一遍，感觉很麻烦。数值求导简单直接又一劳永逸

April.Qian

一年多

我不搞ML但是需要码gradient descent。如果有explicit form，我们的经验还是用算出来的，误差小。特别是某些loss function的形式（比如参数太多）会导致gradient descent算法不稳定，数值求导多加一层误差。能不能收敛收敛到哪，就更不好控制了。不过这可能确实不适合ML那些需要快速试不同的loss func的？毕竟换一个就得重写一遍，感觉很麻烦。数值求导简单直接又一劳永逸
Cath226 发表于 2024-02-01 07:46

Machine learning和deep learning基本都是用automatic differentiation。

半

半个马和甲

一年多

谢谢大家！！！我想问个非常傻逼化外人员的问题, 就是有人提到the essence of back propagation is chain rule of derivative. 有人可以稍微扩展开下吗？

April.Qian

一年多

是不是就是偏微分方程这个：
f(x1,x2,....xn), by assuming only xi changes at time, then a partial derivative is derived as f'(xi), add all them together delta (f(x1, x2, ...xn) = f'(x1, x2, ...xn) delta(x1) + ...... + f'(x1, x2, ....xn) delta(xn), where each f'(....) assumes only one variable changes.
e.g. f(x1, x2) = x1^3 * e^x2 delta(f(x1, x2)) = ((x1^3)' * delta(x1)) * e^x2 + x1^3 * ((e^x2)' *delta(x2)) = 3*x1^2 * e^x2 * delta(x1) + x1^3 * e^x2 * delta(x2)
是不是就是chain 微分方程? delta (f(g(x)) = f'(g(x))*g'(x) * delta(x)
e.g. f(x) = exp((x^2))
delta(f(x)) = (exp(x^2))' * delta(x^2) = exp(x^2) * delta(x^2) = exp(x^2) * 2*x* delta(x) = 2*x*exp(x^2) * delta(x) that is f'(x) = delta(f(x))/delta(x) = 2 * x * exp(x^2)
和进一步组合起来的稍微复杂一点的公式？

youyouzou 发表于 2024-02-01 02:07

是的。看这个视频怎么自己码backpropagation的求导，就是简单方程的导数加上chain rule。
https://www.youtube.com/watch?v=q8SA3rM6ckI

系统提示：若遇到视频无法播放请点击下方链接
https://www.youtube.com/embed/q8SA3rM6ckI

dryad

一年多

Mark mark

April.Qian

一年多