大家都在上班吗。自己先顶下~~~ 在学习或工作运用AI的牛人马工马婆,faculty 看过来看过来~~~~ or is there any other forum community I can go to ask questions as such ? Like a reddit sub community? 不用学习论坛N年了,现在连去哪里问问题也不知道了:(
大家都在上班吗。自己先顶下~~~ 在学习或工作运用AI的牛人马工马婆,faculty 看过来看过来~~~~ or is there any other forum community I can go to ask questions as such ? Like a reddit sub community? 不用学习论坛N年了,现在连去哪里问问题也不知道了:( 半个马和甲 发表于 2024-01-31 10:50
微积分屠龙刀,倚天剑上就讲过这些BASIC的理解 英文是 how to ace calculus 两本 当小说看,花一个下午去仔细翻一下
回复 1楼半个马和甲的帖子 > multiple variables calculus derivative 都忘记了。她甚至连chain rule of single variable calculus 一个是 Calculus II 的, 一个是 Calculus I 的,重新学一遍吧 不明白的地方可以问问 chatGPT,再自己求证一下 Multivariable calculus, is a branch of calculus that deals with functions of multiple variables. Vector calculus, on the other hand, is a branch of mathematics concerned with differentiation and integration of vector fields, which are functions that assign a vector to each point in a subset of space. One of the ways that these two branches of calculus relate is through the gradient. In multiple variable calculus, the gradient of a function at a point is a vector that points in the direction of the greatest rate of increase of the function, and its magnitude is the rate of increase in that direction.
是的,reinforcement learning an introduction second edition. Sutton and Barto, 当然最快的学习方式还是看youtube视频,跟着视频码代码,比如Andrej youtube channel里的所有video,我是每个video都跟着码了几遍,把所有细节搞清楚以后就感觉chatgpt也没那么神秘吗😄
是的,reinforcement learning an introduction second edition. Sutton and Barto, 当然最快的学习方式还是看youtube视频,跟着视频码代码,比如Andrej youtube channel里的所有video,我是每个video都跟着码了几遍,把所有细节搞清楚以后就感觉chatgpt也没那么神秘吗😄
least mean square是国内中学数学内容,最小二乘法 mean square跟很多东西是联系的,最基础是它从正态分布来的,正态分布又是个上帝最爱的分布,中央极限定理,一切的一切最后都变成了个正态分布 关于神经网络,为什么用上SGD就能收敛到一个“很好用”的最小值,理论上最近几年也有很多解释。这里面学问也挺多的,30年没碰过这类东西的,就谦虚一点别上来就是说人家算命先生调参数。人家自嘲一下,你就别跟着起哄了
least mean square是国内中学数学内容,最小二乘法 mean square跟很多东西是联系的,最基础是它从正态分布来的,正态分布又是个上帝最爱的分布,中央极限定理,一切的一切最后都变成了个正态分布 关于神经网络,为什么用上SGD就能收敛到一个“很好用”的最小值,理论上最近几年也有很多解释。这里面学问也挺多的,30年没碰过这类东西的,就谦虚一点别上来就是说人家算命先生调参数。人家自嘲一下,你就别跟着起哄了
ab18 发表于 2024-02-01 01:55
这个只是自己不懂,当然只能瞎问啊。不懂的人,才会问这种让别人嘲笑的问题,再为正常不过了。问问题方面,无知者无畏啊。 我也没有装逼,我都说了我也就只有这么一门课科普性知识课程,不拍大家来批判/嘲笑的。更期望的是大侠 三言两语给高屋建瓴总结出进展/科普101。 为啥不知道 global 最优点的情况下,怎么知道多个之中最好/足够好的,规则如何定义的,为啥不能问啊? 一堆中医诊断一个人,最终睡的诊断最正确,也是要有规则定义的,这个逻辑漏洞在哪里? 最小二乘法题度搜素,我是读研才学过的知识。现在国内中学生就学这个,那么他们微积分都学了,太牛逼了。😂
她现在上的课是公司让去进修的,会和她的绩效挂钩。 所以不存在不学这个选项。
请问如何可以快速帮助她恢复稳固这些知识啊。(比如什么YT LINK OR BLOG OR APP ) 。 她说上次听到derivative好像one decade ago ...... (我自己也教不了她~~~因为我也忘记的差不多了)
另外,学习Neural network 为什么和multi variables calculus 很有关呢? Calculus knowledge 在整个AI 学习(industrial usage not research ) 有多重要呢? 不是说都是统计吗?
华人卧虎藏龙, 谢谢各位的帮助和解答! 另外,有没有正在学习的分享,哪些BLOG , 网站这方面说的好的呀? 谢谢
统计就时建立在 大数据输入,寻找 神经网络 链接 网络矩阵系数 的过程。
回去重新复习 大学高数一,和线性代数课本。可能还要找本习题集刷刷。
谢谢好心的网友回复。 有没有什么俗称课的VIDEO ,之类可以快速学习啊。重新学习大概率好像来不及了。 这才是第一课~~老师很快MOVE ON 了感觉。
另外,在真实工作中,不会解derivatives 是大问题吗? 有没有可能真的计算干脆就交给机器做啊? 谢谢
最后有人有什么好的习题集/课本可以推荐的?
油管搜3b1b calculus
现在还用 LMS 算法吗?30多年前上课用的,当时理解不了这个为啥是个重要和出名的算法? 也不明白 为啥 Mean Square 比mean Power 4(或2n) 好?
还说这个算法 有局部最小解缺陷,后来有 门特卡罗 随机大不步长算法。可是一直发理解这个真能作为通用算法 一定能收敛性到 全局最优解吗?
一直觉的这种算命先生 算除外全局最优解 差不多。太多的unknowns.
是不是 神经网络的的参数,需要经验积累(不是理论严格证明),不断地改 初始 参数值,然后考算法收敛到 全局最优解啊? 这样创造了 调参数的 AI工作?
从来没学过任何一门AI课,只是30多年前学了一门“神经网络”研究生课程,后两年接触了一点目标函数优化的文献算法。后来就做的几乎无相关的活。这里就瞎问问 AI大体上是什么?
经典是因为最简单且最常见,各种特性早就里里外外的摸清楚了,同时衍生了很多基础算法,拿来就用的工具多直接上手,不需要重新造轮子。不能说这个一定就比其他好,而是取决于你想要多aggressive,power 4肯定比power 2更aggressive,再进一步甚至可以用exponential,取决于你的模型有多强调这个loss,想达到什么效果。并不需要严格证明,但至少大概的learning方向和强度是有数的。训练过程中观察模型的behavior,各方面trade-off才能取得理想的效果。不是调参那么简单。
是的,我大一学数学也是纳闷,为什么发明这么多奇奇怪怪的变幻和notation,到了第二年学物理的时候全用上了。。。当初还有一门必修课就叫数学物理方法lol
一元微积分cheat sheet:
https://tutorial.math.lamar.edu/pdf/calculus_cheat_sheet_all.pdf
多元微积分cheat sheet:
用Harvard College那个网上的。
补充下朋友的背景
非大厂, 非IT ,但也是software engineer是core revenue business department. 技术人员 principal architect, 她多年负责的是 game engine design and all kinds graphic related technology。 至于为啥现在要被送去学AI ? 这个我也不清楚。只能说AI在各个科技领域未来几年必然主力替代许多现在的运用技术。
所以,自己derivatives 不好, 但如果理解理论,AI部分会够用嘛? 听她说课程速度很快。可能没有时间去重学大学数学知识~~ 。所以急需速成高效的得到需要的知识。 谢谢
谢谢。那是不是说,只要把chain rule 的底层逻辑搞懂了,不需要自己会计算derivatives or differential equations?
朋友是coder 不是DS 。将来可能看样子需要会公司需要建立起自己的AI 系统。 记得,GPT刚出现的时候,公司就弄来一个自己的server , 让员工可以各种自己测试AI 什么的。 ~~~
我不清楚你朋友用什么工具,如果要求自己从头解方程,并且不能借用第三方的优化工具,那就得会各种微分知识和知道根据设计的模型architecture完整的写出loss function.🥲所以建议重温大学的高等数学,这个估计你朋友以后也用得上。
微积分屠龙刀,倚天剑上就讲过这些BASIC的理解 英文是 how to ace calculus 两本 当小说看,花一个下午去仔细翻一下
你这不是一个问题是好多问题 LMS是经典算法在于它的计算简单,结果漂亮,应用场合广 它其实主要是用在信号和控制等满足Gausian noise assumption的场合,ML有些算法也用到它,但不是初始的用途 优化目标当然以达到要求的最简单为好,如果你mean square就能解决问题,为啥要费力算4次方呢
深度网络调参难是因为这是个多维空间的优化,层数越多参数空间越大,所谓的curse of dimensionality 不存在magical算法可以保证全局最优,但是当数据量和算力足够的情况下可以靠多次尝试得到更好的结果 ML的一条基本原则就是越大的模型需要越多的数据来训练 以前实际应用三层就到头了,2000年以后因为有了大数据和分布式计算的算力,可以支持更复杂的模型,但是越复杂的模型对初始参数越敏感
AI这个概念现在泛化了,啥都往里装,以前的AI一般指专家系统,知识提取,逻辑推理这些,ML则是基于数据建模,现在都统称AI
如果要接触算法部分的code,那就要懂。不接触不用。
如果只做implementation搭起来别人设计好的系统,完全没问题。如果想搞测试调参,甚至优化模型,没有intuition根本没戏,这玩意速成不了。
如果是这种情况我觉的不懂求导无所谓,甚至训练模型这些也大概率也不是他的活,architect需要懂的是ML系统设计 打个比方,理解Gradient Descent在深度网络训练里面怎么工作的,相当于理解汽车engine气缸打火是怎么工作的,只有设计engine修engine的人必须懂,一般人不懂也不妨碍开车
这个办法不仅不笨,而且是最容易坚持的。 重新上大学课程是最难坚持的。
不是有各种的包帮忙算吗?为啥还要自己算?pytorch?
看完了怎么找工作呢?
> multiple variables calculus derivative 都忘记了。她甚至连chain rule of single variable calculus
一个是 Calculus II 的, 一个是 Calculus I 的,重新学一遍吧
不明白的地方可以问问 chatGPT,再自己求证一下
Multivariable calculus, is a branch of calculus that deals with functions of multiple variables.
Vector calculus, on the other hand, is a branch of mathematics concerned with differentiation and integration of vector fields, which are functions that assign a vector to each point in a subset of space.
One of the ways that these two branches of calculus relate is through the gradient. In multiple variable calculus, the gradient of a function at a point is a vector that points in the direction of the greatest rate of increase of the function, and its magnitude is the rate of increase in that direction.
哈哈, 找工作我没捷径,这方面有技术问题我可以回答。
哈哈,自己算显得牛逼,自己码back propagation的各种derivative。当然现实中没人自己码,都是调用pytorch包。
谢谢。是叫how to ace calculus streetwise guide 吗?
感谢如此详细的建议! 请问那个配合看的书名是? Reinforcement learning: am introduction 马?
当年看 吴恩达的 机器学习课 印象很深就是他不断的说, 数学看不懂没关系, 会用就行。 讲到 back propagation, 直接说 这个其实我也不是很懂。
训练神经网络和传统的最优化不一样,没必要费劲去找全局最优,网络足够大足够深的时候every local minimum is a global minimum
很多基本概念google, chatgpt和youtube一下就有很详细的解释了
对,就是how to ace calculus streetwise guide 基本你说的基本微积分的常识屠龙刀里都有。这书我有时推荐给忘了微积分的但又想懂基本sense的MBA。
是的,reinforcement learning an introduction second edition. Sutton and Barto,
当然最快的学习方式还是看youtube视频,跟着视频码代码,比如Andrej youtube channel里的所有video,我是每个video都跟着码了几遍,把所有细节搞清楚以后就感觉chatgpt也没那么神秘吗😄
是的,reinforcement learning an introduction second edition. Sutton and Barto,
当然最快的学习方式还是看youtube视频,跟着视频码代码,比如Andrej youtube channel里的所有video,我是每个video都跟着码了几遍,把所有细节搞清楚以后就感觉chatgpt也没那么神秘吗😄
赞
谢谢解答。
30年前的时候,学校有mentor graphics送了很多worksation, 当时学习神经网络原理时,告诉我们这些工作站算个三层的要几天几夜。当然估计就是简单的LMS 目标函数,参数也少。
层数越多,每层的节点数越多,那么参数越多,算起来九月消耗算力,这个容易理解。现在算力够了。 初始参数选1,得出系数矩阵结果1, ... 初始参数选n,得出矩阵结果n, 最后怎么知道哪个厨师参数选的好?通过更多的测试数据集来竞赛 ? 即使得到一个最优的初始参数,及其矩阵细数结果,又怎么判断就是在全局最优解附近?
换个角度来问,就是怎么知道 选择的测试数据集合,就很能代表全体无限的数据 集合?这个靠经验和争论,实际无法给出结论? 多个中医把脉,哪个中医最接近实际结果,是不是类似?
least mean square是国内中学数学内容,最小二乘法 mean square跟很多东西是联系的,最基础是它从正态分布来的,正态分布又是个上帝最爱的分布,中央极限定理,一切的一切最后都变成了个正态分布
关于神经网络,为什么用上SGD就能收敛到一个“很好用”的最小值,理论上最近几年也有很多解释。这里面学问也挺多的,30年没碰过这类东西的,就谦虚一点别上来就是说人家算命先生调参数。人家自嘲一下,你就别跟着起哄了
这个说法是对的,需要足够宽的网络 过参数化和SGD bias也有影响
是不是就是偏微分方程这个:
f(x1,x2,....xn), by assuming only xi changes at time, then a partial derivative is derived as f'(xi), add all them together delta (f(x1, x2, ...xn) = f'(x1, x2, ...xn) delta(x1) + ...... + f'(x1, x2, ....xn) delta(xn), where each f'(....) assumes only one variable changes.
e.g. f(x1, x2) = x1^3 * e^x2 delta(f(x1, x2)) = ((x1^3)' * delta(x1)) * e^x2 + x1^3 * ((e^x2)' *delta(x2)) = 3*x1^2 * e^x2 * delta(x1) + x1^3 * e^x2 * delta(x2)
是不是就是chain 微分方程? delta (f(g(x)) = f'(g(x))*g'(x) * delta(x)
e.g. f(x) = exp((x^2))
delta(f(x)) = (exp(x^2))' * delta(x^2) = exp(x^2) * delta(x^2) = exp(x^2) * 2*x* delta(x) = 2*x*exp(x^2) * delta(x) that is f'(x) = delta(f(x))/delta(x) = 2 * x * exp(x^2)
和进一步组合起来的稍微复杂一点的公式?
这个只是自己不懂,当然只能瞎问啊。不懂的人,才会问这种让别人嘲笑的问题,再为正常不过了。问问题方面,无知者无畏啊。
我也没有装逼,我都说了我也就只有这么一门课科普性知识课程,不拍大家来批判/嘲笑的。更期望的是大侠 三言两语给高屋建瓴总结出进展/科普101。
为啥不知道 global 最优点的情况下,怎么知道多个之中最好/足够好的,规则如何定义的,为啥不能问啊? 一堆中医诊断一个人,最终睡的诊断最正确,也是要有规则定义的,这个逻辑漏洞在哪里?
最小二乘法题度搜素,我是读研才学过的知识。现在国内中学生就学这个,那么他们微积分都学了,太牛逼了。😂
纯正的数学统计学和概率学全是mitivariable calculus 真正要学懂统计学,一定要懂multivariable calculus,比如那些Jacobian, Lagrangian
问问题可以好好问,这也是个大家互相学习的论坛,没必要话里话外阴阳怪气的,大家又不是小孩子 不会再回了,你也不用浪费时间继续跟我摆这个架子
我没有资格和架子和你摆。你就觉得我的问题白痴无聊,我也就这个水平。
我看你说中学生都了LMS,我只能摆出我的经历和推理,认为他们太牛逼了。我存疑,你存异吧。
任何人回不回,都是自己的决定。有的人需要浪费时间,有的时间宝贵。求同存异吧!
P S:拉黑也是一个选项
我不搞ML但是需要码gradient descent。 如果有explicit form,我们的经验还是用算出来的,误差小。特别是某些loss function的形式(比如参数太多)会导致gradient descent算法不稳定,数值求导多加一层误差。能不能收敛收敛到哪,就更不好控制了。 不过这可能确实不适合ML那些需要快速试不同的loss func的?毕竟换一个就得重写一遍,感觉很麻烦。数值求导简单直接又一劳永逸
Machine learning和deep learning基本都是用automatic differentiation。
是的。看这个视频怎么自己码backpropagation的求导,就是简单方程的导数加上chain rule。
https://www.youtube.com/watch?v=q8SA3rM6ckI
系统提示:若遇到视频无法播放请点击下方链接
https://www.youtube.com/embed/q8SA3rM6ckI
推荐你看这个入门视频 https://www.youtube.com/watch?v=IN2XmBhILt4&t=758s statquest上有一系列讲backpropagation的视频,up主制作的非常用心,讲的很细致易懂。
不懂。 自己码这个 不用现成的工具包, 是就是觉得爽, 还是自己码的更好更快?
自己平时练习的时候码几次可以更深入理解,工作中不会自己码。
额,统计难道就不需要算法么