那这篇论文的开篇几句话是什么意思? https://www.mdpi.com/2073-8994/11/3/338/htm Clustering is to group data so that the observations in the same group are more similar to each other than to those in other groups. k-means is a popular clustering algorithm in data mining. Its objective is to optimize the mean squared error (MSE).
那这篇论文的开篇几句话是什么意思? https://www.mdpi.com/2073-8994/11/3/338/htm Clustering is to group data so that the observations in the same group are more similar to each other than to those in other groups. k-means is a popular clustering algorithm in data mining. Its objective is to optimize the mean squared error (MSE). microsat 发表于 2022-01-25 15:45
回复 1楼microsat的帖子 不是专家,瞎掺合。我记得loss function for logistic regression is cross entropy; 用train set 加上什么梯度递降 来估计 w1, w2.. 也就是模型有了 (WX + b) 精度和f1之类metrics的概念是基于上述已有的模型的。模型不变的基础上,你可以改变decision boundary p = 0.5 or 0.2 etc. 这样你的精度什么也会变大或者变小。。。
回复 1楼microsat的帖子 不是专家,瞎掺合。我记得loss function for logistic regression is cross entropy; 用train set 加上什么梯度递降 来估计 w1, w2.. 也就是模型有了 (WX + b) 精度和f1之类metrics的概念是基于上述已有的模型的。模型不变的基础上,你可以改变decision boundary p = 0.5 or 0.2 etc. 这样你的精度什么也会变大或者变小。。。 ivoryzz 发表于 2022-01-25 15:58
回复 70楼microsat的帖子 你当然可以用其他objective function 如果你上过根正苗红的ML课,algorithm是需要自己implement,比如自己写一个decision tree什么,而不是学习如何import sklearn 自己写algorithm的时候,可以customize objective function 比如说, 你跑一个简单的regression,你也可以定义成不追求MSE,而是追求一条通过最多点的线 但这些,都需要你自己有这个能力,build the algorithm from scratch
精度定义为(TP + TN)/(TP+TN+FP+FN)
据贫道所知,所有的机器学习算法都不以精度作为目标函数。
那你的所知,基本是错误的。
不用算法,就是在loss function里面挑一个呗,square loss, cross entropy,etc
你在哪个厂啊,我要short你们的股票了。
哈哈哈哈
机器学习classification目标函数没见过精度
这个是结果,不是优化的目标函数
哈哈哈,你太可爱了
你们的机器学习水平太低了。
10个药品A的病人样本,1000个不服用药的病人样本。 机器学习,的结果, 如果能做到SN和SP都令人满意?
那你一定是药厂 head of data science啦! 传统企业充斥着这种狗屁不通的DS Head,然后招一堆DS PhD招了开开了招,因为他们都做不出好的model
感觉这里有个分歧,机器学习算法的目标函数一般是以局部/全局最优解为目标的,但是在调参数/选模型上,有的问题也可以以楼主给的精度为指导/目标,选精度最大的模型/参数。
regression的指标mse,rmse,nrmse,其实质都是以精度为中心。
当模型中的数据偏向一边时,比如数据中有10个0,1000个100,另外零星几个50布局在中心时候, 这个时候regression就会出现偏向100的学习。
所有regression的指标,其实就是精度。这就是为什么,如果数据中有outlier的时候,regression的精度会大打折扣。
我的问题是,我要寻求不以精度为目标函数的机器学习。 以精度为目标函数的机器学习,我已经有了。
“以精度为目标函数的机器学习,我已经有了”
还有这样的秘密武器啊,你在哪个厂呢,这我得赶紧买入股票了。有顶会文章吗甩个链接呗。
你说的目标函数是cost function 吗?那些传统机器学习方法,random forest ,decision tree,和logistic regression都不是以你说的precision为cost function啊
在喝水,差点笑得呛着了。
我说的是cost function。 只要cost function 和Accuracy成正比,即使不是accuracy,也算是以accuracy为目标函数。 accuracy定义为 (tp+tn)/(tp+tn+fp+fn)
我说的是cost function。 只要cost function 和Accuracy成正比,即使不是accuracy,也算是以accuracy为目标函数。 accuracy定义为 (tp+tn)/(tp+tn+fp+fn)
哈哈,楼主混淆了目标 和 目标函数, 既然用了 ‘目标函数’ 这个专业术语,他的意思就是 cost function, 就不能说因为他最终目的是提高精度,那精度就是目标函数 其实最终目的除了精度还有其他很多,上面人提到过了
本以为你讨论学术问题。 群里有的是高手,自然知道真理。
你这句话并不暗示你很牛啊,我错过了什么吗?
如果目标函数和精度是正相关,那么这个目标函数也算是以精度作为目标函数。
只是发表算法的人,没直接把精度作为目标函数列出来。
只不过,regression的mse,rmse,这些公认的以精度作为目标函数,大家都接受罢了。
频道?为啥不是贫尼?
我来讨论学术,寻求真理。不是来暗示是高手的。 我是小菜。
真理必定要合你心意的才是真理叭。
查历史记录
精度是指accuracy吗?那么基本没有用 accuracy 的。
基本所有的都是用的accuracy,或者和accuracy成正比。 比如mse, rmse.
我都看不下去了。当年当ta的时候就反复强调,不能用accuracy来计算一个classification 的正确性!
给你举个栗子。
得某种病得人是百万分之一。我有一个模型根据一些指标预测此人有没有这个病,without活检。 那我闭着眼睛说所有人都没病,那我的正确率也是999999/一百万。 所以你不能用accuracy,起码用个f1。好了,f1这个当作今天的家庭作业。
。。。。。。。 觉得你真的不懂诶。。。。。
要不你去问问你老板,或者同事什么的
看你老发帖,上次还发帖说一个什么for loop 的问题也是你吗
你不用找了。现存的所有算法,都是基于均方误差,或者与均方误差有直接关联的目标。 你举的那个例子,图中svm的目标实质也是均方误差。 当object是一类是1, 另一类是0 (predicted - object )^ 2, 正比于 w^2
当object是binary,均方误差,就是你说的精度的平方。
再给lz加一个作业,f1也有几种,好好看看怎么用
还真不知道。贴出F1的各种公式,学习学习。
朋友,你听说过unsupervised learning吗?
unsupervised learning的算法不也是基于mse的吗?或者一个类似mse的东西。比如:基于mse的K-mean
lz你真的太逗了,unsupervised没有ground truth,哪来的mse? 建议多学一学再继续讨论
那这篇论文的开篇几句话是什么意思? https://www.mdpi.com/2073-8994/11/3/338/htm Clustering is to group data so that the observations in the same group are more similar to each other than to those in other groups. k-means is a popular clustering algorithm in data mining. Its objective is to optimize the mean squared error (MSE).
嗯哪
哈哈 同问
所以我们遭殃 一堆没有用的产品被硬推
今天总算知道原因了
现在是不是疫情期间 还是药厂向来这样啊
Question is MSE of what…
lz很好学 孺子可教也
不是专家,瞎掺合。我记得loss function for logistic regression is cross entropy; 用train set 加上什么梯度递降 来估计 w1, w2.. 也就是模型有了 (WX + b) 精度和f1之类metrics的概念是基于上述已有的模型的。模型不变的基础上,你可以改变decision boundary p = 0.5 or 0.2 etc. 这样你的精度什么也会变大或者变小。。。
我去看看logistic regression.
…???
怪我狭隘了,总想着unsupervised 是 distance,error是regression
lz很好学,帮着回答一下层主问题,可以用center point来算error
这题我会, 佛道是两家 佛,和尚自称贫僧,尼姑是贫尼 道,道士和道姑都贫道,所以bellshirt即使是mm,她也可以自称贫道,人称师太
是。我想问:为何我们在优化模型的时候不直接拿recall来作为优化目标呢? 而是要等待模型加权重训练完了,然后 再去看recall是不是合格。
如果recall是优化目标的话,最终的模型就一定是一个最好的recall值。而无需我们再去取舍。 如果recall是优化目标的话,我们也无需添加权重进模型了。
计算recall只需要label 1的数据啊……只优化recall那岂不是全部predict 1了
哈哈,那人根本没入门呢,听他在这儿瞎扯。
这和疫情没有关系。而且我就是举个特例来说明为啥即便是classification 也不能用accuracy。
请问这些方法对 testing集的性能能提高吗?
对于imbalance的数据集,我用过SMOTE,SMOTE可以提高training集的性能,但是对testing集几乎没什么提高。你的实验结果是如何?
AUC一般是作为performance metric。 几乎不可能让它成为目标函数,也许未来某一天出现一个统计学大牛。
另外,作为performance metric的AUC在处理imbalance的数据的时候,几乎无能为力。 所以,不用AUC。
auc对class imbalance免疫的 lz
我觉得lz其实很厉害 但故意错说哈
我的问题是:
我们评价一个机器学习模型的时候,并不单独用accuracy来评价。前面很多人都说了。有人建议F1. 等等。
那么,既然我们不能用accuracy来评价,那为何在解这个机器学习的优化模型的时候,要把目标函数设置成一个与accuracy高度相关的函数呢? 比如:如果用的是MSE,那么就是accuracy。
尽管我们添加了惩罚函数,比如SVM优化目标函数里面的C那一项。但是,其主函数W^2, 这一项, 可否变更为一个与accuracy或者MSE,不高度相关的函数,比如变成一个与F1高度相关的函数呢?
有没有大牛能解决这个问题。突破机器学习的这一瓶颈。
或者更大的难度,我需要优化什么性能,那么机器学习的目标函数就定义为那个性能。比如:就来个AUC作为目标函数。 (当然,AUC,这里只是举个例子,让AUC作为目标函数,应用范围不大。)
"auc对class imbalance免疫", 这是什么意思? 1) auc不能用于class imbalance 2) auc能用于class imbalance
我的观点是1) auc不能用于class imbalance。 我的观点是建立在大量的数据分析的基础上的。凭借我的直观得出的判断。
先谢谢大牛们
看了前面,楼主的问题是混淆了用来optimize的fcn和 evaluate model的 performance metrics
现在learning里面主要的优化算法就是gradient descent,那么loss function就需要differentiable,所以一般的performance metrics是不能直接做loss function的
Yes. Lz应该先搞搞清楚ml的原理,从头学起
你当然可以用其他objective function 如果你上过根正苗红的ML课,algorithm是需要自己implement,比如自己写一个decision tree什么,而不是学习如何import sklearn 自己写algorithm的时候,可以customize objective function
比如说, 你跑一个简单的regression,你也可以定义成不追求MSE,而是追求一条通过最多点的线 但这些,都需要你自己有这个能力,build the algorithm from scratch
其实楼主的问题并不是off topic 这个想法其实是有点创新的 只是不符合framework 难点在于楼上说的无法求极值优化 sgd 需要目标函数闭区间连续开区间可导哈哈 precision accuracy 等函数是不可导不光滑的 楼主很有想法
现存的ML算法,就如同下面这个例子。
男子要求红娘给介绍脸蛋漂亮的女朋友。 结果红娘介绍了心地善良的女朋友。 无奈,男子只好从这些心地善良的女孩中,再挑出一个最脸蛋漂亮的作为女朋友。 显然,这不是男子要的最优解。那个脸蛋最漂亮,但心地不怎么善良的,是男子的梦中情人。
问题:红娘能不能直接就推送脸蛋漂亮的女朋友?
请问,你把accuracy翻译成什么?
precision 一般我翻译成精准。类似现在的精准扶贫,用的就是这个precision。 accuracy我翻译成精度。
回答你最后一个问题。
物以稀为贵。一般sample size比较多的那一类,往往不是很重要的。所以就是NEG。 比如正常人就是NEG。 病人,比较难招聘到,所以就是POS
另外,无论你是把少数定义为POS,还是NEG,不影响结果。只影响表达。SN,SP正好掉个个。 其实,性能不变。 这个例子,也说明,ML的核心算法,是基于TP + TN, 也就是,无论你把少数定义为POS,还是NEG, TP + TN 的和不变。