谈谈data science的行业经验

平平平平
Data science 工作以后容易被AI取代
c
cauchy
回复 1楼wdong的帖子
domain knowledge当然是很重要的,做数据相关的工作,要做的好,显然不是只会调包跑代码就行。但现在的风气,人都很浮躁,对domain knowledge是很不屑的,因为domain knowledge不是transferable skill,不如leet code有用,也不如一些时髦的工具有用,不能用来跳槽拿大包。
实际上,现在做CS相关的行业的,包括楼主说的Data类的,有一个风气,就是对其他学科的知识很鄙视很不屑,没人懂,也没人稀罕懂。之前媒体热炒的google的bart翻车,把一个天文学方面的问题回答错了,我看了觉得一点也不奇怪。估计整个google都没人care那些回答的对错,因为万般皆下品,唯有算法高,其他领域的知识都是垃圾。
小城往事 发表于 2023-10-21 23:15

+1 亲身体验,再赞成不过。亲眼见过很多不懂domain language的人设计的ERP乱七八糟
b
blee_x
非常认可!
b
blee_x
回复 35楼gu015的帖子
是这样,我队友就是这方面的牛牛。
b
blee_x
回复 40楼wdong的帖子
我总觉得是人为了显得高大上导致词汇乱用后的产物,这两个做好了其实做出的product应该是相似的,但是现实里看公司结构资源配置等。
z
zzsummer
这个行业非常杂,各个公司定义经常也不一样。
r
ryunosuke
好贴马克
m
moonbag
Mark mark mark
j
jianingzhu17
感谢好贴!特地登陆一下,支持楼主感谢楼主insights!
c
choumei
Mark mark
m
moonvalley
有了ai, llm以后, 可以看见未来, 所谓的domain knowledge也是很容易代替的,
8
8楼半的花城
mark
G
Geofan
确实,以后的domain knowledge最多就是Data labeler,外加个human audit。Openai就是一场彻底的革命。外加Nvidia。以后越上层建筑的马公会越来越有发展,但是金字塔底下就是无数的草根
m
moonvalley
回复 109楼moonvalley的帖子
就算是银行, 保险公司这样的复杂business rule, 只要feed进入llm, 再人工调节一下, train一个model是很容易的事情, 再用这个model 来指导coding, 或者ds
o
oqo
确实,以后的domain knowledge最多就是Data labeler,外加个human audit。Openai就是一场彻底的革命。外加Nvidia。以后越上层建筑的马公会越来越有发展,但是金字塔底下就是无数的草根
Geofan 发表于 2023-10-22 14:46

太理想化了 ai替代掉初中级工作后 很难再找到有经验的资深专家来audit
j
joananne
回复 1楼wdong的帖子
domain knowledge当然是很重要的,做数据相关的工作,要做的好,显然不是只会调包跑代码就行。但现在的风气,人都很浮躁,对domain knowledge是很不屑的,因为domain knowledge不是transferable skill,不如leet code有用,也不如一些时髦的工具有用,不能用来跳槽拿大包。
实际上,现在做CS相关的行业的,包括楼主说的Data类的,有一个风气,就是对其他学科的知识很鄙视很不屑,没人懂,也没人稀罕懂。之前媒体热炒的google的bart翻车,把一个天文学方面的问题回答错了,我看了觉得一点也不奇怪。估计整个google都没人care那些回答的对错,因为万般皆下品,唯有算法高,其他领域的知识都是垃圾。
小城往事 发表于 2023-10-21 23:15

你说的浮躁肯定是有的现象,但是“估计整个google都没人care那些回答的对错,因为万般皆下品,唯有算法高,其他领域的知识都是垃圾”这一估计是你自己的想象。做model的最终要看model的performance的,要比较model出来的结果和真正的/正确的结果有多大出入。这些真正的/正确的结果很多是靠人工label的。做model的很多公司(大的小的都算)都是要花钱买这些labeled data 或者自己直接雇人label这些data,用来train 和 test model。labeling 和 cleaning data都要domain knowledge,这些根本就是modeling的前期工作,是modeling的一部分。

c
calculus
谢谢分享,mark
J
Jay2020PA
LZ和各位有没有推荐的data science product management or program management 课程?对这一类工作发展前景怎么看 不是很technical 的职位
A
AbeLin
这个问题其实就是数学模型几十上百年的问题。garbage in garbage out... 有些能完美解释过去,但只能随机预测未来。domain knowlegde 和数据的干净程度只是一个方面。真实应用场景远远不是模型里的那个纯粹干净的世界。所以能找到现实和理论符合的场景是难得的案例,而不是普遍情况。
千渔千寻
回复 109楼moonvalley的帖子
不太可能的。
大模型要工作得好,必须要有成千亿的优质数据点喂给它,才能涌现这种程度的ai。
传统行业的知识都是不公开的。外界公司搞不到这些优质数据点。另外,量必须是海量。其实你可能没有那么多数据喂给大模型。
开源代码和互联网符合这个条件。其他传统领域的工作不符合。
就拿生物来说吧。假论文辣鸡数据假数据这多,喂给大模型有用吗?
o
oqo
你说的浮躁肯定是有的现象,但是“估计整个google都没人care那些回答的对错,因为万般皆下品,唯有算法高,其他领域的知识都是垃圾”这一估计是你自己的想象。做model的最终要看model的performance的,要比较model出来的结果和真正的/正确的结果有多大出入。这些真正的/正确的结果很多是靠人工label的。做model的很多公司(大的小的都算)都是要花钱买这些labeled data 或者自己直接雇人label这些data,用来train 和 test model。labeling 和 cleaning data都要domain knowledge,这些根本就是modeling的前期工作,是modeling的一部分。


joananne 发表于 2023-10-22 15:03

这个就是为什么ai不能完全替代人工 专家也是从菜鸟一步步学习进步上来的 中低端工作都没了 高级专家总不会从天而降吧
s
summerline
手动点赞! 期待更多分享帖
好贴,感谢楼主分享,从大家的讨论中也受益不浅
b
bhuahua
回复 64楼的帖子
梳理domain knowledge这事做多了会上瘾的。和猜谜一样。到后来没事也会去找事情分析。这是做DS最rewarding的地方。大多数从业人员都在买椟还珠。上面有人问专利怎么来,就是这么梳理出来的。
这个是我梳理了两个星期佛经梳理出来的: https://huaren.us/showtopic.html?topicid=2958406 以这个为基础,具体实现用现有的HCI技术组合一下,是有专利可以写的。
我写这些东西不可否认是有点神经病在里面的。
wdong 发表于 2023-10-22 08:28

多谢,我一直觉得专利只能是有形的,因为只有有形的才能判断是否对方使用了自己的idea,和对侵权做出估价和求偿。楼主注册的专利也是某种东西吗,还是思维的分析方法?话说思维的分析方法如何算钱呢?
b
bhuahua
非常赞同楼主的一些观点,数据要做得好还是需要一些domain knowledge。我是天坑专业出身,刚刚转行做入门的统计,工作是研究助理,做一些临床数据分析。顶头上司是临床医生,同组也有cs出身程序员,虽然我编程只是入门的水平,但是发现以前的天坑专业经验也不算白费。一个很小的例子,同事用一些数据train了一个预测肺水肿的模型,结果准确率不太理想,后来发现可能是数据清理阶段就没有做好,比如很多ICU病人连续几天都是out 大于in,处于脱水状态,而实际上这些病人每天大量输液,in 大于out 才是常态。但是光是编程没有临床经验的人很难有这个敏感度,马上发现数据的问题。又比如说需要清理一些抗生素的使用状况,虽然是同一种抗生素,静脉输液,口服和外用的冲洗适用于不同的疾病情况,不能混淆。我的体验是,数据分析这种interdisciplinary的领域,很多时候是需要团队协作的,有多种学科背景的人材会有优势。
aq2016 发表于 2023-10-22 09:49

多谢经验分享!
f
felali9
我也是菜鸟级ds, 前段时间想向我们大牛借一段code做预测,发现大牛用的模型跟我们应用其实是不匹配的。但他们一直用那个模型帮我们预测,说是时下比较流行模型。我花了几天研究了一下那个模型的运用范围,还是决定弃用,换了另一个。调了调参数,预测出来的效果很好。而且我的code非常简单。我觉得他们以前把这个搞得那么复杂的原因是根本没好好“理解题目”。只想套上先进算法就好了。
f
fight2015
感谢分享
q
qingcongsuiyue
回复 109楼moonvalley的帖子
就算是银行, 保险公司这样的复杂business rule, 只要feed进入llm, 再人工调节一下, train一个model是很容易的事情, 再用这个model 来指导coding, 或者ds
moonvalley 发表于 2023-10-22 14:54

银行,保险,没有复杂的东西,我都呆过。。。
m
mewto
回复 126楼qingcongsuiyue的帖子
那是因为你只懂得技术,不懂business. 银行和保险啊里不同lob 差别都很大比如 credit card, auto loan, deposit, small business etc.