谈谈data science的行业经验 - 2023年10月24日北美华人网存档 (第 2 页)

一年多

Data science 工作以后容易被AI取代

一年多

回复 1楼wdong的帖子
domain knowledge当然是很重要的，做数据相关的工作，要做的好，显然不是只会调包跑代码就行。但现在的风气，人都很浮躁，对domain knowledge是很不屑的，因为domain knowledge不是transferable skill，不如leet code有用，也不如一些时髦的工具有用，不能用来跳槽拿大包。
实际上，现在做CS相关的行业的，包括楼主说的Data类的，有一个风气，就是对其他学科的知识很鄙视很不屑，没人懂，也没人稀罕懂。之前媒体热炒的google的bart翻车，把一个天文学方面的问题回答错了，我看了觉得一点也不奇怪。估计整个google都没人care那些回答的对错，因为万般皆下品，唯有算法高，其他领域的知识都是垃圾。
小城往事发表于 2023-10-21 23:15

+1 亲身体验，再赞成不过。亲眼见过很多不懂domain language的人设计的ERP乱七八糟

blee_x

一年多

非常认可！

blee_x

一年多

回复 35楼gu015的帖子
是这样，我队友就是这方面的牛牛。

blee_x

一年多

回复 40楼wdong的帖子
我总觉得是人为了显得高大上导致词汇乱用后的产物，这两个做好了其实做出的product应该是相似的，但是现实里看公司结构资源配置等。

zzsummer

一年多

这个行业非常杂，各个公司定义经常也不一样。

ryunosuke

一年多

好贴马克

moonbag

一年多

Mark mark mark

jianingzhu17

一年多

感谢好贴！特地登陆一下，支持楼主感谢楼主insights！

choumei

一年多

Mark mark

moonvalley

一年多

有了ai, llm以后，可以看见未来，所谓的domain knowledge也是很容易代替的，

8楼半的花城

一年多

mark

Geofan

一年多

确实，以后的domain knowledge最多就是Data labeler，外加个human audit。Openai就是一场彻底的革命。外加Nvidia。以后越上层建筑的马公会越来越有发展，但是金字塔底下就是无数的草根

moonvalley

一年多

回复 109楼moonvalley的帖子
就算是银行，保险公司这样的复杂business rule, 只要feed进入llm, 再人工调节一下， train一个model是很容易的事情，再用这个model 来指导coding, 或者ds

oqo

一年多

确实，以后的domain knowledge最多就是Data labeler，外加个human audit。Openai就是一场彻底的革命。外加Nvidia。以后越上层建筑的马公会越来越有发展，但是金字塔底下就是无数的草根
Geofan 发表于 2023-10-22 14:46

太理想化了 ai替代掉初中级工作后很难再找到有经验的资深专家来audit

joananne

一年多

回复 1楼wdong的帖子
domain knowledge当然是很重要的，做数据相关的工作，要做的好，显然不是只会调包跑代码就行。但现在的风气，人都很浮躁，对domain knowledge是很不屑的，因为domain knowledge不是transferable skill，不如leet code有用，也不如一些时髦的工具有用，不能用来跳槽拿大包。
实际上，现在做CS相关的行业的，包括楼主说的Data类的，有一个风气，就是对其他学科的知识很鄙视很不屑，没人懂，也没人稀罕懂。之前媒体热炒的google的bart翻车，把一个天文学方面的问题回答错了，我看了觉得一点也不奇怪。估计整个google都没人care那些回答的对错，因为万般皆下品，唯有算法高，其他领域的知识都是垃圾。
小城往事发表于 2023-10-21 23:15

你说的浮躁肯定是有的现象，但是“估计整个google都没人care那些回答的对错，因为万般皆下品，唯有算法高，其他领域的知识都是垃圾”这一估计是你自己的想象。做model的最终要看model的performance的，要比较model出来的结果和真正的/正确的结果有多大出入。这些真正的/正确的结果很多是靠人工label的。做model的很多公司（大的小的都算）都是要花钱买这些labeled data 或者自己直接雇人label这些data，用来train 和 test model。labeling 和 cleaning data都要domain knowledge，这些根本就是modeling的前期工作，是modeling的一部分。

calculus

一年多

谢谢分享，mark

Jay2020PA

一年多

LZ和各位有没有推荐的data science product management or program management 课程？对这一类工作发展前景怎么看不是很technical 的职位

AbeLin

一年多

这个问题其实就是数学模型几十上百年的问题。garbage in garbage out... 有些能完美解释过去，但只能随机预测未来。domain knowlegde 和数据的干净程度只是一个方面。真实应用场景远远不是模型里的那个纯粹干净的世界。所以能找到现实和理论符合的场景是难得的案例，而不是普遍情况。

千

千渔千寻

一年多

回复 109楼moonvalley的帖子
不太可能的。
大模型要工作得好，必须要有成千亿的优质数据点喂给它，才能涌现这种程度的ai。
传统行业的知识都是不公开的。外界公司搞不到这些优质数据点。另外，量必须是海量。其实你可能没有那么多数据喂给大模型。
开源代码和互联网符合这个条件。其他传统领域的工作不符合。
就拿生物来说吧。假论文辣鸡数据假数据这多，喂给大模型有用吗？

oqo

一年多

你说的浮躁肯定是有的现象，但是“估计整个google都没人care那些回答的对错，因为万般皆下品，唯有算法高，其他领域的知识都是垃圾”这一估计是你自己的想象。做model的最终要看model的performance的，要比较model出来的结果和真正的/正确的结果有多大出入。这些真正的/正确的结果很多是靠人工label的。做model的很多公司（大的小的都算）都是要花钱买这些labeled data 或者自己直接雇人label这些data，用来train 和 test model。labeling 和 cleaning data都要domain knowledge，这些根本就是modeling的前期工作，是modeling的一部分。

joananne 发表于 2023-10-22 15:03

这个就是为什么ai不能完全替代人工专家也是从菜鸟一步步学习进步上来的中低端工作都没了高级专家总不会从天而降吧

summerline

一年多

手动点赞！期待更多分享帖

莲

一年多

好贴，感谢楼主分享，从大家的讨论中也受益不浅

bhuahua

一年多

回复 64楼的帖子
梳理domain knowledge这事做多了会上瘾的。和猜谜一样。到后来没事也会去找事情分析。这是做DS最rewarding的地方。大多数从业人员都在买椟还珠。上面有人问专利怎么来，就是这么梳理出来的。
这个是我梳理了两个星期佛经梳理出来的： https://huaren.us/showtopic.html?topicid=2958406 以这个为基础，具体实现用现有的HCI技术组合一下，是有专利可以写的。
我写这些东西不可否认是有点神经病在里面的。
wdong 发表于 2023-10-22 08:28

多谢，我一直觉得专利只能是有形的，因为只有有形的才能判断是否对方使用了自己的idea，和对侵权做出估价和求偿。楼主注册的专利也是某种东西吗，还是思维的分析方法？话说思维的分析方法如何算钱呢？

bhuahua

一年多

非常赞同楼主的一些观点，数据要做得好还是需要一些domain knowledge。我是天坑专业出身，刚刚转行做入门的统计，工作是研究助理,做一些临床数据分析。顶头上司是临床医生，同组也有cs出身程序员，虽然我编程只是入门的水平，但是发现以前的天坑专业经验也不算白费。一个很小的例子，同事用一些数据train了一个预测肺水肿的模型，结果准确率不太理想，后来发现可能是数据清理阶段就没有做好，比如很多ICU病人连续几天都是out 大于in，处于脱水状态，而实际上这些病人每天大量输液，in 大于out 才是常态。但是光是编程没有临床经验的人很难有这个敏感度，马上发现数据的问题。又比如说需要清理一些抗生素的使用状况，虽然是同一种抗生素，静脉输液，口服和外用的冲洗适用于不同的疾病情况，不能混淆。我的体验是，数据分析这种interdisciplinary的领域，很多时候是需要团队协作的，有多种学科背景的人材会有优势。
aq2016 发表于 2023-10-22 09:49

多谢经验分享！

felali9

一年多

我也是菜鸟级ds, 前段时间想向我们大牛借一段code做预测，发现大牛用的模型跟我们应用其实是不匹配的。但他们一直用那个模型帮我们预测，说是时下比较流行模型。我花了几天研究了一下那个模型的运用范围，还是决定弃用，换了另一个。调了调参数，预测出来的效果很好。而且我的code非常简单。我觉得他们以前把这个搞得那么复杂的原因是根本没好好“理解题目”。只想套上先进算法就好了。

fight2015

一年多

感谢分享

qingcongsuiyue

一年多

回复 109楼moonvalley的帖子
就算是银行，保险公司这样的复杂business rule, 只要feed进入llm, 再人工调节一下， train一个model是很容易的事情，再用这个model 来指导coding, 或者ds
moonvalley 发表于 2023-10-22 14:54

银行，保险，没有复杂的东西，我都呆过。。。

mewto

一年多

回复 126楼qingcongsuiyue的帖子
那是因为你只懂得技术，不懂business. 银行和保险啊里不同lob 差别都很大比如 credit card, auto loan, deposit, small business etc.