力挺bioinformatics

未名空间
mitbbs
Biology
最新回复:2017年3月21日 6点57分 PT
m
mitbbsrobot
楼主 (未名空间)
bioinformatics是非常好的去处,不光对生物,对很多领域也是非常好的研究领域,尤其对中小的组和学校
最近几年大数据和深度学习的风潮起来,数据成了一个最重要的方面,NIH最近对生物
大量投入,产生了大量的数据,比如各种roadmap,encode,在DNA 测序方面,大批的
测序数据进入实际应用。最最重要的是,这些数据,都是真正的生产数据。
为什么称为生产数据?因为这些数据都是真实原始数据的,不是为了某些目的处理过的,除了生物信息,请举个例子,学术界哪里还有这种真实原始的高纬度的数据。对小学校小课题组,比如做computer vision,能用数据库就是ImageNet等专门的数据库。
ImageNet的意义当然毋庸置疑,但是这个数据毕竟是在真实生产中不存在的,哪里来的这么多手工加label的training data呢?
对bioinformatics领域来说,是training非常好的一个平台。学生要自己找available
的数据,要自己找可能有效的方法,要自己找能够用的资源,并且要能快速评估结果,这个training,对PhD学生来说,到了工业界都是transferable的skill。比如Facebook或者Google的里的PhD做的工作,给定目标,比如提高点击率或者啥的,也要自己找数
据源,自己找可行的方法,自己找能用的资源,在bioinformatics中的training的确是受益匪浅的
n
nowhere7
2 楼
你个cs背景做方法的成天来biology版误导
很没人品你造不?

绝大部分生物背景的弄这个就是跑跑pipeline,parse些结果,看看各种association,根本没机会搞什么高大上的各种learning。

所以一定要摆正姿势,不要觉得自己在探索真知,赶紧趁机自学编程和数学线代统计之类的才是正途。也就是说,很多东西是课题用不上的,你自己借机自学而已

切勿觉得bioinfo是个好去处
这些个high throughput data,里面多少是信号,多少噪音,真的天知道。这也直接导致bioinfo的很多东西,都是试试而非,不能在实际生活,比如疾病诊断中用上。这也
就意味着,没啥钱途,是能学术圈混着

【 在 mitbbsrobot (机器人) 的大作中提到: 】
bioinformatics是非常好的去处,不光对生物,对很多领域也是非常好的研究领域,尤
其对中小的组和学校
最近几年大数据和深度学习的风潮起来,数据成了一个最重要的方面,NIH最近对生物
大量投入,产生了大量的数据,比如各种roadmap,encode,在DNA 测序方面,大批的
测序数据进入实际应用。最最重要的是,这些数据,都是真正的生产数据。
为什么称为生产数据?因为这些数据都是真实原始数据的,不是为了某些目的处理过的
,除了生物信息,请举个例子,学术界哪里还有这种真实原始的高纬度的数据。对小学
校小课题组,比如做computer vision,能用数据库就是ImageNet等专门的数据库。
ImageNet的意义当然毋庸置疑,但是这个数据毕竟是在真实生产中不存在的,哪里来的
这么多手工加label的training data呢?
...................
h
happycn
3 楼
其实是在不同层面的忽悠罢了,杀老鼠固然无趣,做数据依旧是靠天吃饭。

从职业发展的角度讲,还是现实一些好。

如果是有做faculty的情怀,拿全当我没说。
m
mitbbsrobot
4 楼
你看在Google或者Facebook的后台数据,那些是噪音那些是信号?那些和下次点击不相干那些相关,都不知道啊,都是要慢慢研究的啊。甚至你在youtube看的视频,哪些是
你看的哪些是你老婆在你电脑上看的,后台都不知道啊,还不是要慢慢研究。
哪是信号哪是噪音,都研究清楚了,还要雇PhD干啥?
【 在 nowhere7 (折腾) 的大作中提到: 】
你个cs背景做方法的成天来biology版误导
很没人品你造不?
绝大部分生物背景的弄这个就是跑跑pipeline,parse些结果,看看各种association,
根本没机会搞什么高大上的各种learning。
所以一定要摆正姿势,不要觉得自己在探索真知,赶紧趁机自学编程和数学线代统计之
类的才是正途。也就是说,很多东西是课题用不上的,你自己借机自学而已
切勿觉得bioinfo是个好去处
这些个high throughput data,里面多少是信号,多少噪音,真的天知道。这也直接导
致bioinfo的很多东西,都是试试而非,不能在实际生活,比如疾病诊断中用上。这也
就意味着,没啥钱途,是能学术圈混着
m
mitbbsrobot
5 楼
所以说bioinformatics的skill都是可以transferable的skill,比做computer vision
更好。毕竟做CV的,除了个别牛校牛组,拿到的都是那几种数据,其实研究范围很窄,但是bioinformatics里的数据,基本都是现实数据,并且不管是数据还是方法,都是没有边界的,只要能解决问题就可以
【 在 happycn (cnnnnc) 的大作中提到: 】
其实是在不同层面的忽悠罢了,杀老鼠固然无趣,做数据依旧是靠天吃饭。
从职业发展的角度讲,还是现实一些好。
如果是有做faculty的情怀,拿全当我没说。
o
oldpostdoc
6 楼
个人觉得bioinformatics这个领域,如果有一定编程和计算能力,但是做不了PI,还是尽早往其他方向跳吧,哪怕是biostat也行。如果不是专心搞算法的,你suppose什么数据类型都得会分析,好多软件都得会用,最好是明白里面的算法,光调试好,深刻理解一个软件就得花不少时间。如果专心搞算法,就得focus一个小领域,这样自然对其他
topic就没那么熟悉。
n
nowhere7
7 楼

你说的基本就是跑pipeline的工作
人肉数据处理机
费力不讨好

【 在 oldpostdoc (oldpostdoc) 的大作中提到: 】
个人觉得bioinformatics这个领域,如果有一定编程和计算能力,但是做不了PI,还是
尽早往其他方向跳吧,哪怕是biostat也行。如果不是专心搞算法的,你suppose什么数
据类型都得会分析,好多软件都得会用,最好是明白里面的算法,光调试好,深刻理解
一个软件就得花不少时间。如果专心搞算法,就得focus一个小领域,这样自然对其他
topic就没那么熟悉。
o
oldpostdoc
8 楼
还有一点,很多时候,生物学家或者医生眼里,bioinformaticians就是些画heatmap和做t test的,就是些technician,这种感觉很不爽,虽然大部分时间确实是做这些的LOL【 在 nowhere7 (折腾) 的大作中提到: 】

你说的基本就是跑pipeline的工作
人肉数据处理机
费力不讨好
f
flareon
9 楼
我黑心老板逼迫我做实验
我现在只要让我做pure bioinformatician我就开心了,也就是做纯的“heatmap和
ttest”

命苦啊
【 在 oldpostdoc (oldpostdoc) 的大作中提到: 】
还有一点,很多时候,生物学家或者医生眼里,bioinformaticians就是些画heatmap和
做t test的,就是些technician,这种感觉很不爽,虽然大部分时间确实是做这些的
LOL
n
nowhere7
10 楼
所以说是人肉数据处理机
数据进去,结果出来
别人觉得你就是会跑跑一些工具罢了
事实大部分时间也是做这些

问题是,即使跑跑工具的活,
各种实验层出不穷,
具体到某种实验,处理的工具还是层出不穷
文档基本都是烂的一坨
这些都是很杀脑细胞的
弄完这些DR们还觉得,结果怎么跟我想的不一样?
【 在 oldpostdoc (oldpostdoc) 的大作中提到: 】
还有一点,很多时候,生物学家或者医生眼里,bioinformaticians就是些画heatmap和
做t test的,就是些technician,这种感觉很不爽,虽然大部分时间确实是做这些的
LOL
o
oldpostdoc
11 楼
同感。做一种分析,各种软件一大堆,文档几乎没有写的好的,有很多还要求先运行其他软件的结果作为input,发现自己的结果远没有人家paper里吹的那么美好,或者干脆什么信号都没有,那才frustrating

【 在 nowhere7 (折腾) 的大作中提到: 】
所以说是人肉数据处理机
数据进去,结果出来
别人觉得你就是会跑跑一些工具罢了
事实大部分时间也是做这些
问题是,即使跑跑工具的活,
各种实验层出不穷,
具体到某种实验,处理的工具还是层出不穷
文档基本都是烂的一坨
这些都是很杀脑细胞的
弄完这些DR们还觉得,结果怎么跟我想的不一样?
...................
n
nowhere7
12 楼
大部分软件都是为了发文章混毕业
我不到万不得已不会碰那些来路不明的软件
文章发得再好,吹的再响也不用

要么用大家检验过的,要么自己写
其实自己写爽多了,完全掌握各种细节
就是没工夫做些花活,帮别人处理东西的话别人可能觉得不爽

这些作者里面,我很服气li heng,特别是他说过
这些工具就应该用default参数就能跑的很好才对
非要你折腾来折腾去的不合理

还有一个华裔,thomas wu,在genetech,十多年如一日的维护他的软件
performance也确实很好,用起来让我觉得很放心

不过我现在对这些都厌倦了
没啥意思,折腾半天对自己是0积累
【 在 oldpostdoc (oldpostdoc) 的大作中提到: 】
同感。做一种分析,各种软件一大堆,文档几乎没有写的好的,有很多还要求先运行其
他软件的结果作为input,发现自己的结果远没有人家paper里吹的那么美好,或者干脆
什么信号都没有,那才frustrating
y
yikeli
13 楼
感觉楼主挖坑的。 除非是当pl, 否则生信比纯生物还吃力不讨好。生信狗同意
nowhere7 前辈的每一句话, 生信真的只能当跳板。 所谓的transferable skill ,
在别的行业积累得快多了。
o
oldpostdoc
14 楼
楼主倒不一定是挖坑的。周围很多搞纯生物的同事确实很厌烦lab的工作,想转行
bioinformatics,因为“pay 的高”,而且相对“轻松”。 这确实很能理解。

不过对于做计算,统计,CS的,除非热爱生物学,还是尽早转行比较好。这个行业积累的东西,确实都比较皮毛,长远来讲很不划算。而且,如果真的想加强生物背景的话,还真得花时间学习生物知识,以便和生物学家沟通。有这时间真不如多刷题做题,练习coding呢。

【 在 yikeli (斯德哥尔摩症患者) 的大作中提到: 】
感觉楼主挖坑的。 除非是当pl, 否则生信比纯生物还吃力不讨好。生信狗同意
nowhere7 前辈的每一句话, 生信真的只能当跳板。 所谓的transferable skill ,
在别的行业积累得快多了。