力挺bioinformatics - 2017年3月21日未名空间存档

8 年多

楼主 (未名空间)

bioinformatics是非常好的去处，不光对生物，对很多领域也是非常好的研究领域，尤其对中小的组和学校
最近几年大数据和深度学习的风潮起来，数据成了一个最重要的方面，NIH最近对生物
大量投入，产生了大量的数据，比如各种roadmap，encode，在DNA 测序方面，大批的
测序数据进入实际应用。最最重要的是，这些数据，都是真正的生产数据。
为什么称为生产数据？因为这些数据都是真实原始数据的，不是为了某些目的处理过的，除了生物信息，请举个例子，学术界哪里还有这种真实原始的高纬度的数据。对小学校小课题组，比如做computer vision，能用数据库就是ImageNet等专门的数据库。
ImageNet的意义当然毋庸置疑，但是这个数据毕竟是在真实生产中不存在的，哪里来的这么多手工加label的training data呢？
对bioinformatics领域来说，是training非常好的一个平台。学生要自己找available
的数据，要自己找可能有效的方法，要自己找能够用的资源，并且要能快速评估结果，这个training，对PhD学生来说，到了工业界都是transferable的skill。比如Facebook或者Google的里的PhD做的工作，给定目标，比如提高点击率或者啥的，也要自己找数
据源，自己找可行的方法，自己找能用的资源，在bioinformatics中的training的确是受益匪浅的

nowhere7

8 年多

2 楼

你个cs背景做方法的成天来biology版误导
很没人品你造不？

绝大部分生物背景的弄这个就是跑跑pipeline，parse些结果，看看各种association，根本没机会搞什么高大上的各种learning。

所以一定要摆正姿势，不要觉得自己在探索真知，赶紧趁机自学编程和数学线代统计之类的才是正途。也就是说，很多东西是课题用不上的，你自己借机自学而已

切勿觉得bioinfo是个好去处
这些个high throughput data，里面多少是信号，多少噪音，真的天知道。这也直接导致bioinfo的很多东西，都是试试而非，不能在实际生活，比如疾病诊断中用上。这也
就意味着，没啥钱途，是能学术圈混着

【在 mitbbsrobot (机器人) 的大作中提到: 】
bioinformatics是非常好的去处，不光对生物，对很多领域也是非常好的研究领域，尤
其对中小的组和学校
最近几年大数据和深度学习的风潮起来，数据成了一个最重要的方面，NIH最近对生物
大量投入，产生了大量的数据，比如各种roadmap，encode，在DNA 测序方面，大批的
测序数据进入实际应用。最最重要的是，这些数据，都是真正的生产数据。
为什么称为生产数据？因为这些数据都是真实原始数据的，不是为了某些目的处理过的
，除了生物信息，请举个例子，学术界哪里还有这种真实原始的高纬度的数据。对小学
校小课题组，比如做computer vision，能用数据库就是ImageNet等专门的数据库。
ImageNet的意义当然毋庸置疑，但是这个数据毕竟是在真实生产中不存在的，哪里来的
这么多手工加label的training data呢？
...................

happycn

8 年多

3 楼

其实是在不同层面的忽悠罢了，杀老鼠固然无趣，做数据依旧是靠天吃饭。

从职业发展的角度讲，还是现实一些好。

如果是有做faculty的情怀，拿全当我没说。

mitbbsrobot

8 年多

4 楼

你看在Google或者Facebook的后台数据，那些是噪音那些是信号？那些和下次点击不相干那些相关，都不知道啊，都是要慢慢研究的啊。甚至你在youtube看的视频，哪些是
你看的哪些是你老婆在你电脑上看的，后台都不知道啊，还不是要慢慢研究。
哪是信号哪是噪音，都研究清楚了，还要雇PhD干啥？

【在 nowhere7 (折腾) 的大作中提到: 】
你个cs背景做方法的成天来biology版误导
很没人品你造不？
绝大部分生物背景的弄这个就是跑跑pipeline，parse些结果，看看各种association，
根本没机会搞什么高大上的各种learning。
所以一定要摆正姿势，不要觉得自己在探索真知，赶紧趁机自学编程和数学线代统计之
类的才是正途。也就是说，很多东西是课题用不上的，你自己借机自学而已
切勿觉得bioinfo是个好去处
这些个high throughput data，里面多少是信号，多少噪音，真的天知道。这也直接导
致bioinfo的很多东西，都是试试而非，不能在实际生活，比如疾病诊断中用上。这也
就意味着，没啥钱途，是能学术圈混着

mitbbsrobot

8 年多

5 楼

所以说bioinformatics的skill都是可以transferable的skill，比做computer vision
更好。毕竟做CV的，除了个别牛校牛组，拿到的都是那几种数据，其实研究范围很窄，但是bioinformatics里的数据，基本都是现实数据，并且不管是数据还是方法，都是没有边界的，只要能解决问题就可以

【在 happycn (cnnnnc) 的大作中提到: 】
其实是在不同层面的忽悠罢了，杀老鼠固然无趣，做数据依旧是靠天吃饭。
从职业发展的角度讲，还是现实一些好。
如果是有做faculty的情怀，拿全当我没说。

oldpostdoc

8 年多

6 楼

个人觉得bioinformatics这个领域，如果有一定编程和计算能力，但是做不了PI，还是尽早往其他方向跳吧，哪怕是biostat也行。如果不是专心搞算法的，你suppose什么数据类型都得会分析，好多软件都得会用，最好是明白里面的算法，光调试好，深刻理解一个软件就得花不少时间。如果专心搞算法，就得focus一个小领域，这样自然对其他
topic就没那么熟悉。

nowhere7

8 年多

7 楼

然
你说的基本就是跑pipeline的工作
人肉数据处理机
费力不讨好

【在 oldpostdoc (oldpostdoc) 的大作中提到: 】
个人觉得bioinformatics这个领域，如果有一定编程和计算能力，但是做不了PI，还是
尽早往其他方向跳吧，哪怕是biostat也行。如果不是专心搞算法的，你suppose什么数
据类型都得会分析，好多软件都得会用，最好是明白里面的算法，光调试好，深刻理解
一个软件就得花不少时间。如果专心搞算法，就得focus一个小领域，这样自然对其他
topic就没那么熟悉。

oldpostdoc

8 年多

8 楼

还有一点，很多时候，生物学家或者医生眼里，bioinformaticians就是些画heatmap和做t test的，就是些technician,这种感觉很不爽，虽然大部分时间确实是做这些的LOL【在 nowhere7 (折腾) 的大作中提到: 】
然
你说的基本就是跑pipeline的工作
人肉数据处理机
费力不讨好

flareon

8 年多

9 楼

我黑心老板逼迫我做实验
我现在只要让我做pure bioinformatician我就开心了，也就是做纯的“heatmap和
ttest”

命苦啊

【在 oldpostdoc (oldpostdoc) 的大作中提到: 】
还有一点，很多时候，生物学家或者医生眼里，bioinformaticians就是些画heatmap和
做t test的，就是些technician,这种感觉很不爽，虽然大部分时间确实是做这些的
LOL

nowhere7

8 年多

10 楼

所以说是人肉数据处理机
数据进去，结果出来
别人觉得你就是会跑跑一些工具罢了
事实大部分时间也是做这些

问题是，即使跑跑工具的活，
各种实验层出不穷，
具体到某种实验，处理的工具还是层出不穷
文档基本都是烂的一坨
这些都是很杀脑细胞的
弄完这些DR们还觉得，结果怎么跟我想的不一样？

【在 oldpostdoc (oldpostdoc) 的大作中提到: 】
还有一点，很多时候，生物学家或者医生眼里，bioinformaticians就是些画heatmap和
做t test的，就是些technician,这种感觉很不爽，虽然大部分时间确实是做这些的
LOL

oldpostdoc

8 年多

11 楼

同感。做一种分析，各种软件一大堆，文档几乎没有写的好的，有很多还要求先运行其他软件的结果作为input，发现自己的结果远没有人家paper里吹的那么美好，或者干脆什么信号都没有，那才frustrating

【在 nowhere7 (折腾) 的大作中提到: 】
所以说是人肉数据处理机
数据进去，结果出来
别人觉得你就是会跑跑一些工具罢了
事实大部分时间也是做这些
问题是，即使跑跑工具的活，
各种实验层出不穷，
具体到某种实验，处理的工具还是层出不穷
文档基本都是烂的一坨
这些都是很杀脑细胞的
弄完这些DR们还觉得，结果怎么跟我想的不一样？
...................

nowhere7

8 年多

12 楼

大部分软件都是为了发文章混毕业
我不到万不得已不会碰那些来路不明的软件
文章发得再好，吹的再响也不用

要么用大家检验过的，要么自己写
其实自己写爽多了，完全掌握各种细节
就是没工夫做些花活，帮别人处理东西的话别人可能觉得不爽

这些作者里面，我很服气li heng，特别是他说过
这些工具就应该用default参数就能跑的很好才对
非要你折腾来折腾去的不合理

还有一个华裔，thomas wu，在genetech，十多年如一日的维护他的软件
performance也确实很好，用起来让我觉得很放心

不过我现在对这些都厌倦了
没啥意思，折腾半天对自己是0积累

【在 oldpostdoc (oldpostdoc) 的大作中提到: 】
同感。做一种分析，各种软件一大堆，文档几乎没有写的好的，有很多还要求先运行其
他软件的结果作为input，发现自己的结果远没有人家paper里吹的那么美好，或者干脆
什么信号都没有，那才frustrating

yikeli

8 年多

13 楼

感觉楼主挖坑的。除非是当pl, 否则生信比纯生物还吃力不讨好。生信狗同意
nowhere7 前辈的每一句话，生信真的只能当跳板。所谓的transferable skill ，
在别的行业积累得快多了。

oldpostdoc

8 年多

14 楼

楼主倒不一定是挖坑的。周围很多搞纯生物的同事确实很厌烦lab的工作，想转行
bioinformatics，因为“pay 的高”，而且相对“轻松”。这确实很能理解。

不过对于做计算，统计，CS的，除非热爱生物学，还是尽早转行比较好。这个行业积累的东西，确实都比较皮毛，长远来讲很不划算。而且，如果真的想加强生物背景的话，还真得花时间学习生物知识，以便和生物学家沟通。有这时间真不如多刷题做题，练习coding呢。

【在 yikeli (斯德哥尔摩症患者) 的大作中提到: 】
感觉楼主挖坑的。除非是当pl, 否则生信比纯生物还吃力不讨好。生信狗同意
nowhere7 前辈的每一句话，生信真的只能当跳板。所谓的transferable skill ，
在别的行业积累得快多了。