My masters level analyst is paid at ~51K, PhD level analyst at 75K. Both fresh out of school. This is in an affordable southern city. I'm now looking for postdocs, because besides making a living, we also want to move the scientific frontier. If one concerns primarily with money, science is the wrong field to be in. I tell my staff members that they should use my lab as springboard to better paid industry positions.
Bioinformatics can be a good direction if you are interested in it. The pay varies a lot. If you are interested in getting more financial rewards in this field, you have to go to industry, and Ph.D. is not required.
My own experience:
Ph.D. in bioinformatics, work for industry. I have 10 employees, including both CS, bioinformatics, and biomedical engineering. Salary is the similar for Ph.D. or M.S, regardless of their major.
句句真言,感谢Charles分享! - Bioinformatics can be a good direction if you are interested in it. - The pay varies a lot. - If you are interested in getting more financial rewards in this field, you have to go to industry, - and Ph.D. is not required.
【 在 Charles (Hu) 的大作中提到: 】 My two cents: Bioinformatics can be a good direction if you are interested in it. The pay varies a lot. If you are interested in getting more financial rewards in this field, you have to go to industry, and Ph.D. is not required. My own experience: Ph.D. in bioinformatics, work for industry. I have 10 employees, including both CS, bioinformatics, and biomedical engineering. Salary is the similar for Ph.D. or M.S, regardless of their major.
Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...
【 在 keyia (keyia) 的大作中提到: 】 Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...
【 在 soldiera (匪兵甲) 的大作中提到: 】 My masters level analyst is paid at ~51K, PhD level analyst at 75K. Both fresh out of school. This is in an affordable southern city. I'm now looking for postdocs, because besides making a living, we also want to move the scientific frontier. If one concerns primarily with money, science is the wrong field to be in. I tell my staff members that they should use my lab as springboard to better paid industry positions.
看看我曾经做过的东西: Homology modeling MD simulation, Protein-protein(DNA) interaction simulation a little bit SVM on TFBS prediction Co-expression network microarray 现在又开始倒腾NGS
【 在 futureboyx (futureboyx) 的大作中提到: 】 句句真言,感谢Charles分享! - Bioinformatics can be a good direction if you are interested in it. - The pay varies a lot. - If you are interested in getting more financial rewards in this field, you have to go to industry, - and Ph.D. is not required. pay
Data integration is king. Don't get hung up by one data type or one project. Ask what you need to answer a scientific question, not what you can do with a piece of data.
【 在 soldiera (匪兵甲) 的大作中提到: 】 Data integration is king. Don't get hung up by one data type or one project. Ask what you need to answer a scientific question, not what you can do with a piece of data.
【 在 soldiera (匪兵甲) 的大作中提到: 】 Data integration is king. Don't get hung up by one data type or one project. Ask what you need to answer a scientific question, not what you can do with a piece of data.
【 在 soldiera (匪兵甲) 的大作中提到: 】 My masters level analyst is paid at ~51K, PhD level analyst at 75K. Both fresh out of school. This is in an affordable southern city. I'm now looking for postdocs, because besides making a living, we also want to move the scientific frontier. If one concerns primarily with money, science is the wrong field to be in. I tell my staff members that they should use my lab as springboard to better paid industry positions.
bioinformatics的课,想着拿到身份就可以转行到工业界, 想请教一下, 我是应该去修一个bioinformatics 的master 还是 拿个certificates性价比会比较高一点。谢谢
你这样的出路就是去读CS master,千万别扯生物,这样你的人生才有转机
其实看看linkedin上面的招聘描述就知道了,一个NGS,就至少要求Java,Perl, R, Python,有的还要c++。看着都蛋疼,要真的会这里面随便两种语言,再有算法刷刷题,啥样的工作找不到啊。
这些还不够,好多还要phd才行。
还要加上统计,ML...
经历。...........
说实话只能招到转行的千老,但是千老很多时候顶多也就能跑跑pipeline,能读懂别人的code然后再改改就已经是很不错的了,关键要读懂四五种语言。
还要开发软件,你想可能吗,反正我是干不下来。尤其那些小公司,尼玛从request analysis到design到后面的implementation,甚至debug都的你干。
不过真的挺累的
生物,写码,统计都得搞
有些厌倦了
相当于WOW里面的德鲁伊,能坦能奶能输出
就是每个都不够牛逼,很尴尬。。。
那种千老制度,一个人从为耗子杀耗子到后面文章投稿都还的操心。
一是这块工作还没有做大,自然不需要很细致的分工,不然个人工作量不够。有些地方就有专门养老鼠的,需要上来了而已
二是行业还不成熟,很多工作还是学术界的,而混学术界的又要操心credit的问题,不愿意只做一个螺丝钉。比如一个实验室真要每个人按技术来分工做实验,估计很多千老又要抱怨被当技术员用了。
不过这两个方面都在改善,比做实验还是有钱途一点点,算是50步笑100步
我做的就是跑跑程序,做实验,发文章啥的,我不管,可能方法部分,我给个草稿
不需要多牛逼。看着文档能写代码,就秒一大堆人了。
赶紧换个地方。
堆人上来,
立马又变成千老大煤矿坑了。
那帮人的逻辑是这样的:即懂cs又懂生物,其实大傻不知道,还不如单纯靠那点coding技能找个混饭吃的
正经工作。
而一旦沾上上bio,立马上了贼船。
劝各位生物转行的朋友们,远离这个坑吧,其实远比马工难,你的方法如果找不出点生物意义,基本就是白干。很多时候其实就是牵强附会,生物太复杂。而且生信就是一个打工的命。。。发论文都是十名开外,我看还不如杀耗子,起码不劳心。
生物信息比较宽泛,招聘信息要求一般都比较specific
比如今天看到某公司招人,不单要各种生物信息技能,还要有生物某领域内的研究经历。
所以,生物信息现在看起来也不容易。
都是泪
一般而言,生物信息博士要懂的比普通计算机MS 多双倍,
pay的只有计算机MS 的 80%
是一个性价比很差的专业,
也就比bench 强点,
总体上还是非常烂
但凡能干计算机千万别干生物信息。
这个行业,如果不做faculty的话,非常不值:
生物PI觉得我们什么都应该懂,什么都会做,而且地位太低,不太受重视。
工资待遇也很低。
有博士,有文章
hands-on大数据经验
分分钟秒所谓的data scientist
在公司里工资比马工低点
但不忙,还可以吹牛
加上学校里申请EB1绿卡方便
总体bioinformatics是个性价比很高的过渡
bioinformatics的工作, 做过七年的生物 bench work, 对 molecular biology,
biochemistry, genetics, structure of proteins 还是比较熟悉。 写程序还行,
自己写过一些算法(主要是perl, R). 有个 SAS advanced certification. 现在纠结是彻底放弃生物, 就找统计工作, 还是找bioinformatics工作(这个自己经验多些)
。 统计知识是可以, 但是大部分research project是生物相关的
入门6万,资深7万。
不管怎么说,比计算机或者数据科学家都差不少。
要求还高
我自己是学bioinformatics, PhD毕业正在找工作, 我瞄准的就是data scientist, 但
其实发现根本没那么容易,首先学位就不是computer science 和 statistics, 很多HR
第一关就去掉了, 因为他们根本不知道什么是bioinformatics, 另外, 很多data
scientist job都是在business,bank或者非生物领域, 基本上生物背景也比较难挤进去. 而且, data scientist要求的那些技能跟传统bioinformatics差别还是很大的, 传统bioinformatics基本就是现在流行的NGS data analysis, 而data scientist却要求很
多machine learning, hadoop等, 感觉大部分bioinformatics接触不到或者不需要这些东西. 大家随便去网上搜几个data scientist的job requirement,看看自己有多少符合的就知道了.
总之,bioinformatics转data scientist也不是很容易.
是在医学院下面一个独立的program,但教授都是从各个学院来的,也就是说我们系的学
生,可以选生物系, 医学院, 统计系, 数学系, 计算机系的老板做论文,但前提老板要
但像你统计PhD,很多工作都可以干, 比如data scientist, 何必要跳到生物这个坑呢? 总的来说, bioinformatics工作机会是很多,但基本都是博后这一类的职位, 很多实验
室都做一些NGS的实验, 想找一两个人分析数据, 所以总的来说需求是很大的,但工资都很低(我了解的bioinformatics薪水基本是6-8万, 而data scientist基本都是8-12万,
还有更高的,比如finance,我最近看到一个公司base 12万,compensation 10万+, 我从
glassdoor上查的),而且长远来说, 以后转什么都不太好. 而且现在大部分做
bioinformatics的工作,基本就是用现成的工具,加上一点Python等程序, 就可以搞定大部分问题, 说白了其实没什么技术含量.
大。
本人就是生物背景在做bioinformatics多年, 拿到几个职位工资最好的是85K, 和统
计/CS master起步工资差不多少。
见过不少生物信息PHD,linux那是相当的牛逼。
生物统计系的同学从老师到学生都是女的。
学的又是些古怪的DSL,比如R,SAS,SPSS。
一般编程比较烂。
编程角度,生物信息要比生统强。
fresh out of school. This is in an affordable southern city.
I'm now looking for postdocs, because besides making a living, we also want to move the scientific frontier.
If one concerns primarily with money, science is the wrong field to be in. I tell my staff members that they should use my lab as springboard to better paid industry positions.
查询,能改改php code调用数据库的都算不错的了。对于数据库结构,算法那些基本上一片空白,更别说AI ML了,找工作能不愁才怪。要找data scientist的话,要求其实很
高的,前面说的那种女僧,基本上全刷掉。
生物信息的PhD鱼龙混杂。如果是设在CS系,数学系的生物信息,还不错,其次是独立的
生物信息系,垫底的就是挂在生物系门下的计算生物学,生物信息。
如果是挂在生物系的生物信息,除非cs本科改投过来的,如果生物专业再上来的基本上就是两眼抹黑,学的好点的,又自己努力的会跑pipeline,如果只是刷课的,还不如野路子抓着稻草自学从水槽里爬上来的千老。
统计的phd女生好像比较多?)。 至少R, SAS不错啊(比我强吧),用得都不错。 最
后一个女生到了一个大的保险公司做 Senior Data analyst. 一个女生去了 SAS公司
, 还有一个去 了一个大药厂。 她们都是数学出来的, 数学功底也不错, 我们统计
系通过 qualify exam 来控制phd数量(通过率大概 25%-30%), 一般exam数学要求都很高. 我是半路从生物出家的, 所以很多数学的东西不懂都是请教她们(也感谢她们
的帮助)。 我们学校的统计还不是很强, 我估计牛校的统计女生应该不会差。
感谢楼上大家的建议, 看来我还是多看看统计的工作。我觉得每个专业都有特长的地
方, 因为我做的project是和CS, math, bio合作的项目, 我感觉从每个专业都学到了一些东西。 比如, 我一开始写的数学推导, 我开始认为非常容易理解, 后来在一个数学系教授的帮助下才知道什么叫严谨啊。
data scientist都是本专业找不到工作的理工PHD铤而走险,赌一把。
统计本身有固定的就业渠道。
传统的三个找工方向,faculty,药厂,银行和保险公司。待遇都不错。
中国女生学统计捷径啊。做个faculty比生物简单一个数量级吧。
男生学统计,找个美女老婆还是很方便的,呵呵。
Bioinformatics can be a good direction if you are interested in it. The pay varies a lot. If you are interested in getting more financial rewards in
this field, you have to go to industry, and Ph.D. is not required.
My own experience:
Ph.D. in bioinformatics, work for industry. I have 10 employees, including
both CS, bioinformatics, and biomedical engineering. Salary is the similar
for Ph.D. or M.S, regardless of their major.
析。
以上每一门课都得修一个学年。更别说,一些软件工程,操作系统的课了。再高深点的AI,ML,算法优化也得花时间研习。
从生物跑过来的搞生信的有几个能把这些课学全的?然后,跑跑pipeline,会写几个码,用R做个图,就说自己是做生物信息的,那工资是绝对不可能高上去的。
所以,如果是搞生信的,我只看本科学历,不是CS的基本功都不行。
很赞同你说的bioinformatics是个性价比很高的过渡,可拿绿卡,可锻炼computation/math的能力,工资也比一般博士后高。
我自己目前bioinformatics phd,但感觉自己都是在跑其他人现成的program,反而是
需要很深的生物医学的知识来进行有效数据的挖掘。有挺多NGS的hand-on经验,但编程,数学能力实在。。。。就不说了。。不知道能否说说以后转big data的经验呢?
部分问题, 说白了其实没什么技术含量
非常赞同。我也是biology背景然后读bioinformatics phd。我有很多NGS whole-
genome/exome/RNA-seq的经验,就是我可以把现有的pipeline成功跑起来,根据我的生物医学的兴趣目的,来挖掘信息。
但是数学和statistics还真是没有系统学过,只能是bioinformatics里需要什么就现成去学。所以每次看到indeed/linkedin招聘里写的要会一堆语言和statistics就觉得心
虚。
所以如果就找bioinformatician/genomics的工作,到底最看重什么呢?是NGS的经验吗?
我这种情况是不是去上下很多online course,恶补一下statistics的理论知识?
--------------------------------------------------------------------------------------------------------------------
不过也要说一句,这种看似没啥含金量的NGS经验貌似也不是一天两天就可以得到的,
(比如index bam file之前需要sort,或者有的程序需要对bam add read group)。所以越来越感觉bioinformatics就是要去适应学习已有的system,比如bwa,samtools等
等,让你的project运作起来,得到想要的data这就可以了。。真正具有开创性的工作
只需要少数又牛又幸运的人来做就可以了(比如heng li写bwa),就是个经验的东西。做的越久,你就越资深 。当然视野也会越狭窄点。
,还要有下游的实验验证才行,还是得懂生物啊。 而且这些都会的人基本都不会找
bioinfo了,绝大多数都去做DS,码农了..
bioinformatician啊。。
我的linux就是原来公司一个里面俄罗斯老头教的。他原来在NIH搞生信的,建cluster。
见过不少生信PHD的,linux都强到可以做system admin了。
不知道是不是因为实验室穷,必须自己搭cluster的缘故。
这样市场上因该很抢手。至少做data scientist一点问题没有。
我对Linux很感兴趣,学习数据分析前花了好久去学习Bash shell,越学越有意思。
以后想把regular expression,awk 和 vim 再好好学一下。目前写code还一直在用
nano,比较惭愧。。。
没有数学基础去搞data scientist就是自虐,别说微积分,线代了,如果矩阵和离散数学的基础都没有,后面的data structure,algorithm,AI,ML课程直接就瞎了。
- Bioinformatics can be a good direction if you are interested in it.
- The pay varies a lot.
- If you are interested in getting more financial rewards in this field, you have to go to industry,
- and Ph.D. is not required.
1. 面对的是大数据,以及最基础的小众的software;所以无法有成型的user-friendly可视界面;linux成了唯一选择。比如动辄100GB的数据你总不能像copy-paste一首歌那么容易吧
2. 大数据要在high-performance cluster上运行,而这样的cluster都是公用的,大家不是root;所以很多时候安装运行特殊软件需要自己动手,很多文件路径要重新设置,很多系统的library missing要自己重装,所以对linux熟悉
3. 我个人很懒惰,不喜欢跑python script,甚至interactively都不愿意;对于懒人
要做简单的script processing,自然就会awk啊,sed啊之类的,用的多
不过linux应该是最简单的了吧,linux做的好,这个有啥市场?
big data挖掘的确有市场,不过我们也就只会按照pipeline来跑跑程序
how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...
area:
1. Traditional IT companies are getting fully engaged in this area:http://cloud.google.com/genomics/
2. Lots of startups: http://www.bina.com/
, and much more: http://grouthbio.com/Genome_Software_Service.php
3. Recently, Seven Bridges Gets $45M, Begins Test Run for Cancer Genomics
Tool (backed by Google Genomics):http://www.xconomy.com/boston/2016/02/16/seven-bridges-gets-45m-begins-test-run-for-cancer-genomics-tool/
http://ambrygen.com/careers/bioinformatics-scientistprogrammer-0
想到工业界是一个机会,欢迎投简历。谢谢!
如果你是搞算法的,比如,mutation calling或者CNV,光是设计算法,开发软件,了
解别人的算法,和比较各种工具的performance,到写paper,到最后发出来,就够一个人,甚至一个小组忙活很长时间的。这种情况下,不可能有太多精力去了解其他的分析,比如gene expression什么的。
如果一个人什么都做过,反过来就不太可能什么都精通。一方面对一个软件的算法需要相当的了解,另一方面,需要真正做过几个real data才能有经验。如果再加强点和项
目相关的生物的学习,那么就很难对某个领域了解的很深。所以最后只能run下现成的
软件,最多做点小优化。
总儿言之,我觉得需要懂这么大杂烩的知识,相对于工资和地位,真的很不值。不如读个CS硕士或者统计,直接工作
我做了很多很多年的bioinfo,涉及几乎bioinfo的每个主要领域(除了进化)
microarray/NGS
expression/SV/TFBS/methylation
miRNA/lncRNA
protein mutaton/sequence analysis
protein/RNA structure&dynamics
network
最后感觉就是,太多需要学习了解的
费了老鼻子劲,结果单拼每个方面都不够牛逼
很没意思
一直认为生物信息就是三大块的知识点
生物,编程,统计/线代/算法/ML
最近几年在努力加强ML和统计方面,有些效果,但是准备不再花太多心思了
一来基础还是太差,比一直搞这个的科班差距明显,不能成为自己的一个卖点。
二来在生物和编程方面投入回报更大。
不过,我觉得bioinfo真的是很有意思的。最接近我当年报生物的初衷的职业。所以也
耗了这么多年青春。。
经常还要折腾一些安装设置
另外,linux/unix做些快速的文本处理是非常方便的
不过我不建议用awk/sed或者shell脚本做比较复杂的任务
这时候直接上script更方便高效
看看我曾经做过的东西:
Homology modeling
MD simulation, Protein-protein(DNA) interaction simulation
a little bit SVM on TFBS prediction
Co-expression network
microarray
现在又开始倒腾NGS
这么多年折腾确是把Linux弄熟悉了,都可以干系统管理了;编程是需要啥都学了点,
最早的fortran,tcl,然后Perl,Python,R; 现在对web开发感兴趣了,看看
javascript,node.js。。
这知识啊都学杂了,就是都不怎么精通。难道这是bioinformatician通病?
最开始是homology modeling, MD (amber) , protein docking
后来是 SVR for gene expression prediction (based on TFBS)
后来换了一个地方,我提了一个microarray处理的方案,用来做co-expression
network
再后来大家都开始NGS了...
中间还做过一些其他的projects
我怀疑你跟我差不多时间开始做的,每个时间点的热点比较有限
我觉得我们这样的,去很多bioinfo公司做pipeline是一点问题没有,但是这个活没啥
上升空间
就是不断的跟进新流行的技术/软件,了解里面的各种细节,然后根据自己的生物知识
和编程技能做出一个最合理的流程,进去的是raw data,出来的是用户需要的各种数据指标
我在几年前意识到了这个问题,决心做点有技术“含量的东西”
我先是做了一个介乎pipeline和独立工具之间的东西,有意识的运用了一些简单的统计工具。这个东西是我为我们合作者一种特别的技术专门设计的,没有现成的工具可以做好这个事情。混了几篇还不错的文章,当然不可能是真一作
然后我觉得必须在学术界和业界做个取舍。
生物信息的projects大致分两类
一类是data analysis,拿一手或者二手的大规模数据找各种相关性,从而挖掘生物学
意义
另一类是method development,研发一个工具/算法,解决一个特定的问题
第一类做生物的人比较擅长,而且如果是一手的数据,或者挖掘生物意义之后再跟一些验证实验,可以发很好paper。大部分生物背景做生物信息的都在搞这一类,对进学术
界有利。但是缺点就是搞成大杂烩,很难说自己精通点啥。
第二类一般是计算/数学/统计的人在搞。这类工作发的文章大多数是垃圾,除了同一领域的同行,基本没人看没人用的。但是,这类工作可以真正锻炼你的quantitative
skills, 这才是你找工作所需要的。另外,这个过程也可以锻炼你programming的能力
,而不是成天写script
我虽然喜欢研究问题,但是我觉得做PI没意思,也做不了PI,所以我换了一个做method的地方,努力补习各种算法/统计的东西,同时开始做以应用为导向的工具。 虽然我不可能发比以前好的文章,但是学到了很多新的东西,而且这些东西在以后的工作里面都是可以继续用到的(transferable)
目前我还没找工作,仅供参考。
我开始是做某个冷门领域的算法的,折腾了几年,倒是发了一篇很不错的文章,后果就是,其他领域的东西一点都不熟。接着NGS的大潮来了,我以前的方向也快做不下去了
。于是下决心投入到NGS的大潮里。当然,大部分时间是去设置一下别人的软件,优化
一下系统,分析一下数据什么的。
我感觉现在的软件,发文章的时候,具体的算法都语焉不详,给个框架就行了,然后就开始吹performance,你也不知道哪个好哪个坏。要想真正彻底的用好某个软件,有时
候需要花几个月的功夫。这时间花的非常不值。
我还有个感觉,有些年纪大点的PI,已经跟不上NGS的步伐了,他们脑子里就是本领域
那几个gene,所以即使有了NGS,很多时候数据都浪费了,就算你给出结果,他们也不
会解读,或者进行深一步的分析和挖掘。和我合作的医生,恨不能就是测个序,连
paper都想让我给他写出来。
同时,在很多的生物学家眼里,bioinformatician就是个technician,就是个跑程序算T test的,连个码工都算不上。
估计以后bioinformatics这个行业,慢慢会冷落的,或者跟着市场调节的。
晒在沙滩上,裸泳的机会都没有。已经入行了的有点hand on 的experience还能继续忽悠,fresh的很快就和扑通的生物剥尸猴一样。
1. 这波NGS(还有三代测序TGS)热,我觉得会比microarray热持续的更久也更有前途一
些。不知道你怎么看?microarray的兴衰,对NGS/TGS的发展有什么启示?microarray
的衰落基本上是和NGS的发展有关,那么NGS/TGS的衰落会由什么新兴技术造成?
2. 关于“生物信息的projects大致分两类”,这两类有没有可能结合起来?我也特别
喜欢研究问题。我总觉得生物学领域有很多很有意思的课题,我是做Evo-Devo的,接触过很多很有意思的模式/非模式生物和系统。我总觉得如果能深入挖掘的话,会有不少
有意思的东西。但是我技术不够,所以从NGS开始在一点点学习方法和技术,以后想把
统计、编程、算法等方面再加强一下。我尝试过拉着CS科班出身的同学来研究Biology
,结果不太成功。。。而且自己的性格也是,自己学明白了,用着才舒服。所以想探讨一下有没有方法真正的把开发工具和研究生物问题结合起来。
3. 以后的工作方向你是怎么考虑的?能讲一下听听吗?
多谢!
助吗?
关于新软件的文章,我也有点类似的感觉。Manual、UserGuide里没仔细介绍,很多功
能还得再上网搜好久。你有什么好的经验更快的上手?
不过我觉得最常用的核心软件比如EdgeR/DESeq2什么的,投入点时间掌握各种隐藏
trick还是很值得的,在很多projects里都能用,性价比还是很高的。
关于很多PI跟不上NGS的步伐,我深有同感。我09年做第一批Illumina数据时,我老板
还是反对的。去年另外一个PI做NGS,做了三个technical replicates却没有
biological replicates。。。分析他们的数据头都大了。。。
像你说的浪费数据情况也很多。所以我在想,自己技术学到之后,哪怕仔细分析一下发表了的质量好的二手数据,估计也能发掘出不少新东西。
我觉得bioinformatics还是很重要的,也许等这一批真正接触过bioinformatics的人做了PI之后,情况会有所好转。
然后就没有太多自己的时间了。但是想自己想自己挖掘点有兴趣的东西,那得需要比较深的生物的sense,也得多读些相关的paper--话说回来了,这不是拿着卖白菜的钱,操着卖白粉的心吗?
彻底解读和理解这些信息。将来reads长了,费用下来了,WGS普及了,很可能还能挖掘出更多的东西:现在大家基本上focus在coding regions,绝大部分的desert还没有人
碰呢。
bioinformatics坑结合起来挖到一块。。。然后再想想把白菜卖个好价钱。哈哈。又开始做白日梦了。。。
。而且由于对genome的理解还远远不够,很多信息不会立刻产生价值。但是长远来看,还是有前途的。
是的,从进化的角度看,很多selection都不是发生在coding region,很多“宝藏”还埋在non-coding region里边没被发现。2007,2008年左右,Hopi Hoekstra、Jerry
Coyne和Sean Carroll掀起很大的一场争论,说进化中最重要的是coding sequences的
变化,抨击了Evo-Devo领域有关cis-regulatory element的观点。接着Greg Wray,
David Stern等人开始反驳,包括接下来的好多文章,甚至Hopi自己的实验,都发现,
在很多情况下,non-coding region的变化都能引起性状的改变,在进化中也起很重要
的作用。现在这场争论早就过去了,但是关于non-coding region,cis-regulatory领
域的进化相关的研究还是远远没有transcriptome的研究多。仔细挖掘一下肯定还有新
东西。
Greg和合作者去年发了篇文章,讲Wnt pathway 一个frizzled receptor的一个
enhancer,对猩猩和人类大脑容积的变化有贡献。然后在小鼠里表达了一下,有同样的影响。很有意思。
现在上游Illumina测序的基因组越来越多,长reads测序方面PacBio SMRT也在发展。下游的Crispr技术越来越成熟,以前不好验证的一些实验相对容易很多。我觉得利用好
bioinformatics找到些有意思的问题,在evo-devo领域也许真能挖掘出一些有趣东西。
贴一张当年争论的趣图!
某PI曾经说,bioinfo的人就是算pvalue的
生物信息的软件大部分是垃圾
没办法,赶鸭子上架
老板grant要较差,学生要毕业,postdoc要出东西
所以论文必须发
问题是,生物体这么复杂,生物data噪音这么大
看似有理的方法其实不work,或者不比别的方法好,非常正常的
但是为了发文章,怎么都要掰出点花样来
有些底线比较低的就在有些不起眼的地方作弊,我审稿就遇到过
还是看了源代码才发现的
只是用一下别人的工具处理东西的话,我一般就找最流行引用最多的
花大量时间评估别人的东西,不划算
我也希望最终能把生物信息学用到真正的科研或者产业的应用上去,而不仅仅是用来计算一个p-value。。。
祝找工作顺利!以后多交流!
及structural variation,以及repetitive sequence,甚至telomere centromere肯定有革命性帮助,从这点说,NGS远远不会衰落。
毕竟一个生物和疾病层面很重要的东西---noncoding sequence,98%的human genome我们都不清楚功能。我们可以更好更精确的identify complex structural variation,
甚至运用到prenatal的产检上去,这是industry的机遇 。
但是一个根本性问题是,哪怕你做再多的evolution层面的比对,请你告诉我:
noncoding sequence的biology function是什么?什么promoter,enhancer,intron这些都是已经研究相对清楚的(但哪怕如此研究起来还是很困难),有更多的gene
desert的东西,必须要通过实验实验实验实验实验实验来证实。。。。。但一提到实验,尤其是subtle effect的,就各种猫腻故意研究一百年都难说。。。
本人phd一半就是在做实验研究计算发现的disease noncoding区域,一把血泪。。
Ask what you need to answer a scientific question, not what you can do with a piece of data.
编码基因目前都还没研究完没研究透彻呢。非编码区的研究,尤其是是实验研究,更慢更难是肯定的。这是目前的问题所在。我的想法是,既然有这样的问题,有什么好的解决方法去解决这些问题?如果没有现成的,需要开发哪些技术手段用来解决这些问题?
CRISPR肯定是个很好的工具。如果能结合上游的测序和生物信息学的分析、比较和预测,下游通过CRISPR来manipulate这些非编码区,来看性状、表型什么的,我觉得可行。瓶颈在于需要提高下游的效率、通量和缩短周期。上游可以做很快很多,但是下游做起来就很费事。(当然上游也存在一些问题,比如Illumina测序有bias,生物信息学还没有尽善尽美等等。我现在尤其觉得,如果只做transcriptome和只看SNPs,对于某些问
题还是太局限。)CRISPR才出现三四年吧,本身还在发展中,具体应用到我们这些冷门的Evo-Devo领域还是需要点时间的。(很多老一辈的PI之前都没有经历过生物领域这么大的变革,不管是从分析的技术工具方法、实验体系、知识体系、交叉学科等方面,面对这么多新玩意儿。能接受就不错了,真要用好还是需要不断试错和反馈才有进展。我很少见到哪个实验室第一个microarray实验、第一个RNA-seq实验、第一个CRISPR gRNA就有很好的结果的。)
提到Evolution只是恰好我在Evo-Devo领域,做课题是也恰好用到一些多个物种的比较
和从演化的角度去分析问题而已,没有想强调Evolution怎么样,也并没有做疾病的在
应用方面来的更直接。而且传统的做Evolution的人,往往只是从理论和观察的角度来
分析。即使现在有了测序,也无非是更多了一些微观尺度观察的材料和理论依据来进一步总结和猜测而已。能做的实验太有限,从时间尺度上就不太合适。但是Evo-Devo和很多领域都一样,都有一些很有意思的问题。如果能抓住测序、生物信息学、CRISPR等最新技术,还是有很多有趣的东西可以做的。
很想听你讲讲你在疾病领域做非编码区的生物信息学的经验和你见过的猫腻,对我的一些不切实际的想法应该很有帮助。
,生物信息作为一个职业有没有前途,信价比高不高,不是由兴趣和真理决定的,是由市场决定的,供求决定的。随着Crispr技术的出现,实际的生物实验会越来越像hack自然界的“生物程序”,越来越像硬的“生物信息”(用病毒,纳米技术来hack),要做好这样的实验,能在实验前用软“生物信息”做下预测,对实验成本和结果解释会有帮助。生物信息应该会在未来生物研究中占据重要的位置,但“hypothesis” driven 和 experimental driven 都不可或缺,生物信息本身作为一个职业都尴尬之处是它都上升空间有限,它所产生都假说仍然依赖于实验都验证,依赖于funding,所以相应都地
位不高,操的心还多。 对实验没有发言权的生物信息学人来说会很难过。对未来的生
物学家来说,信息学技能是必要的,但生物学家仍然不会赚到很多的钱。 这是由市场
决定的,是会随着经济的起伏而起伏的。任何一个行业要想正常发展,就要像医生律师那样,有工业行会,有bar。无限制的扩张终将毁灭任何一个行业。建议大家还是找一
个有bar的行业,智力上的(CS),或者行会上的(医生,律师,有职业资格的)。
可惜目前“软”生物信息还需要通过“硬”生物信息来验证和实现,“硬”生物信息又不像计算机黑客那样,也许有个计算机有个网络自己就能搞,要做bench work,还有各种限制,不太容易搞出大成果。而且经过三十多亿年演化的复杂生命比人类创造的仅仅70年历史的计算还是要复杂好多个层次的,要想破解,谈何容易。不好想象以后如果真的破解了一部分并且可以操纵,会是什么样子。
所以真的是在靠兴趣和白日梦来撑着。也许将来有一天,在地下室“软硬”生物信息就都能搞,还不小心能搞出个大的,这个行业的才会有所地位吧。
又想多了,哈哈~
我老婆就是你说的这种PhD,不过她的专业叫survey methodology,从02年开始设立一共就出来了20个PhD。
另外,这是你的第一个贴?我怀疑是马甲 哈哈
一来data integration 看起来很美,还能用上各种听起来很nb的方法
二来二手data的原主人都嚼过一遍的,不把不同人嚼剩下的凑一起,实在拼不出一桌来这两点对拿钱和发文章都很重要
不过从真正实用的角度看,这个策略很多时候然并卵
原因很简单,对于不同的数据类型,如果之间是强烈相关的,那么互补性就会很差;如果是差异很大的,怎么恰当的整合在一起又是个很大的挑战
而对于不同组的同种数据,各个数据集之间很可能有系统性的偏差,放在一起用的益处主要是增大sample size。 一般来说,这就是个数据收集的任务,不会提到数据整合的高度
举两个自己的例子
1. 之前一个组的一个project,卖点之一就是这个整合,结果整来整去结果还不如不整的。后来我从生物角度论证了一下为啥整不出来,写在paper里面不整了。好在还有其
他卖点,文章还是发了
2. 审一个算是熟人的稿子,卖点是整合一个xx信息可以提高xx的结果。他们费了九牛
二虎之力,还找人做了不少实验验证,最后投了一个很一般的杂志,还被审稿人们问的死去活来。原因只有一个,就是这个方法其实不行,但是钱都拿来,文章必须得发啊
当然,很多好的bioinfo文章也是这个套路,比如一些cancer的文章,五六种genome-
wide的数据一起招呼过来,天花乱坠的。帮老板审过一篇这样的,很好的杂志,仔细看看,其实有几类数据贡献很小,expression数据和methylation数据又高度冗余。不过
是熟人,随便扯点不重要的问题,最后也发了。
所以这就是一个坑,运气好发点好文章大家都高兴,运气不好死撑也能投出去,别太当真就好
把Python, Java, SQL,R 搞熟了找个工作是正经。没事把Data science,deep
learning, natural language的东西搞清楚了, 对找工作对现在的工作都有帮助。都不难,但写在简历上就是buzz word,有用。
我的微信 FtUSA2012 先谢谢了
details?
[email protected]/* <![CDATA[ */!function(t,e,r,n,c,a,p){try{t=document.currentScript||function(){for(t=document.getElementsByTagName('script'),e=t.length;e--;)if(t[e].getAttribute('data-cfhash'))return t[e]}();if(t&&(c=t.previousSibling)){p=t.parentNode;if(a=c.getAttribute('data-cfemail')){for(e='',r='0x'+a.substr(0,2)|0,n=2;a.length-n;n+=2)e+='%'+('0'+('0x'+a.substr(n,2)^r).toString(16)).slice(-2);p.replaceChild(document.createTextNode(decodeURIComponent(e)),c)}p.removeChild(t)}}catch(u){}}()/* ]]> */
Thanks
当时还是postdoc,觉得你的观点很有意思
这年找了不少工作,也对你这些话的感悟更深了
特别是这句:
生物信息本身作为一个职业都尴尬之处是它都上升空间有限,它所产生都假说仍然依赖于实验都验证,依赖于funding,所以相应都地位不高,操的心还多。
作为一个从业10+年,bioinfo大部分主要领域以及几种主要职责都干过的人
真心奉劝转行人士,能不要进此坑,就不要进,最多做个跳板