史上最强灌水:奇葩的MEGA 精选 科学网薛宇老师

来源:互联网 发布:什么是域名和网址ppt 编辑:程序博客网 时间:2024/05/16 01:40
http://blog.sciencenet.cn/blog-404304-725339.html


   做学术的人,如果不是全部,那起码99.99...%的人绝对是强烈反感灌水。所以前辈们总是循循善诱的教导我们:小伙子们好好做,要做Solid的工作,不要成天就想着发文章灌水。问题是世事无绝对,而且学科有差异,比如咱这个领域,灌水灌到手抽筋的也不在少数。咱当年读研究生的时候,最佩服的就是Yale的Mark Gerstein,那真不是一般人,一个Pseudogene,正着灌,反着灌,硬是在NAR这种级别的杂志上灌了20多篇。搞的后来师哥跟我讲:你知道吧,现在美国的老板们教育学生,都是拿Mark作为negative control,拿David Baker作为positive control,说你们不要像Mark一样灌水,要像David一样做solid的工作。我强烈抗议,说David也是照灌不误好不好?只不过人家老是灌Nature, Science,灌水的级别高了你不能就说这不是水啊。问题是Mark也真是超猛,一拿到“大水车”的称号立马转换科研风格,尤其是当年拿贝叶斯做PPI预测的工作发了Science之后,再也不灌水,做工作超有板有眼,坚实无比。后来弟兄们总结,说这办法挺好,年轻人出道先使劲灌水,灌到大家都知道你是个水虫之后,再踏踏实实做科研,成名的捷径啊。


   当然也有一路灌下去的,例如大家可以搜Pubmed,"Katoh M",当年我做学生的时候,这哥们平均每年灌50篇以上,专发希腊的几个SCI杂志,IF居然还有2点几。这哥们的风格历来是做个BLAST,做个多序列比对,然后画个进化树,好,一篇文章,然后引文里起码要引自己30篇文献。H-index超高的,我毕业那会儿他H-index就能有100多,什么诺奖那简直弱爆了。后来发现其实这哥们自引率不算高。很纳闷啊,这么灌自引率不高也太奇葩了。后来琢磨明白了,感情还有两个老外的组也一起灌,大家后来只引对方的论文,这样一炒就把他引率炒高了。我毕业那会儿,这哥们已经有500多篇论文,那引用,吓都能吓死人。后来搞生物信息学的不干了,有一次在国外一个论坛上,大家讨论搜索过滤的问题,有一哥们就跳出来,说能不能设个关键词,把这哥们屏蔽掉?还有,这哥们是日本人,所以不能没事老说中国人灌水,老外灌水比中国人疯狂多了。


   另外,NAR每年两期专刊,一月份发数据库,7月份发web server,基本上来说,就是在灌水。而且这应该是整个领域都很清楚的事情。奇葩的是,NAR的IF不降反升,后来明白了,不灌水哪来的引用?以前还好说,比如大型的数据库GenBank,UniProt,可以不引用,现在不行了,杂志一般要求你得引用,你想想,GenBank有几个不用的?就光这些水文,每年进账的引用那真是不得了。所以当年有很多人强烈抗议NAR,要求取消这两期水文。NAR很明确:不干。Oxford挺聪明的,NAR的专刊每年也就100来篇,哪儿能收这么多数据库?所以又搞了个新杂志,Database-The Journal of Biological Databases and Curation,今年的IF是4.2。基本上都是NAR专刊没上去的,然后再投这杂志的。二线的数据库都能把一个新杂志硬撑到4.2,你想想一线的数据库那得是多高的引用?所以我敢打赌,NAR如果取消掉这两期专刊,最多两年,IF一定会被Database超越。当然喽,除非NAR发疯,这种赔本的买卖是一定不会做的。


    当然,上述的这些灌水,跟本文要讲的主要内容MEGA比起来,那简直要弱的被爆出翔来。什么叫大师级的灌水?这要符合两个条件:1. 读者绝对不需要看原文;2. 短期引用超级高。MEGA这得介绍一下,全名叫Molecular Evolutionary Genetics Analysis,是分子进化领域里根井正利研究成果的一个小小的总结,但却是Kumar Sudhir (MBE主编,当今分子进化领域的准一哥)的经典工作。有道是:为人不知Sudhir,做遍进化也白玩儿。MEGA早期的工作有两篇:


1. Kumar S, Tamura K, Nei M. MEGA: Molecular Evolutionary Genetics Analysis software for microcomputers. Comput Appl Biosci. 1994 Apr;10(2):189-91. (google 引用2478)


2. Kumar S, Tamura K, Jakobsen IB, Nei M. MEGA2: molecular evolutionary genetics analysis software. Bioinformatics. 2001 Dec;17(12):1244-5. (google 引用6357)






   平心而论,MEGA早期的工作反响不大。这是因为直到MEGA2,做进化树的方法主要也就两种,MP和NJ。而进化树构建是三大主流方法,尤其是近年,ML的方法算是超受欢迎的方法。关于ML的传奇,这个我以前的帖子讲过了,大致就是一个很落魄潦倒的中国小伙,在国内混不下去跑英国留学,语言又不通嘛,所以没搞清楚主流在干吗,瞎鼓捣做一个大家都讨厌的方法,结果一不小心做成了,好吧,7年做教授,9年做了英国皇家学会的会士。Publication烂的一塌糊涂,有一篇PNAS还是评论,其他也就三分的杂志发发,这位学者就是杨子恒,绝对是神啊。问题是Nei讨厌ML,而且超级讨厌ML,所以坚决不把ML放到MEGA里。所以在MEGA3出来的之前,学界对MEGA的评价很简单:toy。我不能说搞进化的人都鄙视MEGA,但语气中那浓浓的不屑,这是很容易感受到的。


    MEGA奠定地位的一仗,是MEGA3的推出。就软件而言,仅仅是做了两个微不足道的小小改进,一个是允许多序列比较,另一个是引入ML。MEGA3有多重要?MEGA3的论文是:


3. Kumar S, Tamura K, Nei M. MEGA3: Integrated software for Molecular Evolutionary Genetics Analysis and sequence alignment. Brief Bioinform. 2004 Jun;5(2):150-63. (google 引用11561)






   这篇文章当时发在一个没有IF的新刊Briefings in Bioinformatics上,第一次获得的IF是24.37! 对,你木有看错,真的是这么高。BIB的主编Martin Bishop很得意,专门写了篇:BIB's first impact factor is 24.37,讨论MEGA3的贡献,说如果没这篇文章,那这个杂志也就是4左右的IF。所以一篇文章能把一个杂志炒出这么高的IF,并且也就俩小改进,谁敢说这不叫奇葩?


    如果你觉得这就是全部,那你就错了。BIB之后的IF如预期一样,持续下跌,最狠的是IF2008,跌到了4.627。所以,Kumar等人应该是应邀,2008年在BIB上又灌了一篇:


4. Kumar S, Nei M, Dudley J, Tamura K. MEGA: a biologist-centric software for evolutionary analysis of DNA and protein sequences. Brief Bioinform. 2008 Jul;9(4):299-306. (google 引用1672)


   不出任何意外,BIB的IF2009轻松达到7.329,其IF2010达到9.283。当然如意料之中,IF2011迅速回落到5.202,并且一直在5点几徘徊。


    如果你觉得这是故事的全部,那你还是错了。大师级的灌水,要严格遵从我讲过的两个定律,并且,还必须是:凡出手必神奇。所以Kumar决定改投MBE,分子进化领域的专业第一杂志。MBE是我见过的最严谨的专业杂志之一,极少灌水,MEGA可能是唯一的例外,因为灌水少,这个杂志的IF一直不怎么高,也就5点几。MEGA4于2007年发表:


5. Tamura K, Dudley J, Nei M, Kumar S. MEGA4: Molecular Evolutionary Genetics Analysis (MEGA) software version 4.0. Mol Biol Evol. 2007 Aug;24(8):1596-9. (google 引用20376)


    应该是简单的升级。反正文章我没看过,自从简单的看过MEGA2的论文之后,MEGA系列的论文我从来不看,因为不需要。猜猜看,什么结果?MBE的影响因子迅速上升,IF2008是7.28,IF2009是9.872。当然喽,IF2010迅速降到5.51,这是MBE正常的身价。奇葩了吧?这还不算完,连续两年MBE 5点几之后,2011年MEGA再次出手:


6. Tamura K, Peterson D, Peterson N, Stecher G, Nei M, Kumar S. MEGA5: molecular evolutionary genetics analysis using maximum likelihood, evolutionary distance, and maximum parsimony methods. Mol Biol Evol. 2011 Oct;28(10):2731-9. (google 引用7791)


    什么结果呢?MBE的IF2012是10.353!以一篇文章,把一个老牌专业杂志的IF玩成过山车的,仅此一例。很多人很看好MBE哦,因为IF可以管两年,预计明年MBE的IF还是不会低。当然后年就难说了,没准MEGA再次出手,那IF又能高上去。


    总结:MEGA是一个奇迹,也许不久的将来就是个神迹。MEGA的论文你不需要看,只需要引,你看看今年H7N9,其实最大的赢家是MEGA,赚引用赚到发疯...所以:


1. 学科有差异,搞生物信息学的,弄点升级啊,优化啊,该灌水那还得灌,什么玩意儿你都做得solid,没人看也没人引怎么办?MEGA发纯水,引成这样,你说灌水有没有道理?


2. 做东西要有持续性,你看MEGA 94年发的第一篇,熬了10年MEGA3才红。所以坚持就是胜利。
原创粉丝点击