我写这个本来是想跟武夷山老师前段时间的博文《给研究生的忠告》建立起某种联系,但是时间已经过了很久了。我就以我自己的课题为例,挂一漏万,纯粹抛砖。本文分三节,第1节主要是讲搜集文献的整体步骤,第2节主要讲具体得到一些Paper的资源,如何去整理,第3节是讲在查找和阅读文献时如何记笔记。以下的方法可能只适用于外文文献,因为我基本上不看中文的文献。中文期刊的编年惯例、CNKI和维普等数据库的功能等等都有些不一样。
在写之前我想向各位研究生读者先声明一句:没心搞研究的,将来不想当科学家的,准备考公务员或者找工作,读博只想随便对付一下的同学,就不用看这篇文章了。因为这篇文章讲的所有东西在你们眼里都是毫无必要,傻冒之极,连搞笑的效果都达不到。
1. 文献的“主流化”
刚开始读研究生,不管是导师给你的题目也好,自己上网看到的也好,一开始你手头上有的只是一两个代表着你兴趣点的关键词(Keywords)。也许如果题目是你自己找来的,你还会有少数paper。
你现在的任务还不是决定你自己具体要解决什么问题,而是先了解这个小领域的研究历史,目标是从整个研究小史中看出大家为了理解这一问题都做过什么努力,现在到达了一个什么程度。只有在这个基础上,你所提出的新想法,你所做的贡献,才会“入流”,将来才会好发文章。所以,你必须要从几个关键词开始,最后获得大量文献。而且希望所找到的这些文献都是处于或围绕着该领域研究历史的主流的,而不是一些trivial的工作。
以下是我的做法。
我的课题最初得到的关键词就是“物理凝胶化”,再加上从专业上讲,我是搞高分子的,凝胶又必定是高分子网络-小分子溶剂的二元体系,因此我要找的文献应该关于“高分子”、“溶液”和“物理凝胶化”。我一开始是在Google.com上搜索这几个关键词的。在此我先要讲讲我对搜索引擎的看法。
1.1 一般搜索引擎
很多同学用百度搜中文的东西,搜外文的东西也充其量用Google.cn(谷歌)。但根据我的使用经验,百度搜索技术十分差劲,或者说它对搜索结果进行了人为的调整,导致你无论搜索什么,所出来的东西离你真正想要的相差很远。Google.cn的搜索技术虽然基于Google,但由于中国审查和中国的营利模式的原因,其搜索结果也经过了人为的调整。在Google.com搜索中文和英文信息都令人满意,绝不会像某些同学所想象的那样,认为用英文的Google.com搜中文会有很多该搜到的搜不到——反倒百度会如此。在大多数的电脑上,键入www.google.com后自动会转入www.google.cn(谷歌),需要在页面下方点击“Google.com in English”才会进入真正的Google.com。使用英文的Google.com的另一个好处是,你能使用Google所开发的所有工具和功能,因为Google仅有部分工具进行了汉化并在Google.cn(谷歌)上发布。
1.2 搜索的技巧
关于Google搜索技巧的文章在网上有很多了,但是我看了都等于没看。除了用空格隔开关键词之外(大概是and的效果),我只懂用表示or的符号“|”,还有用双引号表示精确对应。再就是点开advanced options了,里面可以有更多的搜索选项。就算是这样,我都懒得用这么多技巧。回到我自己的例子,我搜“physical gelation”,看看出来点什么结果;然后再搜“polymer physical gelation”、“polymer solution physical gelation”等等,换变换着关键词的组合,以刺激搜索引擎的智能,让它尽量给你新的东西。在搜索结果中会直接出现一些科研文献,甚至是pdf。但是从Google上搜到的这些文献往往是不太主流,但目前也只能先打开来看看了。通过看这些文献的Introduction部分,你会:
• 知道更加相关或准确的关键词。然后回到Google.com搜出更加相关的paper
• 通过Introduction中的讲述和引用,知道一些局部的研究历史,并得到主流的文献
不要急着看文献的Introduction的具体介绍,先尽量得出些关键词,穷尽Google.com所能得到的东西。最后其实关键词也无非那几个,在Google上,你已经无法获得什么新的东西了。这时,由于你毕竟浏览了好几篇paper的Intorduction,大概对本领域的以前研究有些模糊的印象。
1.3 科学研究工作的类型或地位
我又要暂时离开主线,单独讲讲另一个问题。因为和仅仅在Google上瞎搜索不同,接下来你将会找到大量的文献了,这时你需要对这些文献有所取舍。因此,最好脑中要对科学研究工作的类型或地位有清晰的认识。武夷山老师的博客里已经说过:表现于理论,可以是提出新概念(可以是小概念)、发现新现象(可以是小现象)、引入新方法、构建新模型、改进旧模型,等等。表现在实证,可以是搜集新数据、从一个新的角度或采用新的方法去分析新数据或老数据、根据分析结果提出理论建议以上引文我把最后四个字“政策建议”改为“理论建议”,因为我做的是基础研究,无非是就是在理论与实验之间倒腾。
1.4 Introduction+参考文献
现在回到我的例子,经过不断Google,我已经搜到的一些Paper。现在的任务就是按年代往前搜索文献。现在,通过手头上有的Paper的Introduction部分,会得到一些参考文献,这些参考文献的Introdcution又会提供更多的参考文献。在一开始,这样的搜寻方式会导致你的文献数量以几何方式增加。而且,尽管我清楚要进行取舍,但在我对这一领域还很模糊的情况下,我基本上没有怎么去“舍”。但是,还是有几个原则要记住。
• 任何一篇文章的Introduction部分,都可以分成两部分,第一部分就是吹大牛,第二部分就是具体到本文的方法、材料和元素的具体介绍。“吹大牛”部分所引用文献一般都比较重要比较主流的文献,但是第二部分在讲具体方法具体材料时的所引用的文献,就要看情况了。如果这篇文章所用的方法、材料等等是本领域经常用到的主流,那么这部份所引用的文献也是需要看的;如果这篇文章所用的方法、材料等等在本领域来说是很次要的,完全是补充性的,甚至是没事找事的,那你就不用管它引用的参考文献了。不过,也许在一开始你连这个问题都判断不了,那就只能照单全收了。
• 这一阶段的目标是尽量找到最老、最原始的那些研究。因此如果你想减轻你的负担的话,可以在年份上跳跃一下。比如,如果一下子找到了20年前的一篇paper,那么这十年间的paper的introduction就可以都不看了,直接从20年前的那篇paper的introduction开始,重新向更早扩展。这十年间你所跳过的paper,将来有机会找到的。
1.5 ISI Web of Knowledge
ISI Web of Knowledge的用处有两个方面:
• 在上面按topic搜你的关键词,可以找到更多相关的文献,其意义上面已意讲过了,前面讲过的搜索的技巧此处也适用的
• 在上面搜某一特定的paper,可以查到这篇文章发表之后的被引用情况
要在ISI上查某特定的文章,可以直接按title搜标题,也可以通过期刊名、发表年份和作者结合起来找。值得注意的是,ISI收录的文章是不全的,例如Macromolecules只从九十年代之后开始收,而且每一期都不是全收。所以就算搜索得当,也不一定就能搜出实际存在的文献,尤其是比较七十年代以前的。刚才我说过,通过paper的introduction引用文献,不断在年份上进行回溯,目的是为了找出整个研究历史主线上的研究工作。其基本意图就是搜出少数年代久,但是比较重要比较核心的经典paper。然后,就要通过ISI,找到引用这些主流而且经典paper的文献记录,并进一步查找引用这篇老文献的文献列表。根据这些文献的标题,你就可以选出一些比较主流的文章来,这样就能从老到新地回到研究历史的主线上来。但是由于刚才说了ISI不收很老的文章,所以你不要等到回溯到五六十年代之后才用ISI,而是到了七八时年代就先用ISI查找一下引用情况,部分回到主线中来,然后再利用从ISI找到的这些比较接近主线的文章往早期回溯,找到更加主流的经典paper。
有一些比较老的文献如果ISI没有收,那就可以看看该文献的期刊所属的出版商网站上的这篇文章的页面。现有一些大的出版商网站,每一篇文章的页面都会自动显示被引文章。
1.6 要多次反复
所谓要多次反复,就是说你查到一定的文献,就可以先认真阅读了。阅读的时候按年份从早到晚的顺序。在阅读的过程中,你会:
• 对本领域的基本问题更加清晰
• 发现本领域内一些贡献比较大的牛人
• 发现很多该找到的文献之前没找到
这样,不管是哪个原因,你都会觉得你又必要再花时间去搜集文献,走回刚才所讲的步骤。一直到最后,你就会发现这个领域从最开始一直到现在的整个脉络的文献你基本上都有了。
2. 查找Paper的资源
上一节说的是一般的步骤,在这些步骤中所遇到的一个具体问题是:
• 根据paper的什么信息,如何搞到该paper的全文
• paper多起来了怎么去有序地整理
2.1 大量文献管理
几百上千篇的paper,怎么去整理呢?这就一定要使用文献整理器的软件。现在主流的文献管理器软件基本功能都差不多,也足够了。我就以EndNote为例。安装EndNote,事实上就是安装了一个数据库。从数据库的角度上说,所有不同领域不同主题的文献,理论上用一个库就可以搞定。领域上的差别可以利用每条信息项的属性进行区分和检索。但是,有一条原则是,从大量信息中查找特定的子集,最好能不用Search就不用Search,因为Search的精确查找方式太笨;模糊查找方式又怕还是有些该找到的找不到。所以,比较满意的方法是够按一定的排序方式排序,然后人工按照顺序往下检。这样的话想找到什么就必能找到什么了。但这种方式不允许总信息量太大。所以不要试图把你有生以来所做过的课题所有文献都用一个数据库来管理,而是应该按照课题所涉集的领域,分开不同的库来管理。不过,分得太细也不好,相关的领域,或者说思维方式一致,在你脑中有某种统一性的领域,不要分开不同的库。不要造成你研究一个问题需要在好几个数据库文件切换的这种状况。
用数据库的另一个好处是,当你已经有很多文献了,遇到一个新文献,你怎么知道这篇文章你有了没有呢?通过数据库一查就能查到。
我做的课题是高分子凝胶化过程的非线性流变学研究,因此,关于高分子凝胶化的文献要看,非线性流变学的研究要看。此外我具体采用的化学体系是聚丙烯酸,因此关于聚丙烯酸乃至聚电解质的理论和实验方面的文献也要看。我把凝胶化和非线性流变学的文献用一个数据库管理,把聚丙烯酸方面的文献用另一个数据库来管理。在EndNote中,同一个数据库下面还可以建立群组(Groups),你可以按需要建一些群组。
要在数据库中录入文献,可以通过导入功能。现在各大文献数据库中,查到的paper页面都支持导出成RIS或者EndNote的格式,EndNote、Reference Manager还有Note Express等软件也都兼容导入多种格式。所以,查到的paper点一下导出,在EndNote里点一下导入,文献的标题啊作者啊之类的信息都不用自己输入了,很多时候连Abstract也自动导入。只有少数文献数据库不支持导入功能,那就要自己输入一下。
至于文献的PDF文件,存在一个“文件名”的问题。很多同学都用文献的一长串标题来作为文件名。如果PDF文件多起来了,就多搞几个目录。总之他们好像要求自己起码要记得自己都有什么文献。我往往一个课题的文献阅读所涉及到的文献数量是上千的,我不可能知道事先我都有什么文献,它是什么文件名,放在哪个目录,所以我是这么做的:刚才说了,我的数据库是按领域来分的,于是在我电脑上我也建一个相同领域的目录,相应的数据库文件放在该目录下面,所有该领域的PDF也都放在这个目录下面。这样一来,某一个目录下的那个数据库文件里的paper的pdf文件就在同一目录下面找。其次,我的PDF文件名是按照“期刊名缩写 卷 首页.pdf”这样的形式取的。例如Chem. Mater. xx xxxx.pdf或者ACIE xx xxxx.pdf(ACIE是德国应化,正确缩写是Angew. Chem. Int. Ed.,还是嫌太长,干脆ACIE,美国化学学会很多人也是用JACS的。但是不要全都这样搞,以防将来自己都不知道是啥)。这样的话,我在EndNote里看到哪篇文献的标题或者作者,想看全文,就只要在该数据库文件所在目录,按文件名一排序,按照EndNote里所指示的该文献的期刊、卷和首页信息,就能找到相应的PDF文件了,就算pdf文件再多,按文件名排个序,拉一下滚动条,也是一秒钟都不到的事情。
此外,不一定所有搜到的文献都要下载PDF文件,有时只要把信息导入数据库就行了,尤其是当你很怀疑这篇文章的价值的时候。等到阅读文献的时候,随着你宏观认识的加深,很多你当初搜集到的文献这时会觉得没必要看。真有什么有必要看的文献没下载到PDF,根据上述的整理方法你也很容易发现,到时再下也很方便。也有的时候,有些paper中引用的参考文献感觉好像很有信息量,谁知一搜,看了一下标题,发现原来毫不相关。这时就连导入都懒得导。
2.2 找不到全文咋办
我目前能想到的情况有以下:
1. 不知道期刊缩写的全称/在网上找不到相应的期刊
2. 找到相应的期刊了,但手头上的文献信息有误,没有这一年/卷/页的文章
3. 在网上找到这篇文章了,但是所在单位没有购买,没有权限
有很多期刊在它发展的过程中名字就改来改去。欧洲在一体化过程中很多期刊都进行了合并。所以有很多年代比较久远的文献,它按当时的期刊名字来引用它的参考文献,你在今天就不一定能直接找到。因此,平时除了看文献之外,还要对本领域期刊的发展历史进行研究。我一直想写一下我这个领域中我所知道的一些期刊的发展史,但是后来发现近年来至少很多知名出版商的网站都对自己旗下的期刊的历史进行了比较清晰的说明,这个念头就没什么意义了。我建议大家根据自己的领域都相应了解一下,不光了解更名的历史,还了解一下各任主编(Editor in Chief)的历史,这些主编很多都是一定时期的牛人,知道他们名字之后,还可以Google一下,上Wikipedia.org搜一下,看看他们的传记,和发表的重要文章。
扯远了。回到主题上来,问题是我们事先只知道一个过时的刊名,怎么知道它今天什么名字,在哪个数据库呢?这时就要靠Google(本文提到Google,都指英文Google.com,理由前文已经说过了)。在Google上,键入期刊的缩写,运气好的话就能在一些搜索结果中直接看到这串缩写所代表的全名。再改用全名搜索,就能了解一下这个名字的期刊的信息,它是什么候用这个名字的,现在用什么名字,在哪个数据库。如果知道了期刊全名,除了在Google搜索之外,还要向大家推荐一个网站:
JournalSeek http://journalseek.net/
在JournalSeek上面搜索期刊的全名,就能直接看到该期刊的信息,尤其是它目前是哪个数据库旗下的,网址等等。如果该期刊没有网络电子版,JournalSeek也会告诉你。依我的经验,JournalSeek说没有电子版的,就真的没有;JournalSeek所提供的网址,也基本上是对的。因此JournalSeek还是比较权威的,可以说是童叟无欺。
JournalSeek上面不能直接输入期刊缩写来搜索。因此如果直接在Google输入期刊缩写,看不到全名的话,就要使用进一步的技巧了。在这里我顺便讲一下,期刊全名的缩写其实是有规则的。例如,Journal of Material Chemistry的缩写之所以是J. Mater. Chem.,而不是JOMC,或者J. M. C.或者J. Mat. Ch.等等,并不是由RSC或者该期刊自己决定,而是遵循着一个标准。这个标准就是ISO 4。至于具体的期刊缩写和全名对照表,在ISSN的官网上提供了一个按照ISO 4的列表The List of Title Word Abbreviations (LTWA),http://www.issn.org/2-22660-LTWA.php
以下是其他期刊缩写的强大资源:
• All That JAS http://www2.iastate.edu/~cyberstacks/JAS.htm
• PubMed的列表
• 如果是搞化学的——CA的列表
如果遇到很老的化学期刊,这些期刊现在已经不存在了,有可能上面的资源会找不到。化学领域的,还可以看这篇1937年的文章:
Annu. Rep. Prog. Chem., 1937, 34, 535-540. DOI: 10.1039/AR9373400535(免费下载全文)
这篇文章里提供了很多古老偏门化学期刊的缩写和全名。
以上主要是解决找不到文献的第一种情况。对于第二种情况,即“找到相应的期刊了,但手头上的文献信息有误,没有这一年/卷/页的文章”。那就要继续努力了。一般来说,文献中引用一个参考文献的方式至少包含以下几个信息:作者、期刊名缩写或全名、年、卷(volume)、期(issue or number)、页码。最容易出错的就是卷、期、页码。页码打错一个数字就让人很郁闷了,卷和期也会经常错调。但是,年份和作者一般是不会搞错的。如果已经找到了相应的期刊网址,那么搜索年份和其中一些,作者名,看看这一年,这个作者在这个期刊上都发表了哪些文章,从中看一下哪一条比较像你所要的那篇,就能找到,而且还能发现卷期页的错误在哪里。如果搜不到,有可能是这个网站的搜索功能比较烂,也有可能是人名的搜索规则不对。换几个作者名,或者只打姓不打名,缩写不要加句点等等,反复多试几次。如果还不行,那就只能人工浏览这一年这个期刊每一期的文章了,如果这个期刊不会像现在的J. Appl. Polym. Sci.这么变态的话,浏览一整年的文章工作量不会太大的。尤其是年代久远的时候,那时一年世界上的发表文章都比今天要少得多。如果年代不很久远,可以不用该期刊所在的网站的搜索功能,试试ISI Web of Knowledge,因为ISI的人名搜索规范比较名确,该搜出来的基本上都能搜出来,只要ISI收了这篇文章的话。另外,不要忘了Google,很多数据库的搜索智能还比不上Google。如果各种方法都不行,那就没撤了。也别介意,如果你要找的这篇文章真的比较重要的话,也不止一篇文章会引用它。这篇引用错了,还会遇到下一篇去引用的,不可能所有人引用它都是错的(有时候好几篇都是用错的引用,你看看这几篇文章是不是同一个课题组发的)。如果你发现不同课题组,发的不同的文章,都同时用错的方法引用一篇文章,那很可能就说明根本没错,也许是你把期刊搞错了。那就要根据上面说的资源,重新搞清楚期刊的全名。
最后,就是没有权限的问题。没有电子版的权限,那就看你所在单位的图书馆。图书馆的外刊室有收有很多期刊,很古老的都有,问题是经常中间有缺卷缺期。因此,要充分利用图书馆网站的检索功能,看看馆藏的具体情况,把所要找的期刊的架号,卷页等信息记在小本子上,再跑一趟图书馆,省得白跑,跑一次图书馆很累的。在图书馆里就可以复印,不用外借。如果你所在的图书馆没有收藏你需要的期刊,或者缺卷缺期,那就要通过图书馆的跨馆索取服务了。图书馆的跨馆索取服务应该是有专门的办公室和职员的,他会联系国内的其他图书馆,哪里有就向哪里求。对方图书馆会帮你扫描成PDF,发回到你单位图书馆,你就拿个U盘去拷。跨馆一般费用比较贵,按页收费,一般每页要一块钱。一篇paper如果十页的话就要十块钱了。因此如果是跨馆的话,你就要尽量利用期刊网站,看清楚该文章的Abstract,真的需要,再去求。求的时候,也要求尽量把文献的详细信息确认好,一旦求错了,文章不对,你单位图书馆是不会帮你垫这笔费用的。在跨馆求文献之前,也可以先自己看一下中国有没有——跨馆职员一般首先是利用中科院国家科学数字图书馆的联合编目服务系统来查找哪个图书馆有你要的文献的。你也可以上这个系统:
全国期刊联合目录 http://union.csdl.ac.cn/Reader/query.jsp?index_show=union
具体的跨馆查询业务情况,大家可以咨询自己所在单位的图书馆。很多图书馆还可以到国外跨馆查,价格当然不菲,我就没试过。一方面,一两篇文献不看不会严重影响你对一个领域的认识;另一方面,如果这篇文章这么难被查到,一般它里面的工作或内容后来会在另一篇更好查到的更著名的期刊里发表,无论是该研究者自己一稿多投也好,还是其他的研究者在不知情的情况下再次发表同样的工作也好。
只有纸版的文献,要自己把标题等信息输入到文献数据库里,而且文献还要用对应的文件夹整理好,首先按年份排好,其次依次按期刊名和页码排好,方便查阅!
3 关于阅读文献
文献查了是要看的。本节主要解释查到了成百上千的文献,怎么个看法。首先当然是进入你的文献管理器的相关数据库,然后按年份排序,从最早的一篇文献开始,看标题、期刊名和卷页,找到相应的PDF文件。你会遇到以下的问题。
3.1 精读、略读和不读
当你面对几百篇文献,怎么去精读略读呢?这就要依靠你在查阅他们的时候所建立的宏观认识了。在查阅文献的时候,你看了大量的Introduction。而且你在“文献主流化”任务的时候,经过了多次主流化的反复,所以你才具有了宏观的认识。什么样的宏观认识呢?