会员登录
  • 没有账号? 去注册
会员注册
  • 已有账号? 去登录

科普文章

105万篇博士论文数据,勾画学术界30年的知识变迁
发布时间:2020-04-20    705   

导语

越来越频繁的跨学科研究是过去数十年各个学科发展的特征,如何刻画学科之间的相互影响、刻画整个学术界的知识变迁成为重要问题。在近日的一篇预印本论文中,来自谷歌的研究员对 1980-2010 年间美国 157 所高校的 105 万篇博士毕业论文进行了文本分析,构建了这 30 年间的学科交流网络,量化了学科间的交流和各学科的发展趋势。


关于科学学的研究最早使用的社会科学领域的传统方法,包括文献综述( literature reviews),专家访谈(expert interviews)和调查(surveys)等。然而,传统方法更注重针对单个或多个领域的详尽研究,并不能直接分析整个学术领域的所有学科。近年来,出现了基于复杂网络分析方法的科学学研究,主要依据文章引用关系、作者合作关系等建立网络,但这种方法仅限于学术空间中的正式关联(formal linkages),不考虑学科之间的非正式交流,大量真实存在的学术隐藏结构被忽略。


最近,在 arXiv.org 上刊登了谷歌研究员 Daniel Rammage 博士的一篇文章《Mapping Three Decades of Intellectual Change in Academia》,基于 1980 年至 2010 年间美国 157 所研究密集型高校的 105 万篇博士毕业论文摘要数据,通过使用统计文本模型(PLDA算法),并提出净资源得分(Net Source Scores)来量化 30 年内的学科交流与学科发展,对于科研资金的分配具有一定的借鉴意义。



论文题目:Mapping Three Decades of Intellectual Change in Academia

论文地址:https://arxiv.org/abs/2004.01291


构建基于学科术语的学术空间

图1:学科交叉网络


图 1 展示了 1980-2010 年间的学科交叉网络,共分为六个大的研究领域:工程(Engineering)、物理和数学科学(Physical and Mathematical Sciences)、生物科学(Biological Sciences)、地球和农业科学(Earth and Agricultural Sciences)、社会科学(Social Sciences)、人文科学(Humanities)。其中STEM相关学科分布在圆圈的右侧(S:Science 科学;T:Technology 科技;E:Engineering 工程;M:Mathematics 数学)。各研究领域又细分为若干学科,各个研究领域及学科所占的弧度大小与论文总数成正比。

对于每个学科来说,研究过程中常常会使用其他学科的知识,同时也会促进其他学科的研究。因此,文章通过连边来刻画学科间的这种关系。对于学科 A 与学科 B,学科A的所有论文中使用了的学科B的专业术语数为α,学科B的所有论文中使用了的学科A的专业术语数为 β,学科 A 与学科 B 之间的连边粗细刻画了 |α-β| 的大小,当α-β>0,类比贸易网络,我们称学科 B 为净出口学科,学科A为净进口学科,连边颜色为净出口学科B的颜色,否则为学科 A 的颜色。其中,大领域内的学科交叉连边被画在圆外,跨学科领域的学科交叉被画在圆内。

我们还可以发现,STEM 学科与人文学科存在显著的分界线,很少有文章能跨越这个鸿沟。


图 2(A)展示了 两条曲线分别在计算机科学(Computer Science)学科的所有专业术语中,关于遗传学和基因组学(Genetics and Genomics)的专业术语比例(蓝色);在遗传学和基因组学学科的所有专业术语中,关于计算机科学的专业术语比例(紫色),其中误差棒(Error Bar)表示为阴影部分。


图3:学科交叉与计算生物学的兴起


从图中可以看出,模型可以清晰的展示新兴跨领域的学科形成过程。如图2(A) 所示,计算生物学Computational Biology(蓝色)与生物计算Bio-computation(紫色)是在同一时间兴起的两个新兴学科,由于学科交叉活动是有方向性的,从遗传学和基因组学的论文中获取计算机科学专业术语的百分比与从计算机科学的论文中获取遗传学和基因组学专业术语的百分比存在显著差异。

专业术语比例的差异性不仅体现在同时兴起的两个对称的交叉学科中,还在各个学科间普遍存在。如图2(B) 所示, 两条曲线分别展示了在生态学和进化生物学(Ecology and Evolutionary Biology)学科的所有专业术语中,关于环境科学(Environmental Science)的专业术语比例(绿色);在环境科学学科的所有专业术语中,关于生态学和进化生物学的专业术语比例(紫色),其中误差棒表示为阴影部分。

图4:基础学科与前沿学科的交叉示意图,以生态学、进化生物学与环境学为例


从图中可以很明显的看出从生态学和进化生物学的论文中获取环境科学专业术语的百分比显然高于从环境科学的论文中获取生态学和进化生物学专业术语的百分比,生态学和进化生物学对环境科学的影响显然是更大的,生态学和进化生物学可以看做是环境科学的基础学科。


事实上,专业术语比例的不对称性比比皆是,学科间的差异性是非常显著的。存在很多基础学科,在整个学术空间中扮演学术语言创造者的角色。如社会学(Sociology)对于社会科学(Social Sciences)来说是基础学科,生态学和进化生物学对于地球与农业科学来说是基础学科。

学科特色与学科发展现在我们已经发现在学术空间中不同学科间差异性显著,为了从学科交叉的角度更好的发现学科特色,文章提出了净资源得分这一指标。

净资源得分(Net Source Scores)

对于学科 A 和学科 B,比较学科 A 论文中使用学科 B 的专业术语数 α 与学科 B 论文中使用学科 A 的专业术语数 β,如果α>β,即学科 B 为净出口学科,学科 A 为净进口学科,则学科 B 的净资源得分+1,学科A的净资源得分-1。所有学科之间两两比较,净出口次数与净进口次数之差即为学科的净资源得分,记为 S,净资源得分刻画了学科的相对影响力大小。

图5:从净资源得分看学科特色


如图 5 所示,y轴为净资源得分。其中,A 图展示了不同领域净资源得分随时间的变化,净资源得分越高,学科相对影响力越大。从图中可以看出工程领域的影响力显著增强,特别是其中计算机科学的学科影响力显著提高,而化学工程(Chemical Engineering)的影响力有所下降。其他领域中数学(Mathematics)、动物科学(Animal Science)、微生物学(Microbiology)的学科影响力有所减弱。

图 B 列出了图A中高亮散点的详细信息。在图 B 中,每个学科的论文数量作为学科规模(x),每条折线代表一个学科的影响力发展轨迹,折线上的七个点分别表示该学科在1980年、1985年、1990年、1995年、2000年、2005年、2010年时的净资源得分(S)及学科规模(x)。其中,棕色的线是数学;人文学科的红线是哲学(Philosophy)、性别和种族研究(Gender & Ethnic Studies);蓝色的线是计算机科学,紫色的线是生态学和进化生物学和微生物学,绿色的线是动物科学。


特点

老牌学科

新兴代表学科

净出口学科

概念性、方法性学科

数学、哲学

计算机科学、统计学

净进口学科

应用性、主题性学科

语言学

性别与种族研究、健康科学


从学科影响力角度来看,数学、哲学、计算机科学和统计学(Statistics)等方法类学科具有很高的净资源得分,而动物科学、微生物学等应用类学科净资源得分为负值。结合更多研究数字,文章还指出数学(S=32)和哲学(S=54)被称为“根源学科(Root Disciplines)”,代表了一种基本的知识形式,过去很长一段时间具有很高的而影响力。然而,随着大数据时代的来临,数据驱动的计算机科学(S=55)和统计学(S=54)等数据驱动的方法类学科正在扮演着越来越重要的地位。

从学科规模的角度来看,人文领域如古典文学Classics(S=-23)和语言学Languages (S=-19);地球和农业科学(平均S=-25.9);生物科学(平均S=-13)等应用性、主题性较强的学科虽然净资源得分为负值,但学科规模有显著的提升。特别是在过去的几十年里,生物科学领域的论文数量翻了三倍,从20世纪80年代的每年大约 2000 篇论文到 21 世纪前十年的每年 6500 多篇论文,发展非常迅速。

此外,我们还注意到性别和种族研究在过去30年中,无论从学科影响力,还是学科规模来说发展的是显著而迅速的。


生物健康领域:学科影响的逆转式变革


图6:生物科学、健康科学、地球与农业科学领域的发展

图 6 展示了在 20 世纪 80 年代和 21 世纪前十年间,生物科学(紫色)、健康科学 Health Sciences(金色)和地球与农业科学(绿色)的学科影响力。第 i 行第 j 列的圆点大小,代表了第 i 个学科的论文中有多少专业术语来自于学科 j 。从图中可以看出,在1980s,地球与农业科学显著依赖于生物科学,特别是生态学和进化生物学,然而到了 2000s 却恰恰相反,生态学和进化生物学的研究中发量出现来自地球与农业科学领域的专业术语。此外,相对于动物科学,地球与农业科学对于健康科学的影响更加显著。生物科学领域内部联系更加紧密。


图 7 展示了在 20 世纪 80 年代和 21 世纪前十年间,社会科学(橙色)与人文科学(红色)的学科影响力。第 i 行第 j 列的圆点大小,代表了第 i 个学科的论文中有多少专业术语来自于学科 j 。从图中可以看出,性别与种族研究再 30 年间发展迅速,几乎渗透到人文社科的各个领域。此外,随着性别和种族研究的兴起,哲学在规模上有所下降,但其相对影响力却没有下降,仍然是一个强大根源学科。


从细分学科变化看生物领域分裂


图8:六个学科近30年的学科发展

图 8 展示了生物科学(紫色)、健康科学(金色)、地球与农业科学(绿色)、人文科学(红色)、社会科学(橙色)、其他领域(灰色)领域的专业术语在给的六个学科(微生物学、生态学和进化生物学、哲学、生理学和细胞生物学、遗传学和基因组学、性别和种族研究)论文中所占的比例随时间的变化。

从图中可以看出微生物学在 1980s 发展迅速,但到了 1990s 微生物学相对于还原主义学科(遗传学和基因组学以及生理学和细胞生物学)影响力显著下降。图6同样证明了,现在生物学的大部分领域都与还原论方法和在医学上的应用有关,而生态学和进化生物学几乎已经分裂成新兴的环境科学,在地球和农业科学上都有应用和影响。

作为图 7 的补充,图 8 中右侧的两幅图证明了性别与种族研究发展迅速,而根源学科哲学的已经处于相对稳定的状态。

方法:PLDA算法PLDA(Partially Labeled Dirichlet Allocation)算法,是一种基于主题模型的贝叶斯统计(Bayesian Statistics)文本挖掘方法,刻画了单词、文档和标签之间的关系,其核心假设是每个学科只对应一个标签,论文的标签决定了论文的学科属性,学科属性生成了论文的专业术语。

文章通过使用 PLDA 算法,将每篇论文摘要中的单词与最相似的学科标签相关联。这个过程分为两步:学习和推理( Learning and Inference)。首先,利用专业术语和学科标签之间的联系来学习属于各个学科的专业术语。其次,重新检查每篇论文,推断摘要中的每个单词可能属于其他学科的概率。

在学习阶段,通过考察各学科名称和专业术语在相应的摘要中同时出现的现象,建立各学科的语言模型。对于一篇具有多个标签的文章摘要,我们无法判断哪些词属于哪个学科标签。但是,基于整个论文数据集中单词和标签的分布,我们可以从统计上判断,“基因组(genome)”和“序列(sequence)”等词更有可能同时出现在遗传学和基因组学文档中,而“算法(algorithm)”和“复杂性(complexity)”等词则更有可能出现在计算机科学中。因此,我们可以确定在一篇被标记为计算机科学和遗传学&基因组学的论文中,哪些词更好地归属于每个标记。

在推理阶段, 基于一种上下文敏感的软聚类方法:一个像序列这样的词既属于数学,也属于基因组学,它的一个实例可能属于一个领域,也可能同时属于两个领域,具体取决于摘要中的其他词。

数据:博士学位论文摘要数据

文章研究所用的数据来源于美国 ProQuest 维护的UMl数据库中的博士学位论文。每篇论文包含一个标题,摘要,作者,导师,日期,主题代码和关键词。研究所用的数据包含了自 1980 年到 2010 年 157 所科研密集型高校提交的 105 万篇博士毕业论文摘要,摘要平均包含 179 个单词,共涉及268个主题代码。此外,主题代码本身存在分布不均匀的问题,例如物理学领域细分为13个学科代码,共计 52,432 篇学位论文;而计算机科学,只有两个学科代码,包含41,605篇学位论文。特别说明,文章研究中未考虑四个主要面向专业培训的领域——教育、商业、法律、健康与医学科学。

总结

文章基于 1980-2010 年论文摘要文本的统计模型,首次揭示了学术学科之间隐藏的关系以及它们在过去三十年中的变化。研究结果包括准确识别广泛出口学科专业术语的方法学领域、大量进口学科专业术语的主题领域,数学、哲学等学术根源领域以及近年来快速崛起的计算机科学、统计学及生物健康学科。文章创新性的提出净资源得分指标来量化学科之间的影响,对于监测学科动态,有效分配科研资金、调整国家的学科资助方向及力度具有重要借鉴意义。

作者:赵子鸣

审校:刘培源

编辑:张爽


加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!


关于“墨子沙龙”

墨子沙龙是由中国科学技术大学上海研究院主办、上海市浦东新区科学技术协会及中国科大新创校友基金会协办的公益性大型科普论坛。沙龙的科普对象为对科学有浓厚兴趣、热爱科普的普通民众,力图打造具有中学生学力便可以了解当下全球最尖端科学资讯的科普讲坛。