论文|中国人民大学赵鑫:AI 科研入坑指南


论文|中国人民大学赵鑫:AI 科研入坑指南
文章插图
AI科技评论 & 智源社区
作者 | 蒋宝尚
11月1日上午,在第十九届中国计算语言学大会(CCL2020)上,中国人民大学教师赵鑫作了题为《早期科研的入门》的主题报告,从科研是什么、如何做科研、日常内功如何修炼、深度学习入门、从“零”起步等五个部分给科研小白提供了一份“入坑”指南。
在报告中,赵鑫提供了许多行之有效的方法,例如“当然你锁定某一个方向之后,要确保在这个方向上最近5年的论文都找到并做成列表,”以及“读论文的时候要阅读源代码,否则论文不一定能看懂。还可以从感兴趣的研究领域去入手,当你的研究已经有一些起色的时候,建议关注非常顶级的研究机构的工作。”
以下是演讲全文,AI科技评论做了不改变原文的整理。
论文|中国人民大学赵鑫:AI 科研入坑指南
文章插图
这次的报告题目是《早期科研的入门》,主要面向本科生以及研一的同学。整体内容分为五个部分,先抽象概括科研是什么;然后介绍科研的一般步骤;重点谈谈如何进行日常学习;再简略介绍一下深度学习如何入门;最后是从“零”起步,也就是如何打好基础。
1
科研是提出问题、解决问题
在回答“科研是什么”这一问题时,大多数人对科研的定义都会涉及:创新、系统、知识等概念,看起来比较泛化。
本科生普遍将科研归纳为:做竞赛、写论文、做大作业等等;而我对科研的理解是:能在特定领域发现并解决问题的过程,因此科研不一定受限于发表论文,因此参加数据科学竞赛本身、学习之前未知的理论也是一种科研的过程。
论文|中国人民大学赵鑫:AI 科研入坑指南
文章插图
以自然语言处理为例,上图展示了研究人员在此领域一直在关心什么。从技术主线的角度来观察,在早期的时候,人们用规则的方法进行分词、句法研究,科研问题在于如何发现规则。
随后,出现了以统计方法为主的技术,一些语言模型也开始出现,这时候的科研问题在于如何标注语料,减少数据稀疏。
后来机器学习变得流行,如何提取特征变成考虑的重点。如今,深度学习成为了主要的技术,这时核心问题就变成:如何用大规模语料训练神经网络,主要考虑词表示架构设计、有效的知识融合以及有效的训练方式。
通过梳理技术路线可以发现,对于自然语言处理而言,大部分的科研工作都是以技术主线为驱动。这给我们的启示是:科研需要关注底层技术。
2
如何做科研:多尝试,不灰心
论文|中国人民大学赵鑫:AI 科研入坑指南
文章插图
科研除了把握住技术主线,还需要注意如何定义设计问题,也即如何选方向和选题。这非常困难,不仅本科生,有时候一些博士生也会头疼。解决这个问题没有捷径可走,需要对领域有非常深刻的积累,如此才能灵活把握选题方向。
下面介绍对初学者有一定作用的两个方法:1、关注顶级研究员,follow并研究他们“深思熟虑”的研究方向;2、对于技术熟练的初学者,可以从技术出发,观察模型在数据集上的效果,然后分析它的不足之处。
对于选题,一个原则是和顶级会议“零同步”。当顶级会议公布数据之后,初学者要花费一到两天把所有的标题过一遍。顶级会议是研究的风向标,通过分析顶级会议,可以明确当前的研究热点。
论文|中国人民大学赵鑫:AI 科研入坑指南
文章插图
论文|中国人民大学赵鑫:AI 科研入坑指南】确定题目之后,接下来如何找参考文献?对于英文水平欠缺的初学者,建议从中文综述入手找到合适的英文论文进行阅读。
另外一个方式是,借助知乎等平台找到相关的英文论文,然后用谷歌学术判断论文的权威性,毕竟现在的英文论文的数量产出也是惊人的。
对于初学者来说,一开始读不懂文献很正常,建议借助一些自媒体平台,找到有中文的论文概要。自媒体非常发达,一般把想要看的英文论文题目“丢”到搜索引擎里,70%~80%的概率能够搜索到中文的介绍。换个角度想,如果找不到中文介绍,那么这篇论文大概率关注度不高。
此外,还要不断积累领域单词,这是领域积累的最基本要求。在读论文的时候,我建议找到前继论文,包括引用论文,仔细筛选,保留最小的核心阅读集合,争取一开始把小集合的论文快速阅读完毕。
论文|中国人民大学赵鑫:AI 科研入坑指南