论文|中国人民大学赵鑫:AI 科研入坑指南( 二 )
文章插图
对于初学者来说,最重要的一点是:必须能够针对具体问题建立模型。那么如何建立模型呢?或者如何学习模型?建议初学者从工具去入手,熟悉模型的输入输出。也可以形式化观察输入输出并进行描述。当熟悉数据之后,再慢慢了解背后的数学原理。
其实,建立模型绝大部分是进行偏增量性的工作,即如何改进模型,从而更好解决实际问题。
从长远来看,还是需要掌握一套硬功夫,这里的硬功夫指的是非常熟悉模型,不用熟悉所有的数学原理,但是需要熟悉至少一类模型。
文章插图
设计实验具有固定的步骤,会涉及到数据集的划分、评测指标的制定、对比方法的选取。当实验效果不好的时候,要分析为什么不好,思考有哪些现象可以总结,以及模型是否适用。
文章插图
如何写论文呢?对于初学者来说,写英文文章需要基本语法过关。可能你很长时间没用英文写东西,语法水平还不如高中。
第二点,用词要准确。很多时候问题可能不是出在语法,而是用词错误。因此一定要把高频词汇、常用词以及通用词收集起来,然后进行系统的语法学习。一般来说,最多花费两天就能达到高中水平。
第三点,确保论文逻辑清楚,这点尤为重要。要写清楚先讲清楚,不要出现逻輯的突然转折、不清楚等问题。在写作的过程中可以复用一些积攒的句子,形成一些固定的句式,减少重复写作。
3
日常内功修炼:成体系、多精读
文章插图
关于读论文,前面也提到要关注自媒体,锁定几个目标会议期刊,有更新第一时间读一下感兴趣的论文摘要。也要分清楚精读和粗读论文,一般来说,研究生每周要精读3~5篇相关的论文。如何算是精读过一篇论文呢?上图展示了几个指标:
记住作者的名字
记住题目
能够很容易地说出这篇论文的毛病
能够很容易说出这篇工作的贡献
能够很容易说岀和这篇论文很类似的若干篇论文
能够很容易说出这篇论文的技术细节
能够很容易说出这篇论文的实验细节
能够想到这篇论文在自己的研究题目下该如何应用
除了上面几点之外,大家还要有自己的判断。题目和作者的名字是最基础的,这和前面提到的“由人找论文”形成呼应。
如果看论文找不到毛病,或者感觉这篇论文满篇都没有问题,这就说明阅读论文的深度不太够,因此要带着批判的眼光看论文。
关于实验细节和技术细节,盲目深入可能对你的研究没有特别大的帮助。有些论文的质量并不高,只要知道这篇论文对你接下来的研究题目有何帮助就可以了,其他的部分可能对你的收益并不大。
文章插图
学习机器学习,是本领域研究者学习硬功夫的过程。我个人总结了以上方法,首先要系统地学习一本机器学习书籍,当遇到困难的时候,唯一的解决方法是要天天看,天天想,天天推导公式,多用搜索引擎。检验是否掌握的唯一标准是:是否能用代码实现。
此外,还要积极参与学术报告或者预习讲者之前发表过的论文,当场提问。因为现场交流能够帮助你深入理解,解决闭塞。
文章插图
建议大家熟练掌握一门编程语言,或者一个框架。对于一般难度的模型,三天之内能够基本完成。抛开数据处理,如果需要很长时间写一个并不复杂的模型,那么这意味着你的代码能力可能需要极大的加强。
初学者在初级阶段不要“乱写”。代码要有规范,养成自己的代码风格,做到能够复用,写一个功能争取能够“复制拷贝”。
建议没怎么写过代码的同学,一定要找到成熟的工具包或者代码库入手,这样能省去很多绕弯路的环节。
文章插图
科研人员对于数据一定要非常敏感。数据对科研人员来说,是和应用最直接的沟通,如果不了解真实数据中存在的问题,还进行研究的话,相当于在空想模型。
建议同学如果没有感觉,就用一个方法去运行一个数据集,根据输出结果看问题,总结规律,磨炼自己成为真正对数据极度敏感的人:看到一个数据集,就能想到相关方法,从而预估正确效果。换句话说,了解数据的大概和分布之后,能够迅速在脑袋中找到相对的模型进行处理。
- 顶级|内地高校凭磁性球体机器人首获机器人顶级会议最佳论文奖
- NeurIPS 2020论文分享第一期|深度图高斯过程 | 深度图
- 主题|GNN、RL崛起,CNN初现疲态?ICLR 2021最全论文主题分析
- 红米K30S|大学生玩王者荣耀的话,红米Note 9足够吗?
- 吉林大学TARS-GO战队视觉代码
- 爱可可AI论文推介(10月17日)
- 荷兰:中国为研究光刻机技术,专门创办芯片大学,“反人类”操作
- 清华大学刘知远:知识指导的自然语言处理
- 获政府2000万澳元助力,阿德莱德大学AI研究将再度腾飞
- 深圳40年40人,为何大疆汪滔没上榜,反而是他大学老师上榜?
