moe是什么意思(moe是什么意思中文人名)( 三 )


AI巨头们都在争夺模型规模的新高度,这自然带来了一个灵魂问题:他们在探索什么?
目前语言模型的训练已经从“精炼模型”走向“精炼模型”,庞大的模型成为业界关注的焦点 。
最近,100多位学者,如佩西·梁、等 。,发表了超过200页的关于基金会模型的机会和风险的研究总结,解释了海量模型的意义在于“涌现性和同质性” 。
本文将这种大模型命名为基础模型,在自然语言处理领域表现出很强的普适性和适用性 。

当前人工智能研究的突现性和同质化特征
建越来越大的模型,真的会越来越好吗?
从埃尔莫到伯特,再到GPT-3,预训练模型的性能一直在提高,这是一个非常有力的证据 。
现在威震天-图灵有超过5300亿个参数 。可见,目前模型的参数规模可能达不到一般人工智能所要求的水平 。
所以,更大的型号还是刚需 。
那么,建立越来越大的模型真的能导致通用人工智能(AGI)吗?

OpenAI的无监督转换语言模型GPT-3显示了从海量未标记数据中学习的“通用”能力,并且不限于特定任务 。
所以很多人看到了基于大规模预训练模型探索通用人工智能的可能性 。
坦白说,在我们没有清楚认识大模型的时候,我们以为它只是用来做一首诗一副的,但其实这些都不是大模型的魅力所在 。
大模型的真正魅力在于“不可知”,而在于对未来的讨论 。
清华大学的一位教授曾说,“GPT 3号”越来越接近人类水平,但它有一个致命弱点 。
GPT这说明GPT-3非常聪明,但它仍有一些认知局限——没有常识 。

自然语言处理研究人员、康奈尔大学数据科学家玛丽亚·安东尼亚克(Maria Antoniak)表示,“当涉及自然语言时,更大的模型是否是正确的 是一个悬而未决的问题 。
虽然目前一些更好的基准性能得分来自于大型数据集和模型,但是将大量数据注入模型的回报是不确定的 。」
这足以证明大模型的探索是一个持续的过程 。
全球AI巨头们争的是探索大模型未知领域的“处女地”,可以说是更高阶智能对通用智能的探索 。
事实上,不仅仅是科学探索,它必然会产生催化效应,探索的成果也会推动CV、OCR、语音学等领域的发展 。
因为最终一代智能都是基于此 。
我是谁?我在哪里?我要去哪里?...

这是人类一直在探索的哲学问题,那么机器将如何回答呢?
当我们输入一些命题时,它可以给出很多启发性的答案 。
“源1.0”是一个非常好的开始,但还有很长的路要走 。

参考文献:
https://arxiv.org/pdf/2005.14165.pdf
https://arxiv.org/pdf/2004.05986.pdf
https://arxiv.org/pdf/2110.04725.pdf
https://developer . NVIDIA . com/blog/using-deep speed-and-megatron-to-train-megatron-turing-NLG-530 b-the-worlds-large-and-powerful-generative-language-model/
https://easyai.tech/ai-definition/tokenization/
https://lifearchitect.ai/models/#contents