金融市场中的NLP——情感分析
文章插图
自在ImageNet上推出AlexNet以来 , 计算机视觉的深度学习已成功应用于各种应用 。 相反 , NLP在深层神经网络应用方面一直落后 。 许多声称使用人工智能的应用程序通常使用某种基于规则的算法和传统的机器学习 , 而不是使用深层神经网络 。
2018年 , 在一些NLP任务中 , 一种名为BERT的最先进(STOA)模型的表现超过了人类的得分 。 在这里 , 我将几个模型应用于情绪分析任务 , 以了解它们在我所处的金融市场中有多大用处 。 代码在jupyter notebook中 ,
介绍NLP任务可以大致分为以下几类 。
- 文本分类——过滤垃圾邮件 , 对文档进行分类
- 词序——词翻译 , 词性标记 , 命名实体识别
- 文本意义——主题模型 , 搜索 , 问答
- seq2seq——机器翻译、文本摘要、问答
- 对话系统
这是有充分理由的 。 语言有语法和词序 , 可以用基于规则的方法更好地处理 , 而机器学习方法可以更好地学习单词相似性 。 向量化技术如word2vec、bag of word帮助模型以数学方式表达文本 。 最著名的例子是:
【金融市场中的NLP——情感分析】
King - Man + Woman = QueenParis - France + UK = London第一个例子描述了性别关系 , 第二个例子描述了首都的概念 。 然而 , 在这些方法中 , 由于在任何文本中同一个词总是由同一个向量表示 , 因此上下文不能被捕获 , 这在许多情况下是不正确的 。循环神经网络(RNN)结构利用输入序列的先验信息 , 处理时间序列数据 , 在捕捉和记忆上下文方面表现良好 。 LSTM是一种典型的结构 , 它由输入门、输出门和遗忘门组成 , 克服了RNN的梯度问题 。 有许多基于LSTM的改进模型 , 例如双向LSTM , 不仅可以从前面的单词中捕捉上下文 , 而且可以从后面捕获上下文 。 这些方法对于某些特定的任务是有用的 , 但在实际应用中却不太适用 。
2017年 , 我们看到了一种新的方法来解决这个问题 。 BERT是Google在2018年推出的一个多编码器堆栈的掩码语言模型 , 在GLUE、SQuAD和SWAG基准测试中实现了STOA , 并有了很大的改进 。 有很多文章和博客解释了这种架构 , 比如Jay Alammar的文章:
我在金融行业工作 , 在过去的几年里 , 我很难看到我们在NLP上的机器学习模型在交易系统中的生产应用方面有足够的强劲表现 。 现在 , 基于BERT的模型正在变得成熟和易于使用 , 这要归功于Huggingface的实现和许多预训练的模型已经公开 。
我的目标是看看这个NLP的最新开发是否达到了在我的领域中使用的良好水平 。 在这篇文章中 , 我比较了不同的模型 , 这是一个相当简单的任务 , 即对金融文本的情绪分析 , 以此作为基线来判断是否值得在真正的解决方案中尝试另一个研发 。
此处比较的模型有:
- 基于规则的词典方法
- 基于Tfidf的传统机器学习方法
- 作为一种循环神经网络结构的LSTM
- BERT(和ALBERT)
- 财经新闻标题——正式
- 来自Stocktwits的Tweets——非正式
## 输入文本示例positive "Finnish steel maker Rautaruukki Oyj ( Ruukki ) said on July 7 , 2008 that it won a 9.0 mln euro ( $ 14.1 mln ) contract to supply and install steel superstructures for Partihallsforbindelsen bridge project in Gothenburg , western Sweden."neutral "In 2008 , the steel industry accounted for 64 percent of the cargo volumes transported , whereas the energy industry accounted for 28 percent and other industries for 8 percent."negative "The period-end cash and cash equivalents totaled EUR6 .5 m , compared to EUR10 .5 m in the previous year."
文章插图请注意 , 所有数据都属于来源 , 用户必须遵守其版权和许可条款 。
模型下面是我比较了四款模型的性能 。
- 智能手机市场|华为再拿第一!27%的份额领跑全行业,苹果8%排在第四名!
- 俄罗斯手机市场|被三星、小米击败,华为手机在俄罗斯排名跌至第三!
- 发展|新基建发展迅猛,必然会是一个巨大的市场机遇
- 蓝海|背靠万亿美元市场,老年人会是音乐产业的新蓝海吗?
- 升级|国内知名商贸市场迭代争议多,理念升级更重要
- 高端|5nm旗舰芯片将集结完毕,Exynos 1080成高端市场“座上客”
- 脸上|那个被1亿锦鲤砸中的“信小呆”:失去工作后,脸上已无纯真笑容
- 白皮书|这个370亿美元的市场,因为新四化,中国企业的机会来了
- 平台|207家平台有81家失踪,网约车市场泡沫初现
- 市场|聚焦私域流量电商供应链赋能 纷来电商或站上万亿市场风口
