按关键词阅读:
例如 , 在图像识别中 , 一个神经元表示图像中的一个像素 。 在卷积网络中 , 该神经元可以连接到代表周围像素的神经元 , 而不是连接到代表图像的远角中的像素的神经元 。
- 多层感知器 。 多层感知器是人工神经网络的基本类型 。 它们是前馈网络 , 这意味着一层中的神经元可以接受先前层中的神经元的输入 , 但是不能从相同层或后续层中的神经元接收信息 。
- 卷积神经网络 。 与神经元完全连接的多层感知器不同 , 卷积网络中的神经元在本地连接到紧邻区域的神经元 , 以创建更高级别的特征 。 这种安排使它们非常适合图像识别任务 。
- 循环神经网络 。 循环网络识别数据序列中的模式 , 例如时间序列数据、手写、文本、语音或基因组 。 常规的前馈网络一次从数据中获取一个案例 , 调整权重以便在处理数据过程中将错误最小化 。 而循环网络则可以从目前的案例以及前一个案例的输出状态中学习 。
神经网络中的每个数学函数具有一个或多个参数或权重 。 参数的数量随模型的大 小和复杂程度而增加;在一个极端的例子中 , Cloudera 合作伙伴 Digital Reasoning报告了用 1600 万个参数来训练自然语言处理网络 。 一个大的计算问题需要一个高效的优化算法 , 如随机梯度下降或 L-BFGS 。
数据科学家通过运行具有训练数据的优化算法来训练神经网络 。 对于预测和推理 问题 , 训练数据包括具有已知结果的历史示例 。 优化算法确定一组预测误差最小 化的参数 。
大模型需要大量数据 。 例如 , 完成 ImageNet 基准测试的微软团队使用了 130 万张图像的数据 。
像所有机器学习技术一样 , 当组织机构将训练过的模型应用于新的信息时 , 人工 神经网络可以提供业务价值 。 数据科学家称之为推论 。 推论与训练正好相反 。 在 训练任务中 , 数据科学家使用一系列广泛的历史样本与已知的结果来估计模型的 参数 。 推论使用经过训练的模型来预测或者推算未知 。
深度学习的利与弊深度学习有两个关键优势 , 使其与其他机器学习技术区分开 。 其中第一个是特征 学习 。 用其他的技术 , 数据科学家需要手动转换特征以通过特定算法获得最佳结果 。这个过程需要时间 , 也需要大量的猜测 。 相比之下 , 深度学习从多层次的输入数 据中学习更高层次的抽象 。 数据科学家不用猜测如何组合、重新编码或总结输入 。
此外 , 深度学习还可以检测表面上看不见的变量之间的相互作用 。 它可以检测非线 性相互作用并近似任意函数 。 虽然可以使用更简单的方法来适应互动效应 , 但是这 些方法需要手动指定和数据科学家的更多猜测 。 深度学习会自动学习这些关系 。
特征学习和检测复杂关系的能力往往使深度学习成为某些类型数据的不错选择:
高基数结果 。 对于诸如语音识别和图像识别等问题 , 学习者必须区分大量离散类别 。 (例如 , 语言识别应用程序必须在英语中区分近 20 万个单词 。 )数学家称此属性为基数 。 传统的机器学习技术往往在这个任务中失败;深度学习可以解决成千上万的元素的分类问题 。
高维数据 。 在诸如视频分析、粒子物理或基因组分析等问题中 , 数据集可以具有数十亿个特征 。 深度学习可以工作于这样大量的“宽”数据集 。
未标记数据 。 标签提供有关数据包的有价值的信息 。 例如 , 图像可以携带标签“猫” 。 对于无监督学习 , 深度学习可工作于缺少信息标签的数据(例如位映射图像) 。
与其他机器学习技术相比 , 深度学习也有一些缺点 。
技术挑战 。 深度学习是一个复杂的过程 , 需要实施者做许多选择 。 这些选项包括 网络拓扑、传递函数、激活函数和训练算法等 。 方法和最佳实践才刚刚出现;数 据科学家经常依靠试错来发现凑效的模型 。 因此 , 深度学习模式往往比简单和成熟的技术花费更多的时间 。
不透明 。 通过模型参数的检查 , 深度学习模型很难或不可能解释 。 这样的模型可 能有很多隐藏层 , 没有“真实世界”的指象 。 数据科学家通过衡量它的预测效果 来评估模型 , 将其内部结构视为“黑匣子” 。
过度拟合 。 像许多其他机器学习技术一样 , 深度学习易于过度拟合 , 倾向于“学习” 训练数据的特征而不将整体推广到整个人群 。 辍学和正则化技术可以帮助防止这 个问题 。 与任何机器学习技术一样 , 组织机构应该对模型进行测试和验证 , 并使 用独立于训练数据集的数据来评估准确性 。
稿源:(未知)
【傻大方】网址:http://www.shadafang.com/c/111J2U422020.html
标题:干货|简单易懂的深度学习指南,不服来辩!(一)( 二 )