「人人都是产品经理」如何用数学函数去理解机器学习?


本文主要分享了如何基于数学函数原理去理解机器学习的本质 , 并简要介绍了机器学习的过程 。
「人人都是产品经理」如何用数学函数去理解机器学习?
本文插图
近期也是在做项目的过程中发现 , 其实AI产品经理不需要深入研究每一种算法 , 能了解机器学习的过程 , 这其中用到哪些常用算法 , 分别使用与解决哪些问题和应用场景 , 并基于了解的知识 , 去更好的建立AI产品落地流程、把控项目进度、风险评估 , 这个才是最关键的地方 , 算法研究交给专业的算法工程师 , 各司其职 , 相互配合 。
基于最近看的一些文章和书籍 , 本文将重点分享 , 如何用数学函数去理解机器学习的过程 , 以及用数学原理指导产品工作的一些思考 。
一、机器学习的本质
机器学习 , 即学习人类的分析、判断、解决问题的能力 。 人的能力如何得来?通过长期的信息输入 , 再经过大脑思考 , 最后输出对事物的判断 。
那么机器如何学习?通过大量的训练数据 , 学习找规律 , 找到问题的理想最优解 。 所以 , 机器学习的本质其实是函数预测 , 即f:x->y 。
「人人都是产品经理」如何用数学函数去理解机器学习?
本文插图
【「人人都是产品经理」如何用数学函数去理解机器学习?】
图片来源:网络
中学时期 , 我们常解的数据问题之一便是:求解方程 。 已知坐标(x1,y1),(x2,y2)…(xn,yn)求解n元n次方程 , 再将新的x带入方程对应的y 。 机器学习的过程可以类比方程求解过程:样本数据:已知的坐标集D:(x1,y1),(x2,y2)…(xn,yn);算法:即求解函数的方法;模型训练:最后求解的方程或函数;评估方法:将新的x带入方程验证函数“预测”是否正确 。
与普通的函数不同的是 , 机器学习往往很难求解出完整的方程 , 通过各种手段求最接近理想情况下的未知项取值 。 以人脸识别为例 , 预测函数为:f:X(图片脸部特征)—>Y(身份) , 其中f则是通过机器学习后 , 具有人脸识别能力的模型 。 使用不同的机器学习方法训练的模型不同 , 即对应的函数形式也不同 。
机器学习解决的常见四类问题:分类、聚类、排序和推荐 。
(1)分类问题:一般包括二分类和多分类的问题 , 二分类即非黑即白 , 比如垃圾邮件过滤;多分类问题 , 即有多种类别的输出结果 , 比如图像识别 。
(2)聚类问题:在一个集合中 , 将相似度高的对象组成多个类的过程叫聚类 。 比如一些新闻类的应用 , 将未标注的数据通过聚类算法来构建主题 。
(3)排序问题:根据相关度、重要度、匹配度等 , 让用户在海量的信息中找到想要的信息 , 常见的应用场景 , 如搜索引擎 。
(4)推荐问题:典型的应用场景 , 电商行业的千人千面 , 根据用户的购买、收藏等行为 , 分析用户的喜好 , 实现精准营销 。
在理解了机器学习的本质以及常见的问题类型后 , 下面将介绍机器学习的过程 。
二、机器学习的过程
机器学习的过程主要分为三个步骤:样本准备、算法选取、模型评估 。
1. 样本准备
机器学习 , 需要先学习才能预测判断 , 样本则是机器学习的信息输入 , 样本的质量很大程度上决定了机器学习的效果 。 以人脸识别为例 , 其样本是大量的人脸图片 。 那么 , 大量的样本如何获取?按数据来源分类 , 可分为内部样本和外部样本 。
(1)内部样本
内部样本数据 , 一般可基于内部已积累的样本数据 , 或通过对产品进行数据标注或者埋点 , 来收集更多维度的样本数据 。
(2)外部样本
若数据的量级或丰富度不够 , 则可能需要获取一些外部样本 。 比如通过搜索典型的大型公开数据集 , 或者数据爬取等方式 , 来获取一些指定场景的新样本 。