追本溯源:数据科学真的有那么重要吗?

全文共2378字 , 预计学习时长6分钟
追本溯源:数据科学真的有那么重要吗?文章插图
图源:forbes
数据科学存在已久 , 但它真正流行起来是在过去十年间 , 尤其是大流行期间 , 它得到了广泛认可 。 过去几个月里 , 关于数据科学的话题越来越多 , 人们不禁疑惑 , 它是如何变得如此重要的?
为了得到答案 , 我们首先要了解数据科学的概念和简史 。
追本溯源:数据科学真的有那么重要吗?文章插图
数据科学是什么?数据科学的官方定义是“使用科学方法、过程、算法和系统从数据中提取知识和见解的领域” 。 这个定义看起来很宽泛 , 因为数据科学确实是一个包含很多内容的领域 。 通常提到数据科学 , 人们就会想到“大数据” , 甚至有些人认为两者是等同的 。 然而 , “大数据”只是数据科学的一方面 , 该领域还包括很多其他部分 。
确切地说 , 数据科学是一个跨学科领域——结合了计算机科学、数学、统计学和许多其他领域的内容 。 它包含机器学习(使用统计数据在大量数据中找到模式的算法)、数据分析(包括检查数据、清理数据/使其有效并对其进行转换 , 以确保以有效的方式对其进行建模 , 从而帮助解决业务问题)和数据工程(侧重于获取数据、准备数据和处理数据) 。
下图显示了一个数据科学家需要承担的多项工作 。
追本溯源:数据科学真的有那么重要吗?文章插图
图源:Simplilearn
数据采集:采集将要处理的数据 。 数据在当今世界随处可见 , 所以 , 本阶段的关键不仅仅在于“采集” , 而是理解业务需求和优先级 , 采集正确类型和数量的数据 。
数据准备:也就是对于数据的预处理 。 本阶段需要准备数据——提取相关数据并将其转换为有效形式 , 用于接下来的分析和建模 。
数据分析:本阶段位于建模之前 , 探索性数据分析(EDA)使用多种工具帮助提炼可用的数据 。 这一阶段所做的改进有助于建模 。
数据建模:本阶段将不同的机器学习技术应用于数据 , 以帮助人们理解数据中的模式和关系 。
可视化/数据可视化:本阶段 , 前几阶段的数据分析结果以公众能够理解的形式呈现 。 这些结果包含很多有价值的信息 , 因此被用于做出重要决策 。
【追本溯源:数据科学真的有那么重要吗?】部署和维护:部署和持续维护模型 , 确保其能够适应任何环境变化 。
上述过程不是线性的 , 而是一个循环 。 因此 , 在做完数据可视化和模型部署后 , 该过程反复进行 , 以确保模型不断得到优化 。
追本溯源:数据科学真的有那么重要吗?文章插图
数据科学简史尽管数据科学在2001年才被正式列为一门学科 , 但是在此之前 , 它已经不知不觉地存在了30年 。 人们认为John W. Tukey在1962年写的《数据分析的未来》是最早提到数据科学的出版物之一 。
接下来的几十年里 , 也有人提到数据科学 , 但是没有被正式称为“数据科学”——其与统计分析关系更大 , 而不是我们现在所说的数据科学 。
2001年 , 人们意识到了数据科学的重要性 , 首次将其列为一门学科 。 同年 , William S. Cleveland出版《数据科学:扩大统计领域技术面的行动计划》 , 这是关于数据科学领域的首份出版物 , 成为该领域进步的起点 。
大概十年后 , 由于对分析大量数据的需求日益增加 , 数据科学领域开始流行起来 。 采集数据的大型科技公司(比如谷歌)的增加提高了海量数据的可用性 。
同年 , Kenneth Cukier在《经济学人》上发表了一篇专题报告 , 介绍如何结合软件开发人员、统计学家和艺术家的技能 , 从数据中提取有用的见解 。 几个月后 , Mike Loukides在其出版物《什么是数据科学?》中介绍了如何建模分析数据、做出预测 , 以及如何逐步优化这些模型以做出更好的预测 。
自此 , 该领域的研究一直呈指数级增加 , 数据科学的应用也随之增加 。 值得注意的是 , 数据科学目前在某种程度上与大多数现代行业相关联 。
追本溯源:数据科学真的有那么重要吗?文章插图
数据科学在各种行业中的应用数据科学几乎与当今所有的现代行业相联系 。 涉及的领域包括汽车、航空、商业、金融、医疗保健等等 。
自动驾驶汽车
追本溯源:数据科学真的有那么重要吗?文章插图