追本溯源:数据科学真的有那么重要吗?
全文共2378字 , 预计学习时长6分钟
文章插图
图源:forbes
数据科学存在已久 , 但它真正流行起来是在过去十年间 , 尤其是大流行期间 , 它得到了广泛认可 。 过去几个月里 , 关于数据科学的话题越来越多 , 人们不禁疑惑 , 它是如何变得如此重要的?
为了得到答案 , 我们首先要了解数据科学的概念和简史 。
文章插图
数据科学是什么?数据科学的官方定义是“使用科学方法、过程、算法和系统从数据中提取知识和见解的领域” 。 这个定义看起来很宽泛 , 因为数据科学确实是一个包含很多内容的领域 。 通常提到数据科学 , 人们就会想到“大数据” , 甚至有些人认为两者是等同的 。 然而 , “大数据”只是数据科学的一方面 , 该领域还包括很多其他部分 。
确切地说 , 数据科学是一个跨学科领域——结合了计算机科学、数学、统计学和许多其他领域的内容 。 它包含机器学习(使用统计数据在大量数据中找到模式的算法)、数据分析(包括检查数据、清理数据/使其有效并对其进行转换 , 以确保以有效的方式对其进行建模 , 从而帮助解决业务问题)和数据工程(侧重于获取数据、准备数据和处理数据) 。
下图显示了一个数据科学家需要承担的多项工作 。
文章插图
图源:Simplilearn
数据采集:采集将要处理的数据 。 数据在当今世界随处可见 , 所以 , 本阶段的关键不仅仅在于“采集” , 而是理解业务需求和优先级 , 采集正确类型和数量的数据 。
数据准备:也就是对于数据的预处理 。 本阶段需要准备数据——提取相关数据并将其转换为有效形式 , 用于接下来的分析和建模 。
数据分析:本阶段位于建模之前 , 探索性数据分析(EDA)使用多种工具帮助提炼可用的数据 。 这一阶段所做的改进有助于建模 。
数据建模:本阶段将不同的机器学习技术应用于数据 , 以帮助人们理解数据中的模式和关系 。
可视化/数据可视化:本阶段 , 前几阶段的数据分析结果以公众能够理解的形式呈现 。 这些结果包含很多有价值的信息 , 因此被用于做出重要决策 。
【追本溯源:数据科学真的有那么重要吗?】部署和维护:部署和持续维护模型 , 确保其能够适应任何环境变化 。
上述过程不是线性的 , 而是一个循环 。 因此 , 在做完数据可视化和模型部署后 , 该过程反复进行 , 以确保模型不断得到优化 。
文章插图
数据科学简史尽管数据科学在2001年才被正式列为一门学科 , 但是在此之前 , 它已经不知不觉地存在了30年 。 人们认为John W. Tukey在1962年写的《数据分析的未来》是最早提到数据科学的出版物之一 。
接下来的几十年里 , 也有人提到数据科学 , 但是没有被正式称为“数据科学”——其与统计分析关系更大 , 而不是我们现在所说的数据科学 。
2001年 , 人们意识到了数据科学的重要性 , 首次将其列为一门学科 。 同年 , William S. Cleveland出版《数据科学:扩大统计领域技术面的行动计划》 , 这是关于数据科学领域的首份出版物 , 成为该领域进步的起点 。
大概十年后 , 由于对分析大量数据的需求日益增加 , 数据科学领域开始流行起来 。 采集数据的大型科技公司(比如谷歌)的增加提高了海量数据的可用性 。
同年 , Kenneth Cukier在《经济学人》上发表了一篇专题报告 , 介绍如何结合软件开发人员、统计学家和艺术家的技能 , 从数据中提取有用的见解 。 几个月后 , Mike Loukides在其出版物《什么是数据科学?》中介绍了如何建模分析数据、做出预测 , 以及如何逐步优化这些模型以做出更好的预测 。
自此 , 该领域的研究一直呈指数级增加 , 数据科学的应用也随之增加 。 值得注意的是 , 数据科学目前在某种程度上与大多数现代行业相关联 。
文章插图
数据科学在各种行业中的应用数据科学几乎与当今所有的现代行业相联系 。 涉及的领域包括汽车、航空、商业、金融、医疗保健等等 。
自动驾驶汽车
文章插图
- 查询|数据太多容易搞混?掌握这几个Excel小技巧,办公思路更清晰
- 黑莓(BB.US)盘前涨逾32%,将与亚马逊开发智能汽车数据平台|美股异动 | US
- 健身房|乐刻韩伟:产业互联网中只做单环节很难让数据发挥大作用
- V2X|V2X:确保未来道路交通数据交换的安全性
- 短视频平台|大数据佐证,抖音带动三千万就业,视频手机将成生产力工具?
- 权属|从数据悖论到权属确认,数据共享进路所在
- 统计|多久才能换一次手机?统计机构数据有点意外
- 发展|大数据解读世界互联网大会·互联网发展论坛!
- 网购|黑色星期五及网购星期一大数据出炉 全球第三方卖家销售额超48亿美元
- Veeam|Veeam让企业数据拥有“第二次生命”
