什么是结构化数据文件 处理数据的软件讲解( 二 )


一个半结构化数据的具体例子:

在线零售业务的产品目录数据本质上完全是结构化数据,因为每个产品都有产品 SKU、说明、数量、价格、尺寸选项、颜色选项、照片,并且可能还有视频 。因此 , 这些数据最初似乎具有相关性,因为它们都具有相同的结构 。但在推出新产品或不同类型的产品时 , 随着时间的推移,可能需要添加不同的字段 。例如 , 推出的新网球鞋支持蓝牙 , 可以将传感器数据从鞋传送到用户手机上的健身应用 。这种趋势日益上升,你希望将来能够让客户筛选“支持蓝牙”的鞋子 。你不想返回到最初阶段,更新所有现有的鞋类数据,在其中添加“支持蓝牙”属性,只想在新鞋中添加该属性 。
通过添加“支持蓝牙”属性,在架构中引入了差异,因此鞋类数据不再是同源数据 。如果这是你预计会遇到的唯一例外,则可返回去将现有数据标准化,使所有产品都包含“支持蓝牙”字段,维持结构化的关系组织形式 。但是,如果这只是你预计未来需要提供支持的众多特性字段之一,则应将数据归为半结构化类型 。数据按标记组织,但目录中的每个产品都可包含唯一字段 。
(三)非结构化数据
非结构化数据的组织结构难以发现 。非结构化数据通常以文件形式提供,例如照片或视频 。视频文件本身可具有整体结构并且具有半结构化元数据,但是包括视频文件本身在内的数据是非结构化数据 。因此 , 将照片、视频和其他类似文件归类为非结构化数据 。
非结构化数据示例包括:
  • 媒体文件(如照片、视频和音频文件)
  • Office 文件(如 Word 文档)
  • 文本文件
  • 日志文件
一个非结构化数据的具体例子:
产品页面上显示的照片和视频是非结构化数据 。尽管媒体文件可能包含元数据 , 但媒体文件的正文是非结构化的 。
概括来说,结构化数据是完全符合表中的行和列结构的组织化数据 。半结构化数据也具有组织性且有明确的属性和值,但数据存在多样性 。非结构化数据并不符合表结构,也没有架构 。