遥不可及|DataForce组件技术及功能:数据批量和实时同步
DataForce是慧都自主研发、应用最灵活的大数据平台 。 能够帮助您随时找到您想要的数据 , 使数据得到安全、稳定和高效的管理与应用 。 DataForce是企业大数据解决方案的重要组成部分 , 除了提供完整的大数据功能组件 , 我们还提供组件自定义搭配 , 为企业选择满足方案需要的大数据功能组件 , 使您的大数据解决方案成本降到最低 , 从而高品质的解决您的大数据需求问题 。
了解什么是DataForce , 请点击这里查看DataForce的基础介绍>>
本文主要跟大家介绍DataForce的数据批量同步工具和数据实时同步工具 。
数据批量同步工具批量同步工具主要用于在大数据集群、数据仓库与传统的数据库(mysql、postgresql...)间进行数据的传递 , 可以将一个关系型数据库(例如 :mySQL,Oracle等)中的数据导进到大数据存储系统中 , 也可以将集群上的数据导进到关系型数据库中 。 它可以高效、可控地利用资源 , 可以通过调整任务数来控制任务的并发度 。 另外它还可以配置数据库的访问时间等等 。 它可以自动的完成数据类型映射与转换 。 我们往往导入的数据是有类型的 , 它可以自动根据元数据模型来判断数据类型 , 把数据库中的类型转换到集群上或者数据仓库中对应类型 , 当然用户也可以自定义它们之间的映射关系 。 它支持多种数据库 , 比如 , Mysql、Oracle和PostgreSQL等等数据库 。 对于某些NoSQL数据库它也提供了连接器 。
DataForce数据批量同步工具的特性
批量同步工具具有如下特性:
- 操作简单 , 有固定的写入命令模式 。
- 它支持多种数据库 , 比如 , Mysql、Oracle和PostgreSQL等等数据库 。
- 支持文本文件、avro、SequenceFiles 。
- 它可以高效、可控地利用资源 , 可以通过调整任务数来控制任务的并发度 。 另外它还可以配置数据库的访问时间等等 。
- 它可以自动的完成数据类型映射与转换 。 我们往往导入的数据是有类型的 , 它可以自动根据数据库中的类型转换到分布式集群上的目标存储 , 当然用户也可以自定义它们之间的映射关系 。
- 也可以根据增量字段值执行增量同步 。
- 可以创建为一个作业 , 需要用到时调用执行 。
- 可以通过脚本设置定时任务 。
- 自身带有校验机制 , 保证数据完整性 。
- 可以根据任务和硬件情况指定并行度 。
- 可以指定的导入特定的列 。
- 可以导入自定义的简单的sql语句查询结果 , 不支持复杂的语句 。
- 可以从关系数据库导入到集群 , 也可以从集群导出到关系数据库 。
- 支持增量的批量导入 。
- 关系数据库的数据批量同步导入到大数据集群(分布式存储系统、分布式数据库、数据仓库等) 。
- 通过批量同步工具 , 可以从关系型数据库中导出数据 , 导入到分布式存储系统中 。 输入是数据库的一张表或者查询结果;输出则是数据库表或者结果的导出文件集合 。 导入进程是并行的 , 因此输出的结果可能是多个文件(最终在集群中可能会得到多个文件) 。 这些文件可能是标准的文本文件TextFile(比如 , 使用逗号做字段间的分割) , 也可能是Avro或者SequeenceFiles的记录文件 。
- 大数据集群(分布式存储系统、分布式数据库、数据仓库等)的数据批量同步导出到关系数据库 。
- 通过批量同步工具 , 还可以实现从大数据平台存储系统和分布式数据库系统以及数据仓库系统把数据导出到关系数据库中 , 如果是导出存储系统中的文件 , 则需要指明字段的分割符 。
- 遥不可及|100万美元!辽宁副省长卢柯拿下科学大奖 埋头多年攻坚新型纳米结构研究
- 遥不可及|联发科取消为华为定制5nm芯片计划,希望9月15号后继续供货
- 猪奇游戏菌|王者荣耀:职业真的遥不可及?老帅和末将的成功,告诉你并不绝对!
- 遥不可及|英伟达显卡发展简史(一)
- 塞巴斯蒂安·维特尔|每站都在创造“新历史”!36年来首次!前10对跃马来说已是遥不可及的梦
- 遥不可及|与他人进行远程控制电脑能看见啥
- 遥不可及|8月最流畅安卓机型排行,小米一跃成王,诺基亚也上榜
- 遥不可及|20家跨国公司代表东湖绿道健康跑,这位选手用“5G速度”第一个冲线
- 组件|177组核燃料,我国自主三代核电华龙一号全球首堆开始装料
- 遥不可及|互联网大佬的饭局,为啥从来不请马云?其实这背后也是江湖故事