遥不可及|DataForce组件技术及功能:数据批量和实时同步( 二 )

DataForce数据批量同步工具的应用场景
遥不可及|DataForce组件技术及功能:数据批量和实时同步在遇到需要进行大规模的复杂的数据分析或者其他情况需要把关系数据库中的数据拷贝或者移植到大数据的分布式平台上的时候 , 批量同步工具就非常适合实现大规模的从结构化数据库中数据批量导入到分布式文件系统或分布式数据库或者数据仓库中 。 做大规模数据分析以及数据处理等的前期数据转移 , 把单机上的数据批量快速的转移到分布式集群上 。 可以满足增量的同步导入 , 还可以创建一些执行计划 , 通过linux的定时调度机制定期的执行一些特定的导入操作 , 也可以使用任务调度工具进行批量同步任务的创建和统一管理 。
也可以满足从大数据集群上把数据导出到结构化数据库中 , 比如一些集群上的数据处理结果 , 数据仓库的一些特定的表等 , 多数是在对分布式平台上或者数据仓库里面的数据分析之后产生的结果数据 。 需要导出到关系数据库中 , 然后提供前端展示 。
所以 , 批量同步工具就是为了实现关系数据库(包括mysql , oracle等)与大数据平台(包括分布式存储系统和分布式数据库系统以及数据仓库系统等)之间的相互数据传递 。
数据实时同步工具实时数据采集工具是一个从可以收集例如日志 , 事件等数据资源 , 并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务 。 实时数据采集工具具有高可用 , 分布式 , 配置化的能力 , 其设计的原理也是基于将数据流 , 如日志数据从各种网站服务器上汇集起来存储到大数据平台(包括分布式存储系统、分布式数据库系统、数据仓库系统等) 。 它能够将不同数据源的海量日志数据进行高效收集、聚合、移动、最后存储到一个中心化数据存储系统中 。 实时数据采集工具是一个轻量级的小工具 , 适应各种方式的日志收集 , 并支持故障切换和负载均衡 。
实时数据采集工具的数据流由事件(Event)贯穿始终 。 事件是Flume的基本数据单位 , 它携带日志数据(字节数组形式)并且携带有头信息 , 这些Event由Agent外部的Source生成 , 当Source捕获事件后会进行特定的格式化 , 然后Source会把事件推入(单个或多个)Channel中 。 你可以把Channel看作是一个缓冲区 , 它将保存事件直到Sink处理完该事件 。 Sink负责持久化日志或者把事件推向另一个Source 。
DataForce数据实时同步工具的特性
实时数据采集工具具有以下特性:

  1. 实时数据采集工具可以将应用产生的数据存储到任何集中存储器中 , 比如分布式文件系统 , 分布式数据库 , 数据仓库等 。
  2. 当收集数据的速度超过将写入数据的时候 , 也就是当收集信息遇到峰值时 , 这时候收集的信息非常大 , 甚至超过了系统的写入数据能力 , 这时候 , 实时数据采集工具会在数据生产者和数据收容器间做出调整 , 保证其能够在两者之间提供一共平稳的数据 。
  3. 实时数据采集工具的管道是基于事务 , 保证了数据在传送和接收时的一致性 。
  4. 实时数据采集工具是可靠的 , 容错性高的 , 可升级的 , 易管理的,并且可定制的 。
  5. 采用sql轮询方式 , 具有通用性 , 支持多种数据源 。
  6. 实时性 , 实时数据采集工具还有一个特点就是可以实时的将分析数据并将数据保存在数据库或者其他系统中 。
  7. 提供多种数据源接口 , 包括tcp , http , avro , 文件 , sql等等 。
  8. 配置简单;快速部署;简化编程;具有通用性 , 适用于各种关系库数据源 。
  9. 在源库查询 , 具有入侵性 。
  10. 只能识别新数据 , 不能检测删除与更新 。
  11. 要求源库必须有用于表示增量的字段 。