Stream SQL 的执行原理与 Flink 的实现
在数据仓库应用中,执行 ETL 过程是一种常见的需求。我们希望通过 ETL 过程预处理我们的原始数据, 从而达到抽取有用信息和将数据转换为适合进一步查询的格式等目的。MapReduce 和 Spark 等批数据处理系统已经很好地解决了在高延迟的场景下的需求,目前低延迟的流式处理和增量计算是主要的发展方向。 本文将结合 Apache Flink 系统讨论相关技术课题。
在数据仓库应用中,执行 ETL 过程是一种常见的需求。我们希望通过 ETL 过程预处理我们的原始数据, 从而达到抽取有用信息和将数据转换为适合进一步查询的格式等目的。MapReduce 和 Spark 等批数据处理系统已经很好地解决了在高延迟的场景下的需求,目前低延迟的流式处理和增量计算是主要的发展方向。 本文将结合 Apache Flink 系统讨论相关技术课题。
随着大数据相关技术的发展,SQL 作为一种成熟的查询语言又逐渐回到人们视野的中心来,被称为 NewSQL 的新型关系型数据库更是蓬勃发展。 作为一种声明式编程语言,将 SQL 转化为可以高效执行的任务对于 OLAP 任务来说是至关重要的。 本文将尝试对相关的技术原理进行一次总结。