Archives

TiFlink: 使用TiKV和Flink实现强一致的物化视图

在本年初的TiDB Hackathon上,我和一众队友尝试使用Flink为TiDB添加物化视图功能,并摘得了“最佳人气奖”。可以说,物化视图在这届比赛中可谓是一个热点。单单是结合Flink实现相关功能的队伍就有三四个。必须承认的是,在比赛结束时我们项目的完成度很低,虽然基本思路已经定型,最终呈现的结果却远没达到预期。经过半年多断断续续的修补,在今天终于可以发布一个预览版本给大家试用。这篇文章就是对我们思路和成果的一个介绍。

Nvm Store: 第二届阿里数据库大赛参赛记录

前段时间因兴趣使然,参加了第二届阿里数据库大赛,并成功冲入决赛。 本届数据库大赛的题目是在Intel提供的持久化内存(Persistent Memory)上实现一套KV Store。 持久化内存一直是数据库研究的一个新兴研究方向,十分高兴这次有机会在真正的持久化内存上实现系统并测试。 这里是我们参赛作品的一个介绍。

OLAP 任务的并发执行与调度

OLAP 是大数据分析应用非常重要的组成部分。这篇文章是介绍 OLAP 任务在并发/分布式环境下执行和调度的算法和模型的。我们将从最简单的 Volcano 模型开始讲起,逐步引出分布式环境下执行 OLAP 查询操作的一些挑战和经典的解决方案。

Stream SQL 的执行原理与 Flink 的实现

在数据仓库应用中,执行 ETL 过程是一种常见的需求。我们希望通过 ETL 过程预处理我们的原始数据, 从而达到抽取有用信息和将数据转换为适合进一步查询的格式等目的。MapReduce 和 Spark 等批数据处理系统已经很好地解决了在高延迟的场景下的需求,目前低延迟的流式处理和增量计算是主要的发展方向。 本文将结合 Apache Flink 系统讨论相关技术课题。

SQL 查询优化原理与 Volcano Optimizer 介绍

随着大数据相关技术的发展,SQL 作为一种成熟的查询语言又逐渐回到人们视野的中心来,被称为 NewSQL 的新型关系型数据库更是蓬勃发展。 作为一种声明式编程语言,将 SQL 转化为可以高效执行的任务对于 OLAP 任务来说是至关重要的。 本文将尝试对相关的技术原理进行一次总结。

图解图算法 Pregel: 模型简介与实战案例

这篇文章是对之前在 SHLUG 月度分享活动上所作演讲 Pregel in Graphs 的总结。为使分享内容清晰易懂,本人绘制了大量原创示意图,这篇文字版的总结也会尽量以这些图示为主。 除了对 Pregel 算法的简单介绍,本文还附加了一个用户追踪画像的实战案例,用以证明图计算模型的重要意义。

集群资源调度系统设计架构总结

之前为完成《AWS 下 Kylin 调度系统的设计》,阅读了大量 集群资源管理和任务调度的资料和论文。了解了如 Hadoop YARNMesosSpark DrizzleBorg/KubernetesOmega 等系统的调度器设计架构,在这篇文章里我将试图从这些架构案例中总结出此类系统一般的设计模式。