Archives
Nvm Store: 第二届阿里数据库大赛参赛记录
前段时间因兴趣使然,参加了第二届阿里数据库大赛,并成功冲入决赛。 本届数据库大赛的题目是在Intel提供的持久化内存(Persistent Memory)上实现一套KV Store。 持久化内存一直是数据库研究的一个新兴研究方向,十分高兴这次有机会在真正的持久化内存上实现系统并测试。 这里是我们参赛作品的一个介绍。
SIGMOD 16 | How to Architect a Query Compiler
这篇发表在 SIGMOD 16 的论文来自洛桑联邦理工学院(EFPL),这所学校在计算机领域以Scala编程语言的发源地而闻名于世。不出意外,这篇论文虽然发表于数据处理相关顶会,却弥漫着浓厚的函数式编程和PL的气氛。连系统实现和代码样例都使用 Scala 描述。
OLAP 任务的并发执行与调度
OLAP 是大数据分析应用非常重要的组成部分。这篇文章是介绍 OLAP 任务在并发/分布式环境下执行和调度的算法和模型的。我们将从最简单的 Volcano 模型开始讲起,逐步引出分布式环境下执行 OLAP 查询操作的一些挑战和经典的解决方案。
Stream SQL 的执行原理与 Flink 的实现
在数据仓库应用中,执行 ETL 过程是一种常见的需求。我们希望通过 ETL 过程预处理我们的原始数据, 从而达到抽取有用信息和将数据转换为适合进一步查询的格式等目的。MapReduce 和 Spark 等批数据处理系统已经很好地解决了在高延迟的场景下的需求,目前低延迟的流式处理和增量计算是主要的发展方向。 本文将结合 Apache Flink 系统讨论相关技术课题。
SQL 查询优化原理与 Volcano Optimizer 介绍
随着大数据相关技术的发展,SQL 作为一种成熟的查询语言又逐渐回到人们视野的中心来,被称为 NewSQL 的新型关系型数据库更是蓬勃发展。 作为一种声明式编程语言,将 SQL 转化为可以高效执行的任务对于 OLAP 任务来说是至关重要的。 本文将尝试对相关的技术原理进行一次总结。
图解图算法 Pregel: 模型简介与实战案例
这篇文章是对之前在 SHLUG 月度分享活动上所作演讲 Pregel in Graphs 的总结。为使分享内容清晰易懂,本人绘制了大量原创示意图,这篇文字版的总结也会尽量以这些图示为主。 除了对 Pregel 算法的简单介绍,本文还附加了一个用户追踪画像的实战案例,用以证明图计算模型的重要意义。
集群资源调度系统设计架构总结
之前为完成《AWS 下 Kylin 调度系统的设计》,阅读了大量 集群资源管理和任务调度的资料和论文。了解了如 Hadoop YARN、 Mesos、 Spark Drizzle、 Borg/Kubernetes 和 Omega 等系统的调度器设计架构,在这篇文章里我将试图从这些架构案例中总结出此类系统一般的设计模式。
记 2017 年的三次日本之旅
在今年樱花季第一次前往日本游玩的时候,我绝没想到今年竟然有机会访问这一与中国渊源颇深的国家三次。 狗年将至,也许是时候把这篇拖延已久的游记发表出来总结一下了。