Tidb

TiDB简介

»

共识算法

http://blog.kongfy.com/2016/05/%E5%88%86%E5%B8%83%E5%BC%8F%E5%85%B1%E8%AF%86consensus%EF%BC%9Aviewstamped%E3%80%81raft%E5%8F%8Apaxos/#fn-1494-book

»
Distributed System、Consensus

Hadoop架构

总结

»
Hadoop、HDFS、MapReduce、YARN

流计算

什么是流,什么是流计算?错觉以为流处理将会被以一种类似于实时的MapReduce层的方式使用。我们最终却发现,大部分对流处理有需求的应用实际上和我们通常使用Hive或者Spark job所做的事情有很大不同,这些应用更接近于一种异步的微服务,而不是批量分析任务的快速版本。

»
Jekyll、markdown、github

Hadoop

2003年Google的研发团队发表了 MapReduce 论文,开启了大数据处理框架的发展史。MapReduce是一套编程模型,模型设计的目的是,把耗时的大数据大任务拆解到多台普通的计算机器上并行计算,从而提高执行效率。

»
Hadoop、HDFS、MapReduce、YARN

分布式一致性

一切始于大,大量的用户访问,以及随之而来的大量数据存储和计算,让传统单机或All in one架构,无法再通过增加单台硬件配置,来提升性能满足需求。于是只能通过水平切分计算与存储,横向进行扩容,这就有了分布式系统。

»
Distributed System、Consistency

Kafka分布式数据平台

Kafka即可作为系统集成的消息中间件和数据存储系统,提供发布订阅和数据存储能力,也可作为流数据的实时计算平台。

»
Kafka、pubsub、Streaming

Flume数据采集系统

在进行大数据采集和数据集成时,我们期望有一个统一的工具来收集各种不同的数据源,然后发送到集中存储,Apache Flume就是这样一个强大的数据采集工具。

»
Flume、Kafka、数据采集

认识大数据

伴随移动互联网、IoT和5G的发展,数字世界的数据体量正在发生爆炸性增长,已经迈入了用ZB(1 Zettabyte = 1024 * 1024 * 1024 TB)这个单位来计量的时代。据IDC统计,在这些数据中超过95%的数据是无关联非结构化数据,这意味着如果不对这些数据加以挖掘和整理,即使使用云存储下来,它们也毫无价值,会和时间一样流逝。

»
大数据、数据采集、数据存储、数据挖掘

使用AWS Code服务构建持续集成环境

在做了多年的软件开发和技术管理工作后,发现很多团队仍然停留在手工作坊的阶段,还没有踏上IT自动化这条路,这是一定需要去改善的。

»
持续集成、AWS、CodeBuild、CodeDeploy、CodePipeline