慢摇哥哥的博客

数据科学和产品设计

Tidb

TiDB简介

»

共识算法

http://blog.kongfy.com/2016/05/%E5%88%86%E5%B8%83%E5%BC%8F%E5%85%B1%E8%AF%86consensus%EF%BC%9Aviewstamped%E3%80%81raft%E5%8F%8Apaxos/#fn-1494-book

»

Hadoop架构

总结

»

流计算

什么是流，什么是流计算?错觉以为流处理将会被以一种类似于实时的MapReduce层的方式使用。我们最终却发现，大部分对流处理有需求的应用实际上和我们通常使用Hive或者Spark job所做的事情有很大不同，这些应用更接近于一种异步的微服务，而不是批量分析任务的快速版本。

»

Hadoop

2003年Google的研发团队发表了 MapReduce 论文，开启了大数据处理框架的发展史。MapReduce是一套编程模型，模型设计的目的是，把耗时的大数据大任务拆解到多台普通的计算机器上并行计算，从而提高执行效率。

»

分布式一致性

一切始于大，大量的用户访问，以及随之而来的大量数据存储和计算，让传统单机或All in one架构，无法再通过增加单台硬件配置，来提升性能满足需求。于是只能通过水平切分计算与存储，横向进行扩容，这就有了分布式系统。

»

Kafka分布式数据平台

Kafka即可作为系统集成的消息中间件和数据存储系统，提供发布订阅和数据存储能力，也可作为流数据的实时计算平台。

»

Flume数据采集系统

在进行大数据采集和数据集成时，我们期望有一个统一的工具来收集各种不同的数据源，然后发送到集中存储，Apache Flume就是这样一个强大的数据采集工具。

»

认识大数据

伴随移动互联网、IoT和5G的发展，数字世界的数据体量正在发生爆炸性增长，已经迈入了用ZB（1 Zettabyte = 1024 * 1024 * 1024 TB）这个单位来计量的时代。据IDC统计，在这些数据中超过95%的数据是无关联非结构化数据，这意味着如果不对这些数据加以挖掘和整理，即使使用云存储下来，它们也毫无价值，会和时间一样流逝。

»

使用AWS Code服务构建持续集成环境

在做了多年的软件开发和技术管理工作后，发现很多团队仍然停留在手工作坊的阶段，还没有踏上IT自动化这条路，这是一定需要去改善的。

»