乐知付加密服务平台

如果你有资源, 平台可以帮你实现内容变现, 无需搭建知识付费服务平台。

点击访问官方网站 https://lezhifu.cc

扫码关注公众号 乐知付加密服务平台-微信公众号
说说大数据 | chenzuoli's blog

说说大数据

大数据,我们现在应该听的很多,那么应该掌握哪些知识才算入门了大数据呢?如何去学习它呢?

今天我会用5年大数据经验,通过通俗易懂的语言,来给大家普及这方面的知识。

首先,分2块:分布式计算和分布式存储。计算离不开存储,因为你计算的数据是存储在不同位置的,你计算的中间结果和最终结果也是要存储在不同位置的。

分布式存储

2003年google发布三篇论文,第一篇,分布式文件存储系统GFS(Google File System),这就是hadoop hdfs的前身,它是一个可扩展的分布式文件存储系统,用于大型的、分布式的、可扩展的、对大量数据进行访问的应用。运行于普通的廉价的硬件上,提供容错服务,可以给大量用户提供稳定的总体性能较高的服务。

发展至今,我们现在所用到的大数据存储系统,大概有一半是基于hdfs构建的,比如Hive(关系型数据库)、Hbase(非关系型数据库),后面我会去讲讲这些组件的一些基本概念,一个个讲,目标是将我这几年工作学习中用到的组件都介绍一遍,还有遇到的一些基本问题,及如何正确地去使用它们。

你要学习的是hdfs、hive、hbase的基本概念和基本使用。

分布式计算

2004年第二篇论文,分布式计算系统MapReduce,分布式批处理计算系统MapReduce是一个编程模型,通过将一个任务分拆成多个并行处理的任务,达到分布式计算的目的。

以这种模式编写的程序,可以在大型集群上并行地调度、运行,无需程序编写者考虑分布式计算底层的处理逻辑、资源管理、机器之间的通信等细节问题。

目前基于MapReduce思想,实现的计算引擎有很多,hive、spark、flink算是目前使用比较广泛的计算框架。

大家要学习分布式计算,hive是你必须要掌握的分布式数据库,通过hive sql实现分布式计算。

好了,今天就到这里,下期更新hive的知识。


Keep reading, Keep writing, Keep coding.

欢迎关注我的微信公众号,比较喜欢分享知识,也喜欢宠物,所以做了这2个公众号:
程序员写书

喜欢宠物的朋友可以关注:【电巴克宠物Pets】
电巴克宠物

一起学习,一起进步。

-------------本文结束感谢您的阅读-------------