第八周 10-20 大数据继续学习运用在模具展览中

2019-10-20 17:00:46

今天 10-20 ，还是 1小时车程，最终停车过来，已经 9点了。

上午 zookeepper , 下午 spark ,

10:30 开始，之前一直在讨论

HDFS 高可用是使用 ZOOKEEPER

这个还是对应的 KAFKA里面也能用 Zookeeper

下面的是卢老师讲的

-------- 下午开始，复习 zookeeper 的内容，仅仅是一种服务包，并不是语言， spark 也是一个运用包。

主要是为了，等待出问题的时候，才进行重新选领导，以及重新广播的应急办法就是 zookeeper 。

大数据组件原理总结-Hadoop、Hbase、Kafka、Zookeeper、Spark

Hadoop原理

分为HDFS与Yarn两个部分。HDFS有Namenode和Datanode两个部分。

HBase原理

Hbase是列存储数据库。其存储的组织结构就是将相同的列族存储在一起，因此得名的。

Zookeeper原理

Zookeeper是一个资源管理库，对节点进行协调、通信、失败处理、节点损坏的处理等，是一个无中心设计，主节点通过选举产生。

Kafka原理
Kafka是分布式发布-订阅消息系统。

Spark原理

spark 可以很容易和yarn结合，直接调用HDFS、Hbase上面的数据，和hadoop结合。

应用场景：集群管理

Hbase Master选举则是zookeeper经典的使用场景；

Storm集群管理

Zookeeper通过维护一个分布式目录数据结构，实现分布式协调服务

利用Zookeeper有序目录的创建和删除，实现分布式共享锁。

------------下午 4:20 开始学习 Spark 2009年诞生于apache 一站式的批处理，实时流处理

深圳塑胶模具厂,深圳市模具厂,深圳模具厂,深圳模具,深圳塑胶模具

Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目，Spark是基于内存计算的大数据并行计算框架，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。

使用的语言是Scala，项目的core部分的代码只有63个Scala文件，非常短小精悍。

Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。

与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

Spark 4大特性

深圳塑胶模具厂,深圳市模具厂,深圳模具厂,深圳模具,深圳塑胶模具

标签: 第八周 10-20 大数据继续学习运用在模具展览中