搜索【Spark ClickHouse】的结果

Spark-Core学习知识笔记整理

Spark-Core文档是本人经三年总结笔记汇总而来，对于自我学习Spark核心基础知识非常方便，资料中例举完善，内容丰富。具体目录如下：目录第一章 Spark简介与计算模型 3 1 What is Spark 3 2 Spark简介 3 3 Spark历史 4 4 BDAS生态系统 4 5 Spark与Hadoop的差异 5 6 Spark的适用场景 6 7 Spark成功案例 6 第二章 Spark开发环境搭建 8 1 Spark运行模式 8 2 Spark环境搭建 8 2.1Scala的安装 8 2.2Spark的单节点配置 9 2.3Spark-Standalone集群配置 9 2.4Spark-on-Yarn模式配置 12 2.5Spark-on-Mesos模式配置 13 2.6Hive-on-Spark配置 13 第三章 Spark计算模型 15 1 RDD编程 15 1.1弹性分布式数据集RDD 15 1.2构建RDD对象 15 2RDD操作 15 2.1将函数传递给Spark 16 2.2了解闭包 16 2.3Pair RDD模型 17 2.4Spark常见转换操作 18 2.5Spark常见行动操作 20 2.6RDD持久化操作 21 2.7注意事项 23 2.7并行度调优 24 2.8分区方式 25 3Examle:PageRank 27 第四章 Spark编程进阶 29 1共享变量 29 1.1累加器 30 1.2广播变量 31 2基于分区进行操作 32 3与外部程序间的管道 33 4数值RDD的操作 34 5 Spark Shuffle机制 34 第五章 Spark调优与调试 39 1开发调优： 40 1.1调优概述 40 1.2原则一：避免创建重复的RDD 40 1.3原则二：尽可能复用同一个RDD 41 1.4原则三：对多次使用的RDD进行持久化 42 1.5原则四：尽量避免使用shuffle类算子 43 1.6原则五：使用map-side预聚合的shuffle操作 44 1.7原则六：使用高性能的算子 45 1.8原则七：广播大变量 46 1.9原则八：使用Kryo优化序列化性能 47 1.10原则九：优化数据结构 48 2资源调优 48 2.1调优概述 48 2.2 Spark作业基本运行原理 49 2.3资源参数调优 50 第六章 Spark架构和工作机制 52 1 Spark架构 52 1.1 Spark架构组件简介 52 1.2 Spark架构图 54 2 Spark工作机制 54 2.1 Spark作业基本概念 54 2.2 Spark程序与作业概念映射 55 2.3 Spark作业运行流程 55 3 Spark工作原理 55 3.1 作业调度简介 55 3.2 Application调度 56 3.3 Job调度 56 3.4 Tasks延时调度 56 第七章 Spark运行原理 57 1 Spark运行基本流程 57 2 Spark在不同集群中的运行架构 58 2.1 Spark on Standalone运行过程 59 2.2 Spark on YARN运行过程 60

2023-09-26 13:01:48 6.54MB Spark 初学者 大数据 资料归档

1

clickhouse集群配置.zip

clickhouse集群配置，host配置文件，以供参照官方文档配置时候的参考,以便于快速的搭建出集群，便于使用

2023-09-25 14:54:19 6KB clickhouse

1

clickhouse-jdbc

ru.yandex.clickhouse --0.2.4 java连接clickhouse相关驱动包

2023-06-27 15:46:18 193KB clickhouse-jdbc clickhouse

1

深入理解Spark 核心思想与源码分析

《深入理解Spark 核心思想与源码分析》完整版

2023-05-23 14:48:14 58.62MB Spark 核心思想 源码分析

1

大数据Spark企业级实战 PDF电子书带书签目录

2023-05-23 14:44:49 12.77MB 大数据 Spark 企业级实战 PDF电子书

1

MongoDB+Spark.pdf

MongoDB+Spark.pdf MongoDB+Spark.pdf MongoDB+Spark.pdf

2023-05-23 14:22:11 4.07MB MongoDB Spark

1

spark官方中文文档

( spark官方中文文档（spark亚太研究院联合出品）.pdf )

2023-05-23 14:19:40 4.76MB spark 官方中文文档

1

pyspark读lzo需要依赖

gplcompression.dll,lzo2.dll 两个dll放入system32文件夹,hadoop-lzo-0.4.21-SNAPSHOT.jar 放入spark\jars

2023-05-16 15:02:49 164KB spark

1

password-data:包含密码数据的CSV文件在我的“使用Apache Spark讨论已拥有的密码”演讲和博客文章中使用

密码资料包含以下人员使用的密码数据的CSV文件：教程：：谈话：：来自原始数据。 5亿个人密码 :face_screaming_in_fear: 以下是有关如何获取这种格式数据的详细信息。真的很无聊。该更加有趣。如果您好奇，请继续阅读。原始数据可从Troy Hunt通过torrent或文件下载获得，： : 。获取流行程度排序的第2版文件，然后将其下载到您的计算机中，并使用您喜欢的程序将其解压缩。您应该最终得到一个大约29G的.txt文件。由于我们下载了按流行度排序的数据集，因此最受欢迎的密码将位于文件顶部。让我们修剪数据集，以便我们可以节省本地计算机的内存并更快地获得一些见解。我们将使用head bash命令获取前1亿行数据。 head -n 100000000 pwned-passwords-2.0.txt > pwned-passwords.txt 删除原始文件或将其移

2023-05-08 22:06:12 20.96MB

1

Spark+MLlib机器学习实践+,王晓华著

Spark+MLlib机器学习实践+,王晓华著完整版，自己学习很实用

2023-05-02 09:23:18 37.52MB Spark MLlib 机器学习 王晓华

1

个人信息

热门下载

最新下载

其他资源