此文档共2.2万字,详细介绍了spark图计算的存储模式,图的构建,原理分析,以及计算模式,加上常用的API,PageRank排名算法等,章图算法介绍,还有实现代码练习
2021-08-24 23:01:44 2.77MB 学习文档 原理分析 代码练习 案例实战
1
涵盖大数据hadoop、spark、scala、kafka和Linux-CentOS 6 基础和理论知识最全的思维导图,有助于学习大数据的小白自学
2021-08-24 21:56:01 14.37MB 大数据 hadoop 思维导图 spark
1
hive对应spark3.x编译
2021-08-24 14:22:52 2.71MB hive spark
1
dga-graphx GraphX算法 dga-graphX软件包包含使用GraphX框架在Spark上构建的几种预构建的可执行图算法。 前提条件 [Spark]( )0.9.0或更高版本 [graphX]( ) [Gradle]( ) 建造 如有必要,请编辑build.gradle文件以设置您的spark和graphX版本 gradle clean dist 检查build / dist文件夹中的dga-graphx-0.1.jar。 演算法 鲁汶 关于卢万 Louvain分布式社区检测是这项工作的并行版本: Fast unfolding of communities in large networks, Vincent D Blondel, Jean-Loup Guillaume, Renaud Lambiotte, Etienne Lefebvre, Journal
2021-08-24 13:59:44 27KB 附件源码 文章源码
1
本次作业要完成在Hadoop平台搭建完成的基础上,利用Spark组件完成文本词频统计的任务,目标是学习Scala语言,理解Spark编程思想,基于Spark 思想,使用IDEA编写SparkWordCount程序,并能够在spark-shell中执行代码和分析执行过程。
2021-08-24 09:21:49 1.2MB 大数据 spark hadoop
1
主要介绍了Spark调优多线程并行处理任务实现方式,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2021-08-23 17:32:26 68KB Spark 调优 多线程 并行
1
基于 Apache Spark的大规模分布式机器学习实践 漏洞分析 移动安全 企业安全 APT 业务风控
2021-08-23 14:00:27 3.09MB 安全 系统安全 企业安全 网络信息安全
解决Spark升级到2.1后测试streaming-kafkaIDEA报java.lang.NoClassDefFoundError: org/apache/spark/Logging错误,将这个jar包放到spark的lib目录中,将这个jar包导进IDEA中的依赖,文档中除资源地址外,还有详细图解说明
2021-08-23 13:59:09 149KB spark
1
根据市场上目前比较流行的几款Hadoop产品综合分析,从部署的便捷性、功能、性能及成本等方面综合考量,推荐使用CDH与HDP。然后再根据我们具体的使用场景来进行选择,如果我们追求功能全面与部署案例参考推荐使用CDH,因为CDH目前是市场上功能最全、部署案例最多的一款产品,如果我们追求部署快捷,易上手使用推荐使用HDP,因为HDP是迄今为止100%纯开源ApacheHadoop的唯一提供商并且是第一家使用了ApacheHCatalog的元数据服务特性的提供商。并且,它们的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。
2021-08-22 20:32:50 1.62MB Hbase Hive spark flink
1
clickhouse
2021-08-22 13:14:39 2.1MB ck 大数据
1