软件1801 (广州商学院)

  • RDD练习 :词频统计 4

    一、词频统计: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 二、学生课程分
    庄玉峰   2021-06-06 22:42   0   17
  • 10 期末大作业

    大作业: 1.选择使用什么数据,有哪些字段,多大数据量。 选择使用美国疫情数据;有日期、县、州、确诊人数、死亡人数 2.准备分析哪些问题?(8个以上) 某个县每天有多少确诊病例和死亡病例 每个县最多确证病例是哪一天有多少 每个县最多死亡病例是哪一天有多少 5.19确证病例前十的州 5.19死亡病例前
    方大师   2021-06-06 22:41   0   17
  • spark RDD

    准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数:条件表达式 截图: 从文件创建RDD lines=sc.textFile() 筛选出含某个单词的行 lines.filter()lambda 参数:条件表达式 2
    庄玉峰   2021-06-06 22:36   0   16
  • 10 期末大作业

    06 Spark SQL 及其DataFrame的基本操作(忘了交 1.Spark SQL出现的 原因是什么? Spark SQL的前身是 Shark,Shark最初是美国加州大学伯克利分校的实验室开发的Spark生态系统的组件之一,它运行在Spark系统之上,Shark重用了Hive的工作机制,并
    不喜欢穿内裤   2021-06-06 22:23   0   52
  • 10 期末大作业

    补交作业 01 Spark架构与运行流程,https://www.cnblogs.com/0311Chrome/p/14856587.html(第一次作业) 原因:当时忘记这次作业了 Spark RDD编程,https://www.cnblogs.com/0311Chrome/p/14856591.
    碎觉觉   2021-06-06 22:12   0   28
  • 04 RDD编程练习

    一、filter,map,flatmap练习: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words 3.全部转换为小写 4.去掉长度小于3的单词 5.去掉停用词 二、groupByKey练习 6.练习一的生成单词键值对 7.对单词进行分组 8.查看分组结果 学生科目成绩
    碎觉觉   2021-06-06 22:03   0   12
  • Spark RDD编程

    1. 准备文本文件: 从文件创建RDD lines=sc.textFile(): 筛选出含某个单词的行 lines.filter(),lambda 参数:条件表达式: 2. 生成单词的列表: 从列表创建RDD words=sc.parallelize(): 筛选出长度大于2 的单词 words.fi
    碎觉觉   2021-06-06 22:02   0   14
  • 01 Spark架构与运行流程

    1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障,在低成本的通用硬件上运行。 HBase构建在HDFS之上
    碎觉觉   2021-06-06 22:00   0   39
  • 10 期末大作业

    大作业: 1.选择使用数据,有什么字段,数据量。 选择使用美国疫情数据;有日期、县、州、确诊人数、死亡人数 2.准备分析哪些问题?(8个以上) 每天有多少确诊病例和死亡病例 每个县有多少确诊病例和死亡病例 确诊人数最多的县 死亡人数最多的县 死亡病例为0的县有哪些 2020年3月14日的确诊人数 确
    落幕无华   2021-06-06 21:58   0   36
  • 06 Spark SQL 及其DataFrame的基本操作

    1.Spark SQL出现的 原因是什么? 由于MapReduce这种计算模型执行效率比较慢,所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快,同时Spark SQL也支持从Hive中读取数据。 2.用spark.read 创建DataFra
    zhangxiaofeng   2021-06-06 21:57   0   41