-
10 期末大作业
大作业: 1.选择使用什么数据,有哪些字段,多大数据量。 选用kaggle提供的美国疫情数据 有五个字段:date county state cases deaths 数据量:158984条 2.准备分析哪些问题?(8个以上) (1).统计美国截止每日的累计确诊人数和累计死亡人数。做法是以date作 -
07 从RDD创建DataFrame
1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() 2. Spark与Pandas中DataFrame对比 http://www.lining0806.com/spark%E4%B8%8E -
06 Spark SQL 及其DataFrame的基本操作
1.Spark SQL出现的 原因是什么? Spark SQL的前身是 Shark,它运行在Spark系统之上,Shark重用了Hive的工作机制,并直接继承了Hive的各个组件, Shark将SQL语句的转换从MapReduce作业替换成了Spark作业,虽然这样提高了计算效率,但由于 Shark -
Spark SQL 及其DataFrame的基本操作
1.Spark SQL出现的 原因是什么? Spark SQL出现是因为关系数据库已经不能满足各种在大数据时代新增的用户需求。首先,用户需要在不同的结构化和非结构化数据中执行各种操作。其次,用户需要执行像机器学习和图像处理等等高级分析,在实际应用中,也经常需要融合关系查询和分析复杂算法。 2.用sp -
期末大作业
1.选择使用什么数据,有哪些字段,多大数据量。 答:使用美国新冠的数据。里面有字段:date,county,state,cases,deaths。一共有158981条数据。 2.准备分析哪些问题?(8个以上) (1). 统计美国截止每日的累计确诊人数和累计死亡人数。 (2). 统计美国每日的新增确诊 -
07 从RDD创建DataFrame
sc创建RDD 转换成Row元素,列名=值 spark.createDataFrame生成df df.show(), df.printSchema() 3.2 使用编程方式定义RDD模式 生成“表头” fields = [StructField(field_name, StringType(), T -
10 期末大作业
大作业: 1.选择使用什么数据,有哪些字段,多大数据量。 数据:2020年1月21日到2020年5月19日的美国疫情数据 字段: date 日期 county 市/县 state 州 cases 确诊人数 deaths 死亡人数 数据量:158981条数据 2.准备分析哪些问题?(8个以上) 准备分 -
04 RDD编程练习
一、filter,map,flatmap练习: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words 3.全部转换为小写 4.去掉长度小于3的单词 5.去掉停用词 二、groupByKey练习 6.生成单词键值对 7..对单词进行分组 8.查看分组结果 学生科目成绩文件练 -
10 期末大作业
一、.选择使用什么数据,有哪些字段,多大数据量。 us-counties美新冠数据;字段有日期(date),县(county), 国家、州(state),确诊情况(cases),死亡人数(deaths); 二、准备分析哪些问题?(8个以上) 1、统计美国某个县每天的确诊病例和死亡病例 2、统计美国确 -
spark连接mysql数据库:
spark连接mysql数据库: 1.安装启动检查Mysql服务。 2.spark 连接mysql驱动程序。 –cp /usr/local/hive/lib/mysql-connector-java-5.1.40-bin.jar /usr/local/spark/jars netstat -tunl