-
06 Spark SQL 及其DataFrame的基本操作
一. 1.Spark SQL出现的 原因是什么? spark sql是从shark发展而来。Shark为了实现Hive兼容,在HQL方面重用了Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑,可以近似认为仅将物理执行计划从MR作业替换成了Spark作业(辅以内存列式存储等各种和Hive关 -
10 期末大作业
06 Spark SQL 及其DataFrame的基本操作 那段时间不在学校不方便交。 大作业: 1.选择使用什么数据,有哪些字段,多大数据量。 数据:us-counties美新冠数据.csv 字段:日期date、县country、州state、确诊人数cases、死亡人数deaths 数据量:15 -
期末大作业
大作业: 1.选择使用什么数据,有哪些字段,多大数据量。 us-counties美新冠数据 2.准备分析哪些问题?(8个以上) (1). 统计美国截止每日的累计确诊人数和累计死亡人数。做法是以date作为分组字段,对cases和deaths字段进行汇总统计。 (2). 统计美国每日的新增确诊人数和新 -
07 从RDD创建DataFrame
1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() 2. Spark与Pandas中DataFrame对比 http://www.lining0806.com/spark%E4%B8%8E -
10 期末大作业
1.选择使用什么数据,有哪些字段,多大数据量。 使用美国新冠数据集。有日期(date),县(county), 国家、州(state),确诊情况(cases),死亡人数(deaths)。 2.准备分析哪些问题?(8个以上) 1、统计美国确诊人数最多的那个县2、统计美国某个县每天的确诊病例和死亡病例3、 -
10 期末大作业
大作业: 1.选择使用什么数据,有哪些字段,多大数据量。 选用kaggle提供的美国疫情数据 有五个字段:date county state cases deaths 数据量:158984条 2.准备分析哪些问题?(8个以上) (1).统计美国截止每日的累计确诊人数和累计死亡人数。做法是以date作 -
10 期末大作业
一、.选择使用什么数据,有哪些字段,多大数据量。 us-counties美新冠数据;字段有日期(date),县(county), 国家、州(state),确诊情况(cases),死亡人数(deaths); 二、准备分析哪些问题?(8个以上) 1、统计美国某个县每天的确诊病例和死亡病例 2、统计美国确 -
10 期末大作业
1.选择使用什么数据,有哪些字段,多大数据量。 答:us-counties美新冠数据;字段:date,county,state,cases,deaths;数据量:158981条 2.准备分析哪些问题?(8个以上) 1.美国各州每日新增感染人数,各州每日新增死亡人数,各州每日新增治愈人数 2.美国各州 -
10 大作业情况
1.选择使用什么数据,有哪些字段,多大数据量。 答:us-counties美新冠数据;字段:date,county,state,cases,deaths;数据量:158981条 2.准备分析哪些问题?(8个以上) (1). 统计美国截止每日的累计确诊人数和累计死亡人数。做法是以date作为分组字段, -
10 期末大作业
一、.选择使用什么数据,有哪些字段,多大数据量。 us-counties美新冠数据;字段有日期(date),县(county), 国家、州(state),确诊情况(cases),死亡人数(deaths); 二、准备分析哪些问题?(8个以上) 1、统计美国某个县每天的确诊病例和死亡病例 2、统计美国确