-
10
1.选择使用什么数据,有哪些字段,多大数据量。 选择使用美国疫情数据;有日期、县、州、确诊人数、死亡人数 2.准备分析哪些问题?(8个以上) 美国每日的累计确诊病例数和死亡数 美国每日的新增确诊病例数 美国每日的新增死亡病例数 死亡人数最多的县 统计截止至5.19日,美国确诊人数最多的前十个州(对3 -
期末大作业
一、.选择使用什么数据,有哪些字段,多大数据量。 us-counties美新冠数据;字段有日期(date),县(county), 国家、州(state),确诊情况(cases),死亡人数(deaths); 二、准备分析哪些问题?(8个以上) 1、统计美国某个县每天的确诊病例和死亡病例 2、统计美国确 -
10 期末大作业
补: https://www.cnblogs.com/cmy523/p/14860662.html: 06 SPARK SQL 及其DATAFRAME的基本操作 原因:忘了交了 一、.选择使用什么数据,有哪些字段,多大数据量。 us-counties美新冠数据;字段有日期(date),县(count -
07 从RDD创建DataFrame
1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() 2. Spark与Pandas中DataFrame对比 http://www.lining0806.com/spark%E4%B8%8E -
06 Spark SQL 及其DataFrame的基本操作
1.Spark SQL出现的 原因是什么? spark sql是spark用来处理结构化数据的一个模块,与hive的hql不同,hive需要将hql转化成MapReduce然后提交执行,sparksql将sql语句转换成rdd然后提交集群执行,将执行效率大大提升 2.用spark.read 创建Da -
09 spark连接mysql数据库
一、spark连接mysql数据库 1.安装启动检查Mysql服务。 netstat -tunlp (3306) 2.spark 连接mysql驱动程序。 –cp /usr/local/hive/lib/mysql-connector-java-5.1.40-bin.jar /usr/local/s -
10 期末大作业
查漏补缺: 07 从RDD创建DataFrame 09 spark连接mysql数据库 (忘记交了) 大作业: 1.选择使用什么数据,有哪些字段,多大数据量。 选择使用美国疫情数据;有日期、县、州、确诊人数、死亡人数 2.准备分析哪些问题?(8个以上) 美国每日的累计确诊病例数和死亡数 美国每日的新 -
10 期末大作业
大作业: 1.选择使用什么数据,有哪些字段,多大数据量。 数据集:us-counties美新冠数据; 字段:日期(date),县(county),国家、州(state),确诊情况(cases),死亡人数(deaths); 数据量:约15.8w条 2.准备分析哪些问题?(8个以上) (1). 统计美国 -
10 期末大作业
1.选择使用什么数据,有哪些字段,多大数据量。 美国新冠肺炎疫情数据集 字段:累计确诊人数、累计死亡人数、新增确诊人数、新增死亡人数、各州累计确诊人数、各州累计死亡人数和美国各州 2.准备分析哪些问题?(8个以上) 美国每日的累计确诊病例数和死亡数 美国每日的新增确诊病例数 美国每日的新增死亡病例数 -
10.期末大作业
一、.选择使用什么数据,有哪些字段,多大数据量。 us-counties美新冠数据;字段有日期(date),县(county), 国家、州(state),确诊情况(cases),死亡人数(deaths); 二、准备分析哪些问题?(8个以上) 1、统计美国某个县每天的确诊病例和死亡病例 2、统计美国确