-
第二次
1.了解对比Hadoop不同版本的特性,可以用图表的形式呈现。 2.Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。 组件名功能及作用优势局限应用场景相关功能组件 HDFS 分布式文件系统。存储是大数据技术的基础 (1)高吞吐量访问; (2)高容错性; (3)容量扩 -
大数据作业2
1.了解对比Hadoop不同版本的特性,可以用图表的形式呈现。 Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。 Hadoop的发行版除了有Apache hadoop外cloudera,hortonworks,mapR,华为,DK -
第二次作业
1.Apache社区版本 优点:完全开源免费。社区活跃文档、资料详实缺点:复杂的版本管理。版本管理比较混乱的,各种版本层出不穷,让很多使用者不知所措。复杂的集群部署、安装、配置。通常按照集群需要编写大量的配置文件,分发到每一台节点上,容易出错,效率低下。复杂的集群运维。对集群的监控,运维,需要安装第 -
Hadoop演进与Hadoop生态
Hadoop演进: 1.Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 2.2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决 -
(作业1)大数据概述与学习资源
1、了解微信、微博、小视频每天产生的数据量与数据类型。 微信云开发数据库提供以下几种数据类型: String:字符串 Number:数字 Object:对象 Array:数组 Bool:布尔值 Date:时间 Geo:多种地理位置类型 Null 每天产生的数据量都在5亿+ 全网微博数据每日亿级实时采 -
大数据作业一
问题一:了解微信、微博、小视频每天产生的数据量与数据类型。答:目前微博每天可能产生4亿+的数据量,数据类型为string,微信每天可能有450亿的消息发送,数据类型为string,小视频每天有上千万的小视频,数据类型为string;问题二:选择一个你感兴趣的领域应用数据思维进行分析决策的案例。答:@ -
大数据概述与学习资源
1.了解微信、微博、小视频每天产生的数据量与数据类型 大数据的类型大致可分为三类: 1)传统企业数据(Traditionalenterprisedata):包括 CRM systems的消费者数据,传统的ERP数据,库存数据以及账目数据等。 2)机器和传感器数据(Machine-generated/ -
作业一
1.了解微信、微博、小视频每天产生的数据量与数据类型 微信每分钟395833人登录微信,19444人在进行视频或语音聊天; 新浪微博每分钟发出(或转发)64814篇微博; 数据类型大概分两种:半结构化数据或者是非结构化数据 2.选择一个你感兴趣的领域应用数据思维进行分析决策的案例。 在这个时代能够存 -
大数据概述与学习资源
1.了解微信、微博、小视频每天产生的数据量与数据类型 大数据的类型大致可分为三类: 1)传统企业数据(Traditionalenterprisedata):包括 CRM systems的消费者数据,传统的ERP数据,库存数据以及账目数据等。 2)机器和传感器数据(Machine-generated/ -
大数据第一次作业
了解微信、微博、小视频每天产生的数据量与数据类型。 微信:微信月活跃数11.51亿,每天产生的数据量为亿量级,数据类型为字节 微博:月活跃数为5.。5亿,每天产生的数据量为亿量级,数据类型为字节 抖音:日活跃用户超过4亿,每天产生的数据量为亿量级,数据类型字节 选择一个你感兴趣的领域应用数据思维进行