业界动态
简单了解一下大数据的一些基本概念
2024-11-10 01:13

一、大数据

简单了解一下大数据的一些基本概念

1、什么是大数据

大数据(Big data或Megadata:大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间达到截取、管理、处理、并整理成为人类所能解读的形式的信息。

2、大数据特点

①Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。简单了解一下大数据的一些基本概念

②Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

在这里还是要推荐下我自己建的大数据学习交流群:529867072,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的,包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。

③Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。

④Velocity:数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

⑤Veracity:数据的准确性和可信赖度,即数据的质量。

二、数据仓库

1、什么是数据仓库

在计算中,数据仓库(DW或DWH)也称为企业数据仓库(EDW,是用于报告和数据分析的系统,被视为商业智能的核心组件。DWs从一个或多个不同源的综合数据的中央储存库。他们将当前和历史数据存储在一个地方,用于为整个企业的工作人员创建分析报告。

2、数据仓库两种操作方式的特点

①在线分析处理(OLAP)的特点是交易量相对较低。查询往往非常复杂,涉及到聚合。对于OLAP系统,响应时间是一种有效性度量。数据挖掘技术广泛使用OLAP应用程序。OLAP数据库以多维模式(通常为星型模式)存储汇总的历史数据。与数据集市相比,OLAP系统通常具有数小时的数据延迟,而数据集市预计延迟将接近一天。OLAP方法用于分析来自多个来源和视角的多维数据。OLAP中的三个基本操作是:总结(合并,钻取和切片和切块。

②联机事务处理(OLTP)的特点是大量短暂的在线事务(INSERT,UPDATE,DELETE)。OLTP系统强调非常快速的查询处理并保持多访问环境中的数据完整性。对于OLTP系统,有效性以每秒交易次数来衡量。OLTP数据库包含详细和当前的数据。用于存储事务数据库的模式是实体模型(通常是3NF)。规范化是对在该系统中数据建模技术的规范。

三、ETL与DM的区别

ETL/Extraction-Transformation-Loading——用于完成DB到DW的数据转存,它将DB中的某一个时间点的状态,“抽取”出来,根据DW的存储模型要求,“转换”一下数据格式,然后再“加载”到DW的一个过程,这里需要强调的是,DB的模型是ER模型,遵从范式化设计原则,而DW的数据模型是雪花型结构或者星型结构,用的是面向主题,面向问题的设计思路,所以DB和DW的模型结构不同,需要进行转换。

DM/Data Mining/数据挖掘——这个挖掘,不是简单的统计了,他是根据概率论的或者其他的统计学原理,将DW中的大数据量进行分析,找出我们不能直观发现的规律。

四、Hadoop

1、什么是Hadoop

维基百科上面,Hadoop的定义是:一个用java语言编写的便于大型数据集合的分布式储存和计算的软件框架。简单来说,这是计算机领域的一个开源软件,任何程序开发者都可以看到它的源代码,并且进行编译。它的出现让大数据的储存和处理一下子变的快了很多,也便宜了很多。

2、Hadoop特点是什么

①高效率(Efficient:分布式云计算,采用标准x86架构服务器大规模集群实现,每个模块都是一个离散的处理单元,使用并行计算技术,及群内各计算节点负载均衡,当某节点负荷过高时,可智能的将负荷转移到其他节点,并支持节点线性平滑扩展;分布式云存储,采用x86服务器的本地硬盘实现,使用分布式文件系统,每份数据至少保存在3个节点,保证存储设计的性能和可靠性目标。

②可靠性(Reliable:能搞自身的维护数据的多个成本,并且在任务失败是自动的重新部署计算任务

③可扩容性(Scalable:能可靠的储存和处理PB级的数据

    以上就是本篇文章【简单了解一下大数据的一些基本概念】的全部内容了,欢迎阅览 ! 文章地址:http://keair.bhha.com.cn/news/528.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 康宝晨移动站 http://keair.bhha.com.cn/mobile/ , 查看更多   
最新文章
固安伟业气体:筑牢危化品安全防线 三级排查闭环管理显实效
在固安县伟业气体销售有限公司的储罐区,多个储存危化气体的储罐静静矗立。这里储存有液氧、液氩、液氮、液体二氧化碳等气体,最
原创果然不出中国所料,特朗普对全球征税,高兴不到一天,噩耗就来了
特朗普刚刚为美国争取到了重要的国际投资,然而刚一回头,他却遭遇了意料之外的打击,这让他这次真的是笑不出来了。7月31日,特
网警公布涉汛谣言5大类型,拆解造谣者“工具箱”
法律利剑高悬,让造谣者付出法律代价《中华人民共和国治安管理处罚法》第二十五条有下列行为之一的,处五日以上十日以下拘留,可
融资“前置”金融样本: 中信银行助力硬科技企业穿越“死亡之谷”
党的二十大明确提出“建设现代化产业体系,必须坚持把科技作为第一生产力”。面对科技创新的战略任务,金融如何有效支持科技企业
真好吃丨没有浇头的面条,凭啥日销千碗?
若说早餐是一座城市的良心,那宵夜便是城市的灵魂。在潜江,一碗名为“裸面”的特色宵夜,以其质朴本真的滋味温暖着无数食客的夜
易视顿眼科妇委会、关工委联合各区妇联开展暑期儿童关爱行动
为贯彻落实习近平总书记关于儿童和儿童工作的重要论述,汇聚各方力量做好暑期儿童关爱服务工作,暑期期间,易视顿眼科妇委会、关
阜城县:“三下乡”进大集 服务群众“零距离”
日前,由中共阜城县委宣传部联合阜城县卫健局、阜城县公安局、阜城县农业农村局等有关部门开展的2025年文化科技卫生“三下乡”活
书香溢满乡村 阅读点亮生活 太白县积极探索“农家书屋+”融合新模式
“以前开农家乐全靠老经验,自从有了农家书屋,我常来读乡村旅游类书籍,服务水平上去了,回头客多了,收入也提高了不少。”太白
东渚街道:支部领航,共绘全龄友好新图景
乒乓球轻快地跳跃在崭新的球台上,欢声笑语在精心布置的活动区回荡,书页翻动的沙沙声伴随着祖孙共读的细语……曾经闲置冷清的楼
大众日报丨激活沉睡的“深蓝宝藏”!蓝谷这家企业通过数据钥匙打开海洋产业新大门
在位于蓝谷的青岛国实科技集团,工作人员介绍在建的海洋可信数据空间。“小青,青岛海上的渔船都在哪里?展示一下近期的轨迹图