大数据技生态中Hadoop、Spark、Hive、HDFS之间的区别

张

张建站

2026/5/12 1:02:36

10分钟阅读

Hadoop、Spark、Hive三者都是大数据相关的系统和技术也属于数据管理系统的范畴常见的问题无非就两个1、数据怎么存2、数据怎么算。为了方便理解这些技术从单机时代来说所有的数据都在一套服务器上数据处理的任务都是IO密集型也不是CPU密集型的更谈不上分布式系统。在信息爆炸的时代传统的单服务器已无法满足海量数据的存储和计算。问题在于如果有100台机器统一存储数据该如何做管理呢就好比老板直接对100个员工发号施令肯定需要一些经理的角色帮助他管理这100个同事让他们更像是一个团队在协作共事。数据存储在Hadoop平台上HDFS扮演这样一个经理的角色HDFS会同意去管理这100个服务器的存储空间提供相应的接口让这一百台机器的存储空间看起来像在一台机器上。数据计算每一台机器都拥有自己的CPU内存如果充分利用到这些资源让数据计算更快的完成就变成一个顺利成章的事情。在实现一个计算任务时任务该怎么分配到这些机器上任务之间如何做同步出现某一台机器掉链子的情况怎么处理这些都是典型的并行编码的复杂性。为了解决这些问题HDFS通过引入MapReduce解决这些问题MapReduce模块实际上提供了一个任务并行的框架通过对API的抽象把并行的程序分为两个阶段map阶段、reduce阶段。假设有一个任务量很大的活需要100个人把它平均分成100份每人做一份这个过程就是map阶段。reduce阶段是指等100个任务完成然后再把结果汇总到一起形成最终结果。过去现在SQL的使用区别不得不说SQL是一个伟大的发明。用户可以通过SQl语言去做数据处理 SQL中的S就是结构化处理的意思这里有个前提数据是结构化的。Hive中有一个核心模块metastore它的作用主要是用来存储这些结构化的信息。Hive中引擎会将SQL语句进行语法分析生成语法树这些步骤实际上和普通数据库没有区别区别主要在执行阶段Hive引擎会把SQl语句翻译成MapReduce的任务去执行再把执行的结果进行加工返回给用户。 SQL的出现使得大数据处理任务的开发效率提高了但是在数据处理的表达力和灵活性上不如直接写MapReduce程序因此两个技术不是相互替代的关系根据使用场景需要自行选择。Spark VS HadoopSpark本身也是一个计算框架和Hadoop经常被拿来做对比准确来说是和Hadoop里面的MapReduce做对比。和MapReduce不同的是Spark是基于内存的计算MapReduce是基于磁盘的计算。举个极端的例子如果数据量不大并且机器内存可以装得下的话Spark会比MapReduce快100倍。毕竟是基于内存而不是基于磁盘。但是一般来说默认会认为前者比后者快2~3倍。作为计算引擎Spark还提供了比如说可以让用户去写流处理的streaming的模块、支持机器学习的MLib模块以及支持图处理的GraphX

别再让服务器一关SSH就挂！用Tmux/Screen守护你的后台进程（附常用命令清单）

告别SSH断连烦恼：Tmux与Screen的终极守护指南你是否经历过这样的崩溃时刻？——在远程服务器上运行了几个小时的爬虫脚本，因为网络波动导致SSH连接中断，所有进度灰飞烟灭；或者精心部署的Web服务，仅仅因为关…...

2026/5/12 0:57:05 阅读更多 →

车载以太网之要火系列 - 第39篇：郭大侠学SOME/IP - 一车四窗分左右，Instance ID解烦忧

写在开篇蓉儿接着挖坑上回说到，郭靖搞清楚了Service ID是服务的“门派番号”，车窗服务是0x0300。郭靖合上笔记本，信心满满：“蓉儿，Service ID我搞明白了！车窗服务就是0x0300。”黄蓉咬了口糖葫芦&#xff1…...

2026/5/12 0:54:08 阅读更多 →

避坑指南：PyCharm 2023配置SSH远程解释器时，如何解决‘环境变量不生效’和‘DISPLAY报错’？

PyCharm远程开发实战：环境变量与DISPLAY报错深度解决方案当你第一次在PyCharm中成功配置SSH远程解释器时，那种成就感可能很快会被两个恼人的问题冲淡：精心配置的.bashrc环境变量神秘消失，或者图形界面程序突然抛出"Cannot c…...

2026/5/12 0:53:51 阅读更多 →

BriSe AI：构建类脑自我层次模型，从模式匹配迈向自主理解

1. 项目概述：从“模仿”到“涌现”的范式跃迁最近和几位做认知科学和神经科学的朋友聊得比较多，大家都有一个共同的感受：当前主流的人工智能，无论是大语言模型还是多模态模型，本质上还是在做“模式匹配”和“概率预测…...

2026/5/12 1:35:11 阅读更多 →

6G边缘计算与生成式AI融合：基于LDM与DRL的协同优化架构实践

1. 项目概述：当6G边缘计算遇上生成式AI最近和几个做通信和AI的朋友聊天，大家不约而同地提到了一个词：6G边缘生成式AI。这听起来像是把几个最前沿的技术名词硬凑在一起，但当你真正拆开来看，会发现它背后指向的是一个非常…...

2026/5/10 0:03:49 阅读更多 →

DriverStore Explorer完全指南：轻松管理Windows驱动，释放宝贵磁盘空间

DriverStore Explorer完全指南：轻松管理Windows驱动，释放宝贵磁盘空间【免费下载链接】DriverStoreExplorer Driver Store Explorer 项目地址: https://gitcode.com/gh_mirrors/dr/DriverStoreExplorer 你是否曾因为Windows系统变得越来越臃肿而…...

2026/5/10 0:10:01 阅读更多 →