Hadoop MapReduce & YARNMapReduce是Hadoop中的分布式计算组件,它可以以分散->汇总(聚合)模式执行分布式计算任务MapReduce可供Java、Python等语言开发计算程序。YARN(Yet Another Resource Negotiator)是Hadoop 2.x版本引入的资源管理框架,用于集群资源管理和任务调度。它将MapReduce的资源管理和任务调度功能抽象出来,提供一个通用的资源管理平台,可以支持多种分布式计算框架。
Hadoop HDFSHadoop HDFS (Hadoop Distributed File System) 是一个分布式文件系统,设计用于在大型数据集上进行高吞吐量的数据存储和访问。它是 Hadoop 生态系统的重要组成部分,支持大规模数据处理和分析。 为什么需要分布式存储? 数据量太大,单机存储能力有上限,需要靠数量来解决问题 数量的提升带来的是网络传输、磁盘读写、CPU、内存等各方面的综合提升。 分布式组合在一起可以达到1+1>2的效果