hdfs中的小知识(hadoop hdfs hive)

FileinputFormat切片机制

(1)简单地按照文件的内容长度进行切片

(2)切片大小 ,默认等于block大小

(3)切片时不考虑数据集整体 ,而是逐个针对每一个文件单独切片

自定义InputFormat流程

(1)自定义一个类继承FileInputFormat

(2)改写RecordReader ,实现一次读取一个完整文件封装为KV

如何决定一个job的map和reduce的数量?

1)map数量 splitSize=max{minSize,min{maxSize,blockSize}}

map数量由处理的数据分成的block数量决定default_num = total_size / split_size;

2)reduce数量 reduce的数量job.setNumReduceTasks(x);x 为reduce的数量。不设置的话默认为 1

***  inputformat 是在mapreduce中产生的

相关推荐

  1. hdfs知识(hadoop hdfs hive)

    2024-05-14 07:54:08       31 阅读
  2. hadoophdfsfsimage文件与edits文件

    2024-05-14 07:54:08       30 阅读
  3. HadoopHDFS、Hive 和 HBase三者之间关系

    2024-05-14 07:54:08       20 阅读
  4. hdfs Map Tas工作机制(Hadoop,hive,hdfs

    2024-05-14 07:54:08       28 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-05-14 07:54:08       67 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-05-14 07:54:08       72 阅读
  3. 在Django里面运行非项目文件

    2024-05-14 07:54:08       58 阅读
  4. Python语言-面向对象

    2024-05-14 07:54:08       69 阅读

热门阅读

  1. springboot 注解(持续更新中)

    2024-05-14 07:54:08       35 阅读
  2. uniapp外部scss文件使用scss语法不生效.

    2024-05-14 07:54:08       30 阅读
  3. 文心一言指令:引领语言模型的创新之路

    2024-05-14 07:54:08       25 阅读
  4. git自用随笔

    2024-05-14 07:54:08       29 阅读
  5. Php简易留言

    2024-05-14 07:54:08       30 阅读
  6. MySQL索引设计遵循一系列原则

    2024-05-14 07:54:08       34 阅读