[Spark] merge small files

공부

[Spark] merge small files

승가비 2020. 5. 30. 05:51

728x90

INSERT OVERWRITE TABLE ${db.table} PARTITION (dt) 
SELECT /*+ REPARTITION(1)*/
	a,
	b,
	c,
	dt
FROM ${db.table}

https://gyuhoonk.github.io/hive-merge-query

Merge Files in HDFS

HDFS에서 작은 용량의 파일들을 합쳐보자 Blocks in HDFS 데이터는 HDFS 상에서 Block이라는 단위로 저장됩니다. 일반적으로 하나의 Block에 128MB를 저장합니다. 따라서 Block Size, 128MB를 넘는 데이터는 여

gyuhoonk.github.io

https://stackoverflow.com/questions/57950721/how-to-merge-small-files-created-by-hive-while-inserting-data-into-buckets

How to merge small files created by hive while inserting data into buckets?

I have a hive table which contains call data records(CDRs). I have the table partitioned on the phone number and bucketed on call_date. Now when I am inserting data into hive the back dated call_da...

stackoverflow.com

https://mkkim85.github.io/hadoop-hive-merge/

Hive 테이블의 많은 수의 작은 파일들 합치기

아래의 문제들을 해결하기 위한 Hive 테이블을 구성하는 많은 수의 작은 파일들을 적은 수의 큰 파일들로 병합하는 2가지 방법

mkkim85.github.io

https://sungwookkang.com/1377

Hive Partition 생성,수정,복구

Hive Partition(파티션) · Version : Hadoop 3.0.0-cdh6.3.2, Hive 하이브는 파일 기반 테이블을 사용하기 때문에 데이터 조회시 모든 ROW 정보를 읽고 처리하는 방식으로 데이터가 많으면 속도가 느려진다..

sungwookkang.com

728x90

저작자표시 비영리 (새창열림)