티스토리 뷰

공부

[Hive] merge small files

seunggabi 승가비 2020. 5. 30. 05:51
set mapred.reduce.tasks=1;
set hive.merge.mapredfiles=true;
set hive.merge.mapfiles=true;
set hive.merge.size.per.task=256000000;
set hive.merge.smallfiles.avgsize=200000000;
set hive.exec.dynamic.partition.mode=nonstrict;

INSERT OVERWRITE TABLE ${db.table} PARTITION (dt) 
SELECT
	a,
	b,
	c,
	dt
FROM ${db.table}
LIMIT 999999999

https://stackoverflow.com/questions/57950721/how-to-merge-small-files-created-by-hive-while-inserting-data-into-buckets

 

How to merge small files created by hive while inserting data into buckets?

I have a hive table which contains call data records(CDRs). I have the table partitioned on the phone number and bucketed on call_date. Now when I am inserting data into hive the back dated call_da...

stackoverflow.com

https://mkkim85.github.io/hadoop-hive-merge/

 

Hive 테이블의 많은 수의 작은 파일들 합치기

아래의 문제들을 해결하기 위한 Hive 테이블을 구성하는 많은 수의 작은 파일들을 적은 수의 큰 파일들로 병합하는 2가지 방법

mkkim85.github.io

https://sungwookkang.com/1377

 

Hive Partition 생성,수정,복구

Hive Partition(파티션) · Version : Hadoop 3.0.0-cdh6.3.2, Hive 하이브는 파일 기반 테이블을 사용하기 때문에 데이터 조회시 모든 ROW 정보를 읽고 처리하는 방식으로 데이터가 많으면 속도가 느려진다..

sungwookkang.com

 

댓글
댓글쓰기 폼