[Spark] merge small files
INSERT OVERWRITE TABLE ${db.table} PARTITION (dt)
SELECT /*+ REPARTITION(1)*/
a,
b,
c,
dt
FROM ${db.table}
https://gyuhoonk.github.io/hive-merge-query
Merge Files in HDFS
HDFS에서 작은 용량의 파일들을 합쳐보자 Blocks in HDFS 데이터는 HDFS 상에서 Block이라는 단위로 저장됩니다. 일반적으로 하나의 Block에 128MB를 저장합니다. 따라서 Block Size, 128MB를 넘는 데이터는 여
gyuhoonk.github.io
How to merge small files created by hive while inserting data into buckets?
I have a hive table which contains call data records(CDRs). I have the table partitioned on the phone number and bucketed on call_date. Now when I am inserting data into hive the back dated call_da...
stackoverflow.com
https://mkkim85.github.io/hadoop-hive-merge/
Hive 테이블의 많은 수의 작은 파일들 합치기
아래의 문제들을 해결하기 위한 Hive 테이블을 구성하는 많은 수의 작은 파일들을 적은 수의 큰 파일들로 병합하는 2가지 방법
mkkim85.github.io
Hive Partition 생성,수정,복구
Hive Partition(파티션) · Version : Hadoop 3.0.0-cdh6.3.2, Hive 하이브는 파일 기반 테이블을 사용하기 때문에 데이터 조회시 모든 ROW 정보를 읽고 처리하는 방식으로 데이터가 많으면 속도가 느려진다..
sungwookkang.com