티스토리 뷰
./bin/spark-submit \
--conf spark.sql.shuffle.partitions=300 \
--conf spark.default.parallelism=300
[HADOOP] spark.sql.shuffle.partitions와 spark.default.parallelism의 차이점은 무엇입니까?
spark.sql.shuffle.partitions와 spark.default.parallelism의 차이점은 무엇입니까? spark.sql.shuffle.partitions와 spark.default.parallelism의 차이점은 무엇입니까? SparkSQL에서 두 가지 모두를 설정하려고..
cnpnote.tistory.com
https://nephtyws.github.io/data/spark-optimization-part-1/
Spark 성능 최적화 및 튜닝 방법 - Part 1
최근에 Spark를 사용하면서 각종 High level API (Dataset, Dataframe) 와 어떻게 하면 Spark를 조금이라도 빠르게 쓸 수 있을지에 대한 고민을 하기 시작했는데요. Spark를 AWS EMR을 이용해서 돌리고 있고, EMR은
nephtyws.github.io
https://spark.apache.org/docs/latest/sql-performance-tuning.html
Performance Tuning - Spark 3.0.1 Documentation
You are using an outdated browser. Upgrade your browser today or install Google Chrome Frame to better experience this site. Overview Programming Guides API Docs Deploying More v3.0.1 -->
spark.apache.org
[Apache Spark] 조인(Join), 셔플(Shuffle) 최적화
Spark의 Join은 크게 SQL Optimizer를 활용하는 SQL Join과 DAG Optimizer를 활용하는 Core Spark Join으로 분류할 수 있다. Join의 개념과 효율적 Join 방법에 대해 알아보았다.
jaemunbro.medium.com
조인은 일상적으로 쓰이는 스파크 연산 중 가장 비싼 축에 속하므로 조인을 수행하기 전에 데이터를 최대한 줄여놓는 것은 그만한 가치가 있다.
'공부' 카테고리의 다른 글
[Docker] basic (0) | 2020.10.30 |
---|---|
[Kotlin] `val` vs `var` (0) | 2020.10.28 |
[Spark] jdbc 사용시 주의할 사항 (0) | 2020.10.28 |
[Spark] MySQL jdbc write `rewriteBatchedStatements=true` (0) | 2020.10.28 |
[JS] screenshot of div (0) | 2020.10.28 |
- Total
- Today
- Yesterday
- 김달
- Bot
- 개리마커스
- 테슬라 레퍼럴
- 책그림
- 어떻게 능력을 보여줄 것인가?
- 클루지
- COUNT
- 테슬라 리퍼럴 코드 생성
- 유투브
- 팔로워 수 세기
- 테슬라 리퍼럴 코드
- 테슬라 레퍼럴 코드 확인
- 레퍼럴
- 테슬라
- 연애학개론
- 모델y
- follower
- 인스타그램
- 테슬라 추천
- 테슬라 리퍼럴 코드 혜택
- 테슬라 크레딧 사용
- Kluge
- 모델 Y 레퍼럴
- wlw
- 테슬라 레퍼럴 적용 확인
- 메디파크 내과 전문의 의학박사 김영수
- 할인
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |