티스토리 뷰

공부

[Spark] JOIN spark.sql.shuffle.partitions

승가비 2020. 10. 28. 06:15
728x90
./bin/spark-submit \
--conf spark.sql.shuffle.partitions=300 \
--conf spark.default.parallelism=300

https://cnpnote.tistory.com/entry/HADOOP-sparksqlshufflepartitions%EC%99%80-sparkdefaultparallelism%EC%9D%98-%EC%B0%A8%EC%9D%B4%EC%A0%90%EC%9D%80-%EB%AC%B4%EC%97%87%EC%9E%85%EB%8B%88%EA%B9%8C

 

[HADOOP] spark.sql.shuffle.partitions와 spark.default.parallelism의 차이점은 무엇입니까?

spark.sql.shuffle.partitions와 spark.default.parallelism의 차이점은 무엇입니까? spark.sql.shuffle.partitions와 spark.default.parallelism의 차이점은 무엇입니까? SparkSQL에서 두 가지 모두를 설정하려고..

cnpnote.tistory.com

https://nephtyws.github.io/data/spark-optimization-part-1/

 

Spark 성능 최적화 및 튜닝 방법 - Part 1

최근에 Spark를 사용하면서 각종 High level API (Dataset, Dataframe) 와 어떻게 하면 Spark를 조금이라도 빠르게 쓸 수 있을지에 대한 고민을 하기 시작했는데요. Spark를 AWS EMR을 이용해서 돌리고 있고, EMR은

nephtyws.github.io

https://spark.apache.org/docs/latest/sql-performance-tuning.html

 

Performance Tuning - Spark 3.0.1 Documentation

You are using an outdated browser. Upgrade your browser today or install Google Chrome Frame to better experience this site. Overview Programming Guides API Docs Deploying More v3.0.1 -->

spark.apache.org

https://jaemunbro.medium.com/apache-spark-%EC%A1%B0%EC%9D%B8-join-%EC%B5%9C%EC%A0%81%ED%99%94-c9e54d20ae06

 

[Apache Spark] 조인(Join), 셔플(Shuffle) 최적화

Spark의 Join은 크게 SQL Optimizer를 활용하는 SQL Join과 DAG Optimizer를 활용하는 Core Spark Join으로 분류할 수 있다. Join의 개념과 효율적 Join 방법에 대해 알아보았다.

jaemunbro.medium.com

조인은 일상적으로 쓰이는 스파크 연산 중 가장 비싼 축에 속하므로 조인을 수행하기 전에 데이터를 최대한 줄여놓는 것은 그만한 가치가 있다.

728x90

'공부' 카테고리의 다른 글

[Docker] basic  (0) 2020.10.30
[Kotlin] `val` vs `var`  (0) 2020.10.28
[Spark] jdbc 사용시 주의할 사항  (0) 2020.10.28
[Spark] MySQL jdbc write `rewriteBatchedStatements=true`  (0) 2020.10.28
[JS] screenshot of div  (0) 2020.10.28
댓글