티스토리 뷰

공부

[spark] lazy evalution

승가비 2022. 9. 3. 16:47
728x90
 
1. 스파크(SPARK)의 연산 방식은 lazy evaluation으로 수행된다. 
 
Lazy evaluation(굳이 번역해 보자면 느긋한 연산 정도 되겠다)을 사용함으로써 action이 시작되는 시점에 트랜스포메이션(transformation)끼리의 연계를 파악해 실행 계획의 최적가 가능해진다. 사용자가 입력한 변환 연산들을 즉시 수행하지 않고 모아뒀다가 가장 최적의 수행 방법을 찾아 처리하는 장점을 가진다.
여기서 말하는 최적화란 대부분 지역성(locality)에 관한 것이다. 예를 들어 물건을 사오는 심부름을 시킬 때 A상점에서 파는 물건과 B상점에서 파는 물건을 따로따로 여러 번사오게 하는 것보다 필요한 물건을 한꺼번에 주문해서 한 번 방문했을 때 필요한 물건을 한 번에 사는 것이 효율적이기 떄문이다.

출처: https://brocess.tistory.com/104 [행복한디벨로퍼:티스토리]

 

https://brocess.tistory.com/104

 

[Spark] 하둡 MR보다 스파크(SPARK)를 사용할 때 장점

[ 하둡 MR보다 스파크(SPARK)를 사용할 때 장점 ] 하둡MR보다 스파크(SPARK)를 사용했을 때의 대부분이 말하는 이점은 디스크 처리 기반에서 메모리 처리 기반으로 넘어오면서 연산처리 속도가 빨라

brocess.tistory.com

transformation action
distinct() show()
withColumn() collect()
withColumnRenamed() count()
filter(), where() take()
groupBy() reduce()
agg(sum,min,max,count...) first()
select() describe()
selectExpr() explain()
union(),unionAll()  
sort(), orderBy()  
drop()  

https://spidyweb.tistory.com/332

 

[Spark] RDD action & transformation + Dataframe의 연산(operation) 분류

Spark는 분산 환경에서 데이터를 다루는 데 필요한 지연 처리방식의 transformation과 즉시 실행 방식의 action을 제공 그리고 DataFrame과 Dataset의 transformation, action과 동일한 방식으로 동작한다. 1. RDD..

spidyweb.tistory.com

 

728x90
댓글