티스토리 뷰
728x90
1. 스파크(SPARK)의 연산 방식은 lazy evaluation으로 수행된다.
Lazy evaluation(굳이 번역해 보자면 느긋한 연산 정도 되겠다)을 사용함으로써 action이 시작되는 시점에 트랜스포메이션(transformation)끼리의 연계를 파악해 실행 계획의 최적화가 가능해진다. 사용자가 입력한 변환 연산들을 즉시 수행하지 않고 모아뒀다가 가장 최적의 수행 방법을 찾아 처리하는 장점을 가진다.
여기서 말하는 최적화란 대부분 지역성(locality)에 관한 것이다. 예를 들어 물건을 사오는 심부름을 시킬 때 A상점에서 파는 물건과 B상점에서 파는 물건을 따로따로 여러 번사오게 하는 것보다 필요한 물건을 한꺼번에 주문해서 한 번 방문했을 때 필요한 물건을 한 번에 사는 것이 효율적이기 떄문이다.
출처: https://brocess.tistory.com/104 [행복한디벨로퍼:티스토리]
https://brocess.tistory.com/104
transformation | action |
distinct() | show() |
withColumn() | collect() |
withColumnRenamed() | count() |
filter(), where() | take() |
groupBy() | reduce() |
agg(sum,min,max,count...) | first() |
select() | describe() |
selectExpr() | explain() |
union(),unionAll() | |
sort(), orderBy() | |
drop() |
https://spidyweb.tistory.com/332
728x90
'공부' 카테고리의 다른 글
[docker] bridge vs host (0) | 2022.09.05 |
---|---|
[spark] RDD, DataFrame (0) | 2022.09.03 |
[leetcode] 309. Best Time to Buy and Sell Stock with Cooldown (0) | 2022.09.01 |
[github] Why am I still getting "You've used 100% of included services for GitHub Storage (GitHub Actions and Packages)" after deleting all Artifacts? (0) | 2022.08.31 |
[docker] Dockerfile (sh file) (0) | 2022.08.31 |
댓글
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- 인스타그램
- 테슬라 크레딧 사용
- 유투브
- 어떻게 능력을 보여줄 것인가?
- 팔로워 수 세기
- COUNT
- 모델y
- 테슬라 레퍼럴
- 개리마커스
- 테슬라
- 연애학개론
- 테슬라 리퍼럴 코드 혜택
- 테슬라 리퍼럴 코드
- 책그림
- wlw
- Bot
- 테슬라 리퍼럴 코드 생성
- 레퍼럴
- 김달
- 테슬라 레퍼럴 적용 확인
- Kluge
- 메디파크 내과 전문의 의학박사 김영수
- 테슬라 레퍼럴 코드 확인
- 클루지
- 테슬라 추천
- 할인
- follower
- 모델 Y 레퍼럴
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
글 보관함