티스토리 뷰

공부

[spark] partition

승가비 2022. 10. 14. 07:13
728x90
  • 일반적으로 파티션의 개수를 늘리는 것은 오버헤드가 너무 많아지는 수준이 되기 전까지는 성능을 높여준다.
  • 최소한 총코어 개수 이상의 파티션을 사용해야 한다.
  • 각 Executor에서 스파크가 한 번에 처리하는 양이 적어지므로 메모리 부족 오류를 줄이는데 도움을 준다.
  • 파티션이 부족한 것보다는 차라리 조금 더 많은 것이 낫다. 
  • MapReduce에서 보수적으로 task의 수를 늘려나가는 것과는 가이드가 다른데, 이는 MapReduce는 각 task의 스타트업 오버헤드가 큰 반면 스파크는 그렇지 않기 때문이다.

 

  • 파티션의 메타데이터를 보관
  • Driver memory errors & Driver overhead errors를 유발할 수 있다.
  • 작은 사이즈의 파일들을 생성하기 위한 I/O가 많이 발생하며, 이 시간 또한 오래 걸릴 수 있다.(특히 block store에서)
 
728x90
댓글