PySpark에서 중복 제거할 때 무조건 dropDuplicates를 쓰면 안 되는 이유
이 글은 대용량 PySpark 데이터 중복 제거 시 dropDuplicates()가 느린 이유를 분석하고, 대신 row_number().over(Window) 방식을 활용하여 37% 더 빠른 성능을 달성한 최적화 사례를 공유합니다.
DEV AnythinG
이 글은 대용량 PySpark 데이터 중복 제거 시 dropDuplicates()가 느린 이유를 분석하고, 대신 row_number().over(Window) 방식을 활용하여 37% 더 빠른 성능을 달성한 최적화 사례를 공유합니다.
작은 데이터팀에서 Terraform을 도입하며 겪은 시행착오와 구조 설계 경험을 공유합니다. Terraform Cloud 환경에서 실수를 줄이고 유지보수성을 높이기 위한 선택 기준도 담았습니다.