DEV AnythinG

PySpark에서 중복 제거할 때 무조건 dropDuplicates를 쓰면 안 되는 이유

이 글은 대용량 PySpark 데이터 중복 제거 시 dropDuplicates()가 느린 이유를 분석하고, 대신 row_number().over(Window) 방식을 활용하여 37% 더 빠른 성능을 달성한 최적화 사례를 공유합니다.

2025-06-03

반복되는 데이트폭력과 교제살인을 막기 위해 연인 관계에서 느끼는 작은 이상 신호를 점검할 수 있는 간단한 테스트를 만들어 봤습니다.

2025-06-01

작은 데이터팀에서 Terraform을 도입하며 겪은 시행착오와 구조 설계 경험을 공유합니다. Terraform Cloud 환경에서 실수를 줄이고 유지보수성을 높이기 위한 선택 기준도 담았습니다.

2025-04-20

이 글에선 S3에 저장된 데이터를 DuckDB로 읽고, 그 결과를 ChatGPT가 가져와 분석하는 구조를 만들어보고 테스트합니다.

2025-03-30

AWS S3 스토리지에 데이터를 저장해두고, 로컬에서 간편하게 DuckDB로 바로 쿼리해보는 방법을 소개합니다.

2025-03-21