라즈베리파이 클러스터 Spark DataFrame 에어코리아 미세먼지 데이터 분석

이전 포스팅에서 다룬 Apache Spark & Hadoop 프레임워크를 라즈베리파이5 클러스터에 적용한 상태이다.

Apache Spark & Hadoop 클러스터 구축 및 설정

이번 글에서는 나의 환경에 맞는 Apache Spark과 Hadoop 클러스터 구축에 대한 방법을 소개하겠다하드웨어 환경 - SingleBoard Computer(라즈베리파이, 라떼판다) 사용 클라우드 서버를 사용해서 클러스터

dont-make-excuses.tistory.com

이번 포스팅에서는 에어코리아에서 제공하는 미세먼지 데이터를 라즈베리파이 클러스터에서 Spark을 사용한 데이터 분석에 관한 글을 작성할 것이다.

1. 에어코리아 데이터 수집

행정구역 마다 초미세먼지 등급에 따라 분류하고, 개수를 카운트 하였음
데이터 프레임의 전체 개수에서 행정구역의 (경기, 서울) 비율을 계산하였음
전체 개수에서 행정 구역의 비율을 계산한 이유는, 초미세먼지의 매우 나쁨 값이 많은 이유가
경기나 서울에서 측정한 데이터 표본이 많기 때문일 수도 있기 때문에, 전체 데이터에서 행정 구역 비율을 계산하였음
그 후에 매우 나쁨 열을 기준으로 데이터를 내림차순 정렬하여 초미세먼지가 매우 나쁨이 많은 행정구역을 출력하였음
경기, 서울, 충남, 전북 순으로 초미세먼지 매우 나쁨 등급 개수가 많았지만, 전체 데이터 개수에서 경기 지역이 약 24%를 차지하기 때문에, 데이터 표본이 많아서 영향을 미쳤다고 할 수 있음

PM10(미세먼지), PM25(초미세먼지) 등급 특성에서 보통, 좋음, 나쁨, 매우 나쁨 값을 카운팅해서 전체 개수 비율을 계산하였음
round를 사용하여 소수점 3자리 까지 계산하도록 하고, 데이터 개수를 count를 하여 total_count 로 비율을 계산하였음
결측치 값은 알수 없음으로 처리 PM25은 결측치 값이 약 60% 가까이 차지하고 있음
위에 데이터 전처리 부분에서 -999 결측치 값을 null 처리하고 null 개수 카운팅을 했을 때 약 3771만개 정도 나오고, 총 데이터 개수가 약 6284만개 인 것을 보아, 집계 결과가 맞음
알 수 없음 값을 제외하면, 보통이 제일 많은 비율을 차지하고 있고, 보통, 나쁨, 매우 나쁨 순으로 비율이 높음
매우 나쁨의 경우 약 1.46%, 0.5% 비율

데이터 분석 작업 순서는 데이터 분석 작업 소요 시간 순으로 순서를 정했다
데이터 분석 1이 제일 적은 시간 소요 되었고, 5이 제일 많은 시간 소요 되었다
데이터 분석 작업 선정은 시계열 데이터나, 미세먼지 데이터에 대한 도메인이 적기 때문에 이 데이터로 해볼 법한 통계, 집계 분석 진행
이 데이터 분석 작업을 통해 얻은 점은 2001~2022년까지 에어코리아에서 제공하는 전국의 모든 미세먼지 데이터를 분석하는 것은 라즈베리파이 클러스터만으로도 충분히 수행 가능하고 성능도 괜찮다는 것을 확인한 것이다

다음 포스팅에선 똑같은 데이터 분석 작업을 Pandas에서 해보고 이를 라즈베리파이 클러스터와 수행 시간을 비교하는 글을 작성
PC - Pandas, PC - Spark, RaspberryPi cluster(5) - Spark, Single RaspberryPi(1) - Spark 이렇게 4 가지 비교군으로 수행 시간을 비교

2024년 한국종합컴퓨터 학술대회(KCC2024) 논문 발표 후기 (0)	2024.09.27
'사물인터넷 환경 저비용 대용량 데이터 분석 시스템 설계 및 성능 비교' 논문 작성 후기 (7)	2024.09.23
Pandas, Apache Spark 데이터 분석 수행 시간 비교 (1)	2024.09.21