전 포스팅에서 실험한 내용을 바탕으로 논문을 작성하였기 때문에, 이전 포스팅을 참고해주시면 좋습니다!
2024.09.21 - [논문] - Pandas, Apache Spark 데이터 분석 수행 시간 비교
2024.09.21 - [논문] - 라즈베리파이 클러스터 Spark DataFrame 에어코리아 미세먼지 데이터 분석
1. 논문을 작성하게 된 계기
현재 나는 학부생 연구생으로 소속 되어 있는 연구실이 있다. 이 연구실에서 2년 가량 공부하고 발표하면서 실력 향상이 많이 되었다고 생각하고 도움도 많이 되었다.
이 연구실에서 매주 자신이 공부한 혹은 연구한 내용을 발표한다.2023~2024년 겨울 방학에 나는 데이터 엔지니어링에 많이 사용되는 Hadoop, Spark를 공부해서 발표를 했다.
Hadoop과 Spark에 대한 발표를 하면서 라즈베리파이를 클러스터로 구축하고,
Hadoop, Spark 설치하고 적용하면서 수 많은 에러를 만났고, 항상 한번에 제대로 된 적이 없는 거 같았다.
그래도 포기하지 않고 동원할 수 있는 모든 구글링과 GPT를 사용해서 에러를 어떻게든 해결했다.
그렇게 방학이 마무리 될 때 쯤에 성공적으로 Hadoop, Spark을 클러스터에 적용시켜서 데이터 분석 단계까지 진행했고, 클러스터를 두 개나 구축해서 성능을 비교하는 발표를 했다.
교수님이 이 발표를 들으시고, PC에서 Python Pandas로 안되는 데이터 분석을 라즈베리파이로 할 수 있고,
이걸 분산 병렬 컴퓨팅 클러스터를 구축해서 높은 성능이 나온다는 것이 흥미롭다고 하셨다.
그래서 이걸 논문 주제로 잡고 논문을 써서, KCC2024에 투고하는 걸 목표로 잡아보라고 하셨다.
그때부터 나의 첫 논문 작성이 시작되었다.
2. 논문을 작성하면서
나는 고등학생 때 소논문이라고 논문 언저리 리포트를 작성한 적이 있었다.
그래서 '얼마나 다르겠어~' 했지만 정말 달랐다고 한다.
일단, 서론을 작성하면서 이 연구가 왜 필요한지, 누구나 납득할 수 있는 근거를 잡는 것 부터 어려웠다.
그러기 위해선 이미 나와있는 많은 논문들을 먼저 조사하고 읽어보는 게 먼저였다.
그렇게 많은 논문들을 읽어보고, 내가 쓰려는 논문은 이 논문들과 어떤 점이 다른 지 계속 공부를 해야했다.
다른 사람들이 쓴 논문을 보면서 공부도 많이 되었고, 실험 구조나 논문 구조에 대한 도움도 많이 되었다.
사실 이 서론을 작성하는 것이 제일 오래 걸렸고, 어려웠다. 그래서 참조한 논문을 정리했다.
본론을 작성하기 시작하면서, 내 주제에 대한 구체화를 하고 다른 논문들과의 차별점을 두었다.
다른 논문과 비교했을 때, 나의 논문의 차별점은 실험에 대한 시나리오를 만들어서 실제 데이터 분석 작업을 설정하여 성능을 측정했다는 것과 상용 PC의 Python Pandas와 성능을 비교했다는 점이다.
타 논문들은 라즈베리파이를 클러스터로 구축해서 Spark로 WordCount, TeraSort, TereGen 벤치마크를 통해 성능을 측정하였다면,
나의 논문에선 사물인터넷 환경에서 측정된 미세먼지 데이터를 대용량으로 수집해서 분석하는 시나리오를 설계하고,
데이터 수집 단계에서 많이 사용되는 라즈베리파이를 데이터 분석 단계에서도 사용 가능함을
PC와의 성능 비교를 통해 보여주고자 했다.
그렇게 데이터 분석 작업을 라즈베리파이 클러스터와 PC에서 실험하고, 결과를 그래프로 시각화하고, PC의 메모리 사용량과 라즈베리파이의 메모리 사용량을 더 시각적으로 보여주기 위해 모니터링 시스템을 추가하였다. (이전 포스팅 참고)
그렇게 본론인 시나리오 설계와 실험 결과를 작성하고, 결론을 작성했다.
사실 방학동안 했던 것들이라서 실험 결과와 결론 작성이 가장 쉬웠고 빠르게 끝났다.
그렇게 논문 페이지 제한 수인 3장으로 논문을 최대한 압축했고, 교수님께 불꽃 피드백을 받아서......
KCC2024에 투고하였다.
여기까지 겨울방학 시작인 11월부터 4월까지 약 5개월 정도 소요되었다..
오래 걸리고 대학교 시험 기간이랑 겹쳐서 힘들었지만,
그래도 내가 생각한 주제로, 내 이름이 1저자로 되어 있는 논문을 썼다는 뿌듯함과 드디어 끝났다라는 후련함이 느껴졌었다.
3. 논문 심사 결과 및 포스터 만들기 시작
논문 심사 결과가 나왔고, 의외로 점수가 꽤 잘 나왔다.
웃긴 얘기지만 나는 내 논문에 그렇게 자신이 없었다.. ㅎㅎ
피드백도 해주었기 때문에, 여기에서 부족했다고 피드백 해준 내용으로 논문을 최종 수정해서 제출하고,
학부생은 포스터 발표 세션 밖에 안되기 때문에, 포스터를 준비해야 했다.
포스터 준비도 쉽지 않았다.
3장의 논문을 포스터로 읽기 쉽고 한눈에 들어오도록 포스터 내용을 정리해야 했기 때문에, 신경쓸 게 많았다.
그렇게 포스터까지 준비해서 2024년 6월에 발표가 열리는 제주도로 떠났다...!
논문 발표와 제주도 후기 및 최종 논문심사 결과는 다음 포스팅에서 다뤄보도록 하겠다.
논문 작성 후기
처음으로 논문을 작성하면서,
어려운 점도 많이 있었고, 시험기간이랑 겹치면서 정신적으로 많이 힘들었다.
하지만, 연구실 사람들과 교수님이 응원도 해주시고 불꽃 피드백을 받으면서 포기하지 않고
끝까지 내가 발견한 주제로 내 논문을 작성했다는 사실이 너무 뿌듯했다.
이번 논문을 작성하면서, 기존에 있던 문제를 발견하고 그 문제를 나의 방식대로 해결하고자 실험을 하고,
실험 내용을 글로 작성하면서 문제 해결 능력과 논리적인 사고력과 글을 작성하는 점이 가장 많이 발전 되지 않았나 생각한다.
'논문' 카테고리의 다른 글
2024년 한국종합컴퓨터 학술대회(KCC2024) 논문 발표 후기 (0) | 2024.09.27 |
---|---|
Pandas, Apache Spark 데이터 분석 수행 시간 비교 (1) | 2024.09.21 |
라즈베리파이 클러스터 Spark DataFrame 에어코리아 미세먼지 데이터 분석 (1) | 2024.09.21 |