IT

[도서 리뷰] 파이썬 라이브러리를 활용한 데이터 분석

유병혁 2023. 5. 26. 23:34

그림 출처: https://www.hanbit.co.kr/store/books/look.php?p_code=B2604168887 

 

안녕하세요? 이번 글은 '파이썬 라이브러리를 활용한 데이터 분석' 도서 리뷰를 간략히 정리해 보겠습니다.

 

이번에 출간된 '파이썬 라이브러리를 활용한 데이터 분석'은 2013년 초판, 2019년 개정2판에 이은 개정3판에 해당합니다. IT전문서가 10년의 흐름을 이어가고 있다는 것은, 그만큼 데이터 분석 분야의 많은 이들에게 읽히고 추천되어온 책이라는 것을 가늠할 수 있겠습니다.

 

EDA(Exploratory Data Analysis, 탐색적 데이터 분석)는 데이터 분석의 첫 번째 단계입니다. EDA는 데이터를 원시 형식에서 보다 유익한 형식으로 변환하여 데이터를 이해하는 방법을 통칭합니다. 데이터 분석가들은 EDA를 통해 데이터를 시각화하고 요약하여 데이터의 패턴과 특성을 파악할 수 있습니다.

그림 출처: https://bolt.mph.ufl.edu/6050-6052/unit-1/

 

파이썬은 이제 데이터 분석에 널리 사용되는 프로그래밍 언어입니다. 파이썬에는 EDA(Exploratory Data Analysis, 탐색적 데이터 분석)를 위한 다양한 라이브러리가 제공되지만, 그 중에서도 가장 인기있는 라이브러리는 Pandas(판다스)입니다. 이 책의 저자 웨스 맥키니(Wes McKinney)는 Pandas 라이브러리의 창시자 중 한 명입니다.

 

책은 총 13장으로 구성되어 있습니다. 저자가 Pandas의 개발과 발전에 큰 기여를 한 만큼, 책의 내용 중 상당수는 Pandas를 이용한 EDA에 할애되어 있습니다. 제 나름대로 둘러봤을 때 이 책은 크게 세가지 의도와 목적을 가지고 구성되어 있습니다.

 

첫째, 파이썬을 처음 접하는 이들을 위한 입문용 콘텐츠를 제공합니다. 파이썬 언어의 사용법, 개발환경, 내장함수 등 내용이 4장에 걸쳐 친절히 안내됩니다. 별도의 파이썬 서적을 구매하지 않아도 이 책의 내용만으로 분석에 필요한 지식들을 확인해 볼 수 있습니다.

  • CHAPTER 1 시작하기 전에
  • CHAPTER 2 파이썬 기초, Ipython과 주피터 노트북
  • CHAPTER 3 내장 자료구조, 함수, 파일
  • CHAPTER 4 넘파이 기본: 배열과 벡터 연산

 

둘째, Pandas 사용법을 A부터 Z까지 집중적으로 다룹니다. 데이터에 대한 이해를 높이고, 데이터의 오류를 식별하고, 데이터의 이상값을 제거하고, 데이터의 특성을 파악하는 EDA 전반에서 Pandas가 어떻게 사용될 수 있는지 실무적인 내용을 다룹니다. Matplotlib과 같은 데이터 시각화 라이브러리가 함께 소개되지만, 핵심은 Pandas를 통한 데이터프레임과 시리즈, 2가지 데이터 구조의 제어에 관한 것입니다.

  • CHAPTER 5 판다스 시작하기
  • CHAPTER 6 데이터 로딩과 저장, 파일 형식
  • CHAPTER 7 데이터 정제 및 준비
  • CHAPTER 8 데이터 준비하기: 조인, 병합, 변형
  • CHAPTER 9 그래프와 시각화
  • CHAPTER 10 데이터 집계와 그룹 연산
  • CHAPTER 11 시계열

 

셋째, IT 전문서로써 3판의 의미는 한편으로 레거시 기술만을 다루는 책이 될 수도 있겠는데요, 저자는 책 후반부에 파이썬 모델링 라이브러리와 데이터 분석 예제를 통해 이를 일부 보완하고 있습니다. 그러나 이 책 자체가 판다스 데이터 분석을 위한 기본서이기 때문에 그외 라이브러리에 관해 깊이 있는 내용을 다루고 있지는 않습니다.

  • CHAPTER 12 파이썬 모델링 라이브러리
  • CHAPTER 13 데이터 분석 예제

 

이 책의 일부 내용은 저자 웹사이트를 통해 'Python for Data Analysis' 공개 버전으로 무료 제공되고 있습니다. 아래 링크를 참고해 보시면 좋겠습니다.

 

Python for Data Analysis, 3E

 

wesmckinney.com

'파이썬 라이브러리를 활용한 데이터 분석'은 파이썬으로 처음 데이터 분석을 해보고자 하는 분들께 유익한 책으로 생각됩니다. 각 장마다 연결성을 가지고 있기 때문에 처음부터 교과서를 읽듯이 보다 보면 분명 파이썬을 가지고 데이터 분석을 하는데 자신감을 줄 수 있는 책이라 생각됩니다. "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."