안녕하세요? 이번 글은 데이터랩 API를 이용하여 '국립공원'과 '깃대종' 검색량을 비교하는 과정을 정리해 보겠습니다.
네이버 데이터랩 API 사용방법은 아래 링크를 참조하시면 됩니다.
통합 검색어 트렌드 API 적용 가이드 - NAVER Developers | https://developers.naver.com/docs/datalab/search/
아래와 같이 각 언어별 예제를 제공하고 있어 어렵지 않게 적용해보실 수 있습니다.
일단, 필요한 라이브러리들을 추가합니다.
데이터랩 API를 통해 2016년 1월 1일부터 2019년 6월 30일까지 일자별 '국립공원'과 '깃대종' 검색량을 확인합니다.
client_id와 client_secret 값은 발급받은 키를 사용하시면 됩니다. 검색결과는 JSON(제이슨) 포맷으로 제공됩니다.
Pandas(판다스) 데이터프레임으로 조회된 결과를 병합합니다.
검색량이 없는 기간도 있으므로 merge의 how는 'outer'로 설정합니다.
pandas.DataFrame.merge | https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html
재사용을 위해 해당 데이터프레임을 엑셀파일로 저장하고,
다시 불러와 라인 플롯으로 그려 보겠습니다. '국립공원' 검색량이 뚜렷하게 높죠?!
'국립공원'과 '깃대종'의 피어슨 상관계수를 확인해 봤습니다. 0.2로 약한 양적 선형관계를 보입니다.
pandas.DataFrame.corr | https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html
이번에는 데이터 분포를 확인하기 위해 박스 플롯을 그려 보겠습니다.
'국립공원'과 '깃대종' 검색량을 연평균으로 산출한 결과입니다. 검색량의 증감추세는 어떨까요?!
'국립공원'과 '깃대종' 검색량을 퍼센트 변화(percent change)로 변환해 본 결과입니다.
pandas.DataFrame.pct_change | https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pct_change.html
2006년과 2019년 사이 퍼센트 변화를 계산해 보니, 2016년 대비 국립공원 검색량은 14.5% 감소, 깃대종 검색량은 93.4% 증가한 것을 보실 수 있습니다.
이번에는 연월평균 검색량으로 그룹화하고,
'깃대종' 연월평균 검색량을 Seaborn(시본)에서 제공하는 열지도로 가시화해 봅니다. 최근 검색량 증가는 뚜렷해 보입니다.
'국립공원'과 '깃대종' 연월평균 검색량을 열지도 플롯으로 표현한 결과입니다.