IT

데이터랩 API를 이용한 '국립공원'과 '깃대종' 검색량 비교

유병혁 2019. 9. 2. 02:28

안녕하세요? 이번 글은 데이터랩 API를 이용하여 '국립공원'과 '깃대종' 검색량을 비교하는 과정을 정리해 보겠습니다.


네이버 데이터랩 API 사용방법은 아래 링크를 참조하시면 됩니다.

통합 검색어 트렌드 API 적용 가이드 - NAVER Developers | https://developers.naver.com/docs/datalab/search/


아래와 같이 각 언어별 예제를 제공하고 있어 어렵지 않게 적용해보실 수 있습니다.


일단, 필요한 라이브러리들을 추가합니다.


데이터랩 API를 통해 2016년 1월 1일부터 2019년 6월 30일까지 일자별 '국립공원'과 '깃대종' 검색량을 확인합니다.

client_id와 client_secret 값은 발급받은 키를 사용하시면 됩니다. 검색결과는 JSON(제이슨) 포맷으로 제공됩니다.


Pandas(판다스) 데이터프레임으로 조회된 결과를 병합합니다.

검색량이 없는 기간도 있으므로 merge의 how는 'outer'로 설정합니다.

pandas.DataFrame.merge | https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html


재사용을 위해 해당 데이터프레임을 엑셀파일로 저장하고,


다시 불러와 라인 플롯으로 그려 보겠습니다. '국립공원' 검색량이 뚜렷하게 높죠?!

'국립공원'과 '깃대종'의 피어슨 상관계수를 확인해 봤습니다. 0.2로 약한 양적 선형관계를 보입니다.

pandas.DataFrame.corr | https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html


이번에는 데이터 분포를 확인하기 위해 박스 플롯을 그려 보겠습니다.



'국립공원'과 '깃대종' 검색량을 연평균으로 산출한 결과입니다. 검색량의 증감추세는 어떨까요?!


'국립공원'과 '깃대종' 검색량을 퍼센트 변화(percent change)로 변환해 본 결과입니다.

pandas.DataFrame.pct_change | https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pct_change.html


2006년과 2019년 사이 퍼센트 변화를 계산해 보니, 2016년 대비 국립공원 검색량은 14.5% 감소, 깃대종 검색량은 93.4% 증가한 것을 보실 수 있습니다.


이번에는 연월평균 검색량으로 그룹화하고,


'깃대종' 연월평균 검색량을 Seaborn(시본)에서 제공하는 열지도로 가시화해 봅니다. 최근 검색량 증가는 뚜렷해 보입니다.

'국립공원'과 '깃대종' 연월평균 검색량을 열지도 플롯으로 표현한 결과입니다.