IT

빅카인즈 뉴스 데이터를 이용한 '깃대종' 통계 가시화

유병혁 2019. 9. 3. 10:45

안녕하세요? 이번 글은 빅카인즈 뉴스 데이터를 이용한 '깃대종' 통계 가시화 과정을 정리해 보겠습니다.

이전 글: 데이터랩 API를 이용한 '국립공원'과 '깃대종' 검색량 비교 | http://blog.daum.net/geoscience/1405


앞서 네이버 데이터랩 API를 이용하여 2016년 대비 깃대종 검색량이 93.4% 증가했음을 확인했었는데요,

뉴스 데이터를 통해 이 변화의 요인을 진단해보는 분석이 되겠습니다.


일단 빅카인즈를 통해서 1900년부터 2019년 6월까지 '깃대종'이 언급된 뉴스 데이터를 내려받았습니다.  

빅카인즈(BIG KINDS) | https://www.bigkinds.or.kr/


분석을 위한 라이브러리를 추가하고,


깃대종이 언급된 기사건수를 읽어와 바 플롯으로 그려봤습니다. 1995년 최초 기사가 나간 이후에 지속적으로 언급되고 있음을 알 수 있습니다.



그렇다면 국립공원이 언급된 기사는 이 중 몇 건일까요? 바 플롯으로 그려본 결과는 아래와 같습니다.



깃대종 기사 건수와 국립공원이 언급된 깃대종 기사 건수를 비교한 바 플롯입니다.



기사 건수로 보면 깃대종 기사 1,029건 중 국립공원이 언급된 기사는 380건, 36.9%를 차지합니다.

이를 통해 국립공원 외에도 깃대종 용어를 사용하는 주체(들)가 있음을 추정해 봅니다. 그렇다면 어디일까요?! 


단어빈도 분석을 통해 진단해 보겠습니다. 이를 위해 한나눔을 추가합니다.

한국어 NLP를 위한 코엔엘파이(KoNLPy) 설치하기 | http://blog.daum.net/geoscience/1398


빅카인즈 뉴스 데이터 컬럼 중 기사 제목만을 별도 텍스트 파일로 저장하고 읽어옵니다.


예시에 따라 단어빈도 분석을 수행하고 상위 20개 단어를 확인해 봅니다. 대전, 성남과 같은 지자체명이 눈에 띄는데요,

깃대종이 존재하는 곳입니다. 동물 중 언급수가 높은 하늘다람쥐는 대전의 깃대종이면서 국립공원의 깃대종이기도 합니다.


단어구름(word cloud)를 만들어 단어빈도 통계를 한눈에 확인해 봅니다.


깃대종을 제외하고 다시 그려본 단어구름입니다. 다음 글은 단어의 동시 발생 분포를 정리해 보겠습니다.