IT

논문 데이터베이스 텍스트 마이닝 툴 'VOSViewer' 소개

유병혁 2015. 12. 3. 02:17

웹 오브 사이언스(Web of Science), 스코퍼스(Scopus), 펍메드(PubMed)와 같은 논문 데이터베이스.
이번 글은 이러한 논문들을 텍스트 마이닝 처리하는 'VOSViewer' 툴의 사용법을 살펴 보도록 하겠습니다.

 

이 툴은 네덜란드 레이던 대학교(Leiden University)의 과학기술연구센터
(CWTS, Centre for Science and Technology Studies)에서 개발하였습니다.

 

여기서는 스코퍼스(Scopus)에서 검색한 논문 데이터를 불러와서 VOSViewer에서 처리해 보겠습니다.

일단 스코퍼스에 접속하는데요, 저는 박사과정 재학 중인 서울시립대학교중앙도서관을 경유하도록 하겠습니다.

 

아래와 같이 '자료검색 > 데이터베이스(Database)'를 클릭하고,

 

인용색인/저널평가DB에서 'Scopus'를 클릭합니다.

 

이제 Scopus에 로그인한 상태인데요, 논문을 검색해보도록 하겠습니다.

 

저는 아래와 같은 기준으로 'GIS'를 검색해 보도록 하겠습니다.

 

총 1,794건의 논문이 검색되었는데요, PPGIS(Public Participation Geographic Information, System)로 범위를 좁혀 보겠습니다.

 

이제 논문 검색이 다 끝났으면 아래와 같이 설정한 후, CSV 파일로 논문 데이터베이스를 추출하겠습니다.

 

 

스코퍼스 파일은 추출되었고, VOSviewer를 설치해 보겠습니다.

VOSViewer 공식 홈페이지(http://www.vosviewer.com/)에 접속한 후,

 

상단 메뉴에서 'Download'를 클릭하고, VOSviewer 파일을 내려받겠습니다. 

 

아래와 같이 파일들이 있는데요, VOSViewer를 클릭해 보겠습니다.

 

기본 화면은 다음과 같습니다.

 

화면 좌측에서 'Create' 버튼을 클릭하고,

 

아래와 같이 Create Map 창에서 'Create a map based on a text corpus'를 선택합니다.

 

탭에서 'Scopus'를 선택하고,

 

앞서 다운로드 받은 스코퍼스 파일을 업로드합니다.

 

Choose Scopus fields는 용어를 추출할 때 제목과 초록 필드를 모두 쓸 것인지를 확인하는 단계입니다.

 

다음으로 Choose counting method가 있는데요,

 

여기서 Binary counting은 논문 1편에서 용어의 출연 여부로, Full counting은 논문 1편에서 용어의 출연 횟수로 계산됩니다.

예를 들면, participation이 A 논문에서 5번이 언급되었을 때, Binary counting는 언급되었음으로 1, Full counting은 5로 정의됩니다.  

 

Choose threshold는 용어 출연의 최소 횟수를 임계치로 사용합니다.

아래는 총 1663개 용어 중 10번 이상 언급된 용어가 8개임을 안내하고 있습니다.

 

저는 최소값을 2로 설정하여, 총 195개 용어가 선택되었습니다.

 

Choose number of terms는 연관성이 60% 이상인 총 117개 용어가 선택되었습니다.

 

이제 선택된 용어들의 출연 횟수, 연관성을 확인하고 최종 선택 여부(Selected)를 결정합니다.

 

이제 아래와 같이 네트워크 가시화(Network Visualization) 결과가 제시되었습니다.

 

우측 설정값들을 적절하게 조정하여 디자인을 변경할 수 있습니다. 

 

아래 그림은 밀도 가시화(Density Visualization)입니다.

 

좌측 메뉴에서 Screenshot을 통해 현재 화면을 png 파일로 저장하실 수 있습니다. 간단하죠?!