IT

R 프로그래밍 - 텍스트 마이닝(tm) 패키지 소개

유병혁 2015. 10. 14. 00:06

R 프로그래밍에서 텍스트 마이닝(tm) 패키지를 간략히 살펴보도록 하겠습니다.

 

텍스트 마이닝 패키지 | tm(Text Mining) Package
https://cran.r-project.org/web/packages/tm/tm.pdf

 

참고로 한국어의 경우는 한국어 자연어 처리(KoNLP) 패키지를 이용하면 되겠습니다.
관련 글: http://blog.daum.net/geoscience/829

 

먼저, tm 패키지를 설치하도록 하겠습니다.

 

이제 설치된 tm 패키지를 호출합니다.

 

아래 stopwords은 다국어로 지원(여기서는 영어)되는 불용어 목록입니다.

 

removeWords는 아래와 같이 stopwords와 함께 불용어 추출기로 쓰일 수 있습니다.
앞서 소개된 KoNLP 패키지의 명사 추출기인 extractNoun과 함께 혼용될 수도 있겠습니다.

 

위에서 작성된 R 코드는 아래와 같습니다.

# tm 패키지 설치하기
install.packages("tm")
 
# tm 패키지 호출하기
library(tm)
 
# stopwords(불용어 추출기)
stopwords("en")
removeWords("Author inspires local students to visit national parks", stopwords("en"))
removeWords("5 Best National Parks to Stargaze", stopwords("en"))
removeWords("of the people by the people for the people", stopwords("en"))

Created by Pretty R at inside-R.org