R 프로그래밍 - 텍스트 마이닝(tm) 패키지 소개

유병혁 2015. 10. 14. 00:06

R 프로그래밍에서 텍스트 마이닝(tm) 패키지를 간략히 살펴보도록 하겠습니다.

텍스트 마이닝 패키지 | tm(Text Mining) Package
https://cran.r-project.org/web/packages/tm/tm.pdf

참고로 한국어의 경우는 한국어 자연어 처리(KoNLP) 패키지를 이용하면 되겠습니다.
관련 글: http://blog.daum.net/geoscience/829

먼저, tm 패키지를 설치하도록 하겠습니다.

이제 설치된 tm 패키지를 호출합니다.

아래 stopwords은 다국어로 지원(여기서는 영어)되는 불용어 목록입니다.

removeWords는 아래와 같이 stopwords와 함께 불용어 추출기로 쓰일 수 있습니다.
앞서 소개된 KoNLP 패키지의 명사 추출기인 extractNoun과 함께 혼용될 수도 있겠습니다.

위에서 작성된 R 코드는 아래와 같습니다.

# tm 패키지 설치하기
install.packages("tm")
 
# tm 패키지 호출하기
library(tm)
 
# stopwords(불용어 추출기)
stopwords("en")
removeWords("Author inspires local students to visit national parks", stopwords("en"))
removeWords("5 Best National Parks to Stargaze", stopwords("en"))
removeWords("of the people by the people for the people", stopwords("en"))

Created by Pretty R at inside-R.org

저작자표시 비영리 변경금지 (새창열림)

현재글R 프로그래밍 - 텍스트 마이닝(tm) 패키지 소개

유병혁 | 공간데이터분석가

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

R 프로그래밍 - 텍스트 마이닝(tm) 패키지 소개

'IT'의 다른글

티스토리툴바

R 프로그래밍 - 텍스트 마이닝(tm) 패키지 소개

'IT'의 다른글

관련글

티스토리툴바