R 프로그래밍에서 텍스트 마이닝(tm) 패키지를 간략히 살펴보도록 하겠습니다.
텍스트 마이닝 패키지 | tm(Text Mining) Package
https://cran.r-project.org/web/packages/tm/tm.pdf
참고로 한국어의 경우는 한국어 자연어 처리(KoNLP) 패키지를 이용하면 되겠습니다.
관련 글: http://blog.daum.net/geoscience/829
먼저, tm 패키지를 설치하도록 하겠습니다.
이제 설치된 tm 패키지를 호출합니다.
아래 stopwords은 다국어로 지원(여기서는 영어)되는 불용어 목록입니다.
removeWords는 아래와 같이 stopwords와 함께 불용어 추출기로 쓰일 수 있습니다.
앞서 소개된 KoNLP 패키지의 명사 추출기인 extractNoun과 함께 혼용될 수도 있겠습니다.
위에서 작성된 R 코드는 아래와 같습니다.
# tm 패키지 설치하기 install.packages("tm") # tm 패키지 호출하기 library(tm) # stopwords(불용어 추출기) stopwords("en") removeWords("Author inspires local students to visit national parks", stopwords("en")) removeWords("5 Best National Parks to Stargaze", stopwords("en")) removeWords("of the people by the people for the people", stopwords("en"))