안녕하세요? 이번 글은 한국어 NLP를 위한 코엔엘파이(KoNLPy) 설치방법을 정리해 보겠습니다.
KoNLPy는 오픈소스 소프트웨어이며, GPL v3(또는 그 이상) 라이센스를 채택하고 있습니다.
우수한 소프트웨어를 개발해주신 개발자분들께 감사드리며, 혹시 연구에 KoNLPy를 사용한
경우는 아래 논문을 인용해주시면 된다고 합니다:
박은정, 조성준, “KoNLPy: 쉽고 간결한 한국어 정보처리 파이썬 패키지”, 제 26회 한글 및 한국어 정보처리 학술대회 논문집, 2014.
KoNLPy의 한국어 문서와 깃허브 주소는 아래와 같습니다:
KoNLPy 한국어 문서 | http://konlpy.org/ko/latest/
KoNLPy 깃허브 | https://github.com/konlpy/konlpy
KoNLPy를 사용하기 위해서는 자바 개발 키트(Java Developent Kit: JDK를 설치해야 합니다.
여기서는 OpenJDK 윈도우 버전을 설치해주도록 하겠습니다. 버전은 1.8.0을 선택해 봅니다.
Downloads for Windows x86_64 | https://github.com/ojdkbuild/ojdkbuild
다음으로는 JPype(Java to Python integration)를 설치합니다.
KoNLPy가 자바 모듈을 사용해서 자바-파이썬 연동 모듈 JPype가 필요함을 알 수 있습니다.
whl 파일 출처는 다음 주소와 같습니다. | https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype
이제 JPype까지 설치를 완료합니다.
1 2 | pip install --upgrade pip pip install JPype1‑0.7.0‑cp35‑cp35m‑win_amd64.whl | cs |
JDK와 JPype 설치가 끝났으므로 KoNLPy를 설치합니다.
1 | pip install konlpy | cs |
주피터 노트북을 설치하고, KoNLPy가 내장한 한나눔(Hannanum) 형태소 분석기를 불러옵니다.
1 2 3 4 5 6 7 | pip install jupyter jupyter notebook # 한나눔 불러오기 from konlpy.tag import Hannanum hannanum = Hannanum() | cs |
자, 설치가 완료되었습니다. 이제 형태소 분석으로 다음 워드 클라우드도 그려볼 수 있겠습니다.