반응형
from konlpy.tag import Okt, Komoran, Mecab, Hannanum, Kkma
import re
# 형태소 분석기 호출 함수
def get_tokenizer(tokenizer_name):
if tokenizer_name == "komoran":
tokenizer = Komoran()
elif tokenizer_name == "okt":
tokenizer = Okt()
elif tokenizer_name == "mecab":
tokenizer = Mecab()
elif tokenizer_name == "hannanum":
tokenizer = Hannanum()
elif tokenizer_name == "kkma":
tokenizer = Kkma()
else:
tokenizer = Mecab()
return tokenizer
# 파일열기
content_text=open("E:/_업무//workspace/result_191106_1_deldupl.txt", 'r', encoding='UTF8')
f=open("E:/_업무/workspace/python_morph_result_191106_2_deldupl.txt", 'w', encoding='UTF8')
# 입력 코퍼스에 대해서 문장 토큰화를 수행.
# readlines()로 파일을 읽으면 한 줄, 한 줄이 각각 리스트의 원소로 들어감
sent_text = content_text.readlines()
# 각 문장에 대해서 형태소분석
normalized_text = []
for string in sent_text:
tokenizer = get_tokenizer("okt")
tokens = tokenizer.morphs(string)
f.write("\\\\".join(tokens))
print(tokens)
f.close()
content_text.close()
'프로그래밍 > Python' 카테고리의 다른 글
LDA (0) | 2020.06.02 |
---|---|
네이버카페 게시글 제목 크롤링 (1) | 2020.01.29 |
word2vec (0) | 2020.01.28 |
댓글