본문 바로가기
프로그래밍/Python

형태소분석

by purplebulb 2020. 1. 28.
반응형


from konlpy.tag import Okt, Komoran, Mecab, Hannanum, Kkma
import re

# 형태소 분석기 호출 함수
def get_tokenizer(tokenizer_name):
if tokenizer_name == "komoran":
tokenizer = Komoran()
elif tokenizer_name == "okt":
tokenizer = Okt()
elif tokenizer_name == "mecab":
tokenizer = Mecab()
elif tokenizer_name == "hannanum":
tokenizer = Hannanum()
elif tokenizer_name == "kkma":
tokenizer = Kkma()
else:
tokenizer = Mecab()
return tokenizer

# 파일열기
content_text=open("E:/_업무//workspace/result_191106_1_deldupl.txt", 'r', encoding='UTF8')
f=open("E:/_업무/workspace/python_morph_result_191106_2_deldupl.txt", 'w', encoding='UTF8')

# 입력 코퍼스에 대해서 문장 토큰화를 수행.
# readlines()로 파일을 읽으면 한 줄, 한 줄이 각각 리스트의 원소로 들어감
sent_text = content_text.readlines()

# 각 문장에 대해서 형태소분석
normalized_text = []
for string in sent_text:
tokenizer = get_tokenizer("okt")
tokens = tokenizer.morphs(string)
f.write("\\\\".join(tokens))
print(tokens)

f.close()
content_text.close()


'프로그래밍 > Python' 카테고리의 다른 글

LDA  (0) 2020.06.02
네이버카페 게시글 제목 크롤링  (1) 2020.01.29
word2vec  (0) 2020.01.28

댓글