형태소분석

from konlpy.tag import Okt, Komoran, Mecab, Hannanum, Kkma
import re

# 형태소 분석기 호출 함수
def get_tokenizer(tokenizer_name):
    if tokenizer_name == "komoran":
        tokenizer = Komoran()
    elif tokenizer_name == "okt":
        tokenizer = Okt()
    elif tokenizer_name == "mecab":
        tokenizer = Mecab()
    elif tokenizer_name == "hannanum":
        tokenizer = Hannanum()
    elif tokenizer_name == "kkma":
        tokenizer = Kkma()
    else:
        tokenizer = Mecab()
    return tokenizer

# 파일열기
content_text=open("E:/_업무//workspace/result_191106_1_deldupl.txt", 'r', encoding='UTF8')
f=open("E:/_업무/workspace/python_morph_result_191106_2_deldupl.txt", 'w', encoding='UTF8')

# 입력 코퍼스에 대해서 문장 토큰화를 수행.
# readlines()로 파일을 읽으면 한 줄, 한 줄이 각각 리스트의 원소로 들어감
sent_text = content_text.readlines()

# 각 문장에 대해서 형태소분석
normalized_text = []
for string in sent_text:
    tokenizer = get_tokenizer("okt")
    tokens = tokenizer.morphs(string)
    f.write("\\\\".join(tokens))
    print(tokens)

f.close()
content_text.close()

저작자표시 비영리 변경금지

'프로그래밍 > Python' 카테고리의 다른 글

LDA (0)	2020.06.02
네이버카페 게시글 제목 크롤링 (1)	2020.01.29
word2vec (0)	2020.01.28

*

형태소분석

'프로그래밍 > Python' 카테고리의 다른 글

댓글

티스토리툴바

형태소분석

'프로그래밍 > Python' 카테고리의 다른 글

관련글

댓글

티스토리툴바