본문 바로가기

프로그래밍21

LDA from collections import Counter import random def p_topic_given_document(topic, d, alpha=0.1): return ((document_topic_counts[d][topic] + alpha) / (document_lengths[d] + K * alpha)) def p_word_given_topic(word, topic, beta=0.1): return ((topic_word_counts[topic][word] + beta) / (topic_counts[topic] + V * beta)) def topic_weight(d, word, k): return p_word_given_topic(word, k) * p_topic_given_docu.. 2020. 6. 2.
네이버카페 게시글 제목 크롤링 0. 크롬 접속1. 모바일환경으로 URL변경2. 크롤링 원하는 게시판으로 이동3. F12개발자도구 > Network > XHR4. 글목록 하단 '더보기' 클릭 5. 통신 방식 확인(1) Header카테고리에서 Request Method 확인- GET방식인지 Post방식인지.. (2) parameter확인 - 1안 : 개발자도구에 새로 업데이트된 항목 (ArticleList.json?search....) 오른쪽클릭 > Copy > Copy link address 클릭 > 복사URL확인- 2안 : Header카테고리에서 Request URL 확인 (get방식일 경우, ?로 url 구분 / &으로 파라미터 연결) [1차]import requests import json f = open("C:/Users/kej.. 2020. 1. 29.
형태소분석 from konlpy.tag import Okt, Komoran, Mecab, Hannanum, Kkma import re # 형태소 분석기 호출 함수 def get_tokenizer(tokenizer_name): if tokenizer_name == "komoran": tokenizer = Komoran() elif tokenizer_name == "okt": tokenizer = Okt() elif tokenizer_name == "mecab": tokenizer = Mecab() elif tokenizer_name == "hannanum": tokenizer = Hannanum() elif tokenizer_name == "kkma": tokenizer = Kkma() else: tokenizer .. 2020. 1. 28.
word2vec from gensim.models import Word2Vec fread = open("E:workspace/result_morph_20191030.txt", encoding="utf8") model_fname = "C:/Users/kej82/Documents/Python/Model/word2vec" # 파일을 다시 처음부터 읽음. n=0 result = [] while True: line = fread.readline() # 한 줄씩 읽음. if not line: break # 모두 읽으면 while문 종료. #if n == 50000: #break # while문 종료. n = n + 1 if n % 5000 == 0: # 5,000의 배수로 While문이 실행될 때마다 몇 번째 While문 실행인지.. 2020. 1. 28.