본문 바로가기

분류 전체보기22

LDA from collections import Counter import random def p_topic_given_document(topic, d, alpha=0.1): return ((document_topic_counts[d][topic] + alpha) / (document_lengths[d] + K * alpha)) def p_word_given_topic(word, topic, beta=0.1): return ((topic_word_counts[topic][word] + beta) / (topic_counts[topic] + V * beta)) def topic_weight(d, word, k): return p_word_given_topic(word, k) * p_topic_given_docu.. 2020. 6. 2.
[파이썬] 장바구니분석 from konlpy.tag import Okt from konlpy.tag import Komoran from konlpy.tag import Mecab from konlpy.tag import Hannanum from konlpy.tag import Kkma # 형태소 분석기 호출 함수 def get_tokenizer(tokenizer_name): if tokenizer_name == "komoran": tokenizer = Komoran() elif tokenizer_name == "okt": tokenizer = Okt() elif tokenizer_name == "mecab": tokenizer = Mecab() elif tokenizer_name == "hannanum": tokenizer =.. 2020. 4. 28.
네이버카페 게시글 제목 크롤링 0. 크롬 접속1. 모바일환경으로 URL변경2. 크롤링 원하는 게시판으로 이동3. F12개발자도구 > Network > XHR4. 글목록 하단 '더보기' 클릭 5. 통신 방식 확인(1) Header카테고리에서 Request Method 확인- GET방식인지 Post방식인지.. (2) parameter확인 - 1안 : 개발자도구에 새로 업데이트된 항목 (ArticleList.json?search....) 오른쪽클릭 > Copy > Copy link address 클릭 > 복사URL확인- 2안 : Header카테고리에서 Request URL 확인 (get방식일 경우, ?로 url 구분 / &으로 파라미터 연결) [1차]import requests import json f = open("C:/Users/kej.. 2020. 1. 29.
형태소분석 from konlpy.tag import Okt, Komoran, Mecab, Hannanum, Kkma import re # 형태소 분석기 호출 함수 def get_tokenizer(tokenizer_name): if tokenizer_name == "komoran": tokenizer = Komoran() elif tokenizer_name == "okt": tokenizer = Okt() elif tokenizer_name == "mecab": tokenizer = Mecab() elif tokenizer_name == "hannanum": tokenizer = Hannanum() elif tokenizer_name == "kkma": tokenizer = Kkma() else: tokenizer .. 2020. 1. 28.