프로그래밍/R3 [R 코드] 웹사이트 크롤링 1. rvest 패키지 : html과 xml 자료를 가져와서 처리할 수 있는 패키지, 크롤링 시 사용 2. rvest 함수 ① read_html()- 내용 : URL의 html 파일을 읽고 저장- 형식 : read_html (url, encoding = “UTF-8”) ② html_nodes()- 내용 : 태그가 포함하고 있는 속성을 모두 반환, tag나 class와 같은 요소를 추출하고자 할 경우에 사용, 속성이 class라면 ‘css’를 사용- 형식 : html_nodes(css='.type01') ③ html_node()- 내용 : 태그(node이름, css주소, xpath등)가 포함하는 속성을 1개만 반환, id를 찾을 경우 사용 (속성이 id인 경우 속성값 앞에 #을 붙임)- 형식 : html_.. 2018. 12. 19. [데이터구조] 행렬 1. 개요(1) 정의 : 동일한 형태로 구성된 2차원의 데이터 구조, 행의 차원과 열의 차원을 가지고 있음 (2) 특징 ① 하나의 행렬은 수치형, 문자형, 논리형 중 한 가지 형태의 원소만 갖음② 행렬은 벡터의 확장, 행렬의 속성은 벡터의 속성을 포함함 (3) 속성 속성 설명 length 자료의 개수 mode 자료의 형태 dim 행과 열의 개수 dimnames 행과 열의 이름 2. 행렬의 생성 (1) matrix( ) - 함수를 이용하여 직접 생성- 형태 : matrix(data, nrow=, ncol=, byrow=FALSE, dimnames = NULL) → byrow=FALSE : 기본값, 열기준으로 행렬 생성한다는 의미 (2) cbind( )- 함수를 이용하여 벡터를 병합- 형태 : cbind(벡.. 2018. 10. 31. [데이터구조] 벡터 1. 개요(1) 정의 : 한 개 이상의 원소로 구성된 자료 구조, 가장 단순한 객체, 여러 값들이 일차원적으로 순서화 된 것 (2) 특징 : 한 가지 형태로만 구성되어야 함 (ex. 수치형, 문자형, 논리형) 2. 벡터의 생성 * default옵션으로 수치형 자료만 읽도록 되어 있음 (1) scan() : 함수를 이용하여 직접 자료 입력- sep : 구분자 지정 1234567891011a [1] 1.00 1.05 1.10 1.15 1.20 seq(from=1, to=5, along=1:6)>[1] 1.0 1.8 2.6 3.4 4.2 5.0 (3) rep() : 자료 값들을 반복하여 생성- times : 값에 따라 반복, 매개변수 표시 생략시 default값이 됨 times 값을 벡터 형태로 지정 시, 반.. 2018. 10. 29. 이전 1 다음