본문 바로가기
반응형

3과목11

[3과목] 군집분석 1. 군집 분석 - 각 객체의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 개체 간의 상이성을 규명하는 분석 방법이다. - 특징 1) 요인분석과의 차이점: 요인분석은 유사한 변수를 함께 묶어주는 것이 목적이다. 2) 판별분석과의 차이점: 판별분석은 사전에 집단이 나누어져 있는 자료를 통해 새로운 데이터를 기존의 집단에 할당한다. 2. 거리 -> 군집분석에서는 관측데이터 간의 유사성이나 근접성을 측정해 어느 군집으로 묶을 수 있는지 판단해야 한다. 1) 연속형 변수의 경우 - 유클리디안 거리: 데이터 간의 유사성을 측정할 때 많이 사용되는 거리이다. 통계적 개념이 내포되어 있지 않아 변수들의 산포 정도가 전혀 감안되어 있지 않았다. - 표준화.. 2024. 2. 14.
[3과목] 앙상블 & 인공신경망 & 연관 분석 앙상블 분석 - 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법이다. 다중 모델 조합, 분류기 조합이 있다. - 학습방법의 불안정성 : 학습자료의 작은 변화에 의해 예측모형이 크게 변하는 경우, 그 학습방법은 불안정하다. : 가장 안정적인 방법으로는 1-nearest neighbor, 선형회귀모형이 존재한다. : 가장 불안정한 방법으로는 의사결정나무가 있다. - 앙상블 기법의 종류 1) 배깅 : 주어진 자료에서 여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법이다. 붓스트랩은 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료를 의미한다. 보팅은 여러 개의 모형으로부터 .. 2024. 2. 14.
[3과목] 분류 분석 1. 분류분석과 예측분석 - 분류분석 : 데이터가 어느 그룹에 속하는지 예측하는데 사용되는 기법이다. 클러스터링과 유사하지만, 분류분석은 각 그룹이 정의되어 있고, 지도학습에 해당하는 예측기법이다. - 예측분석 : 시계열분석처럼 시간에 따른 값 두 개만을 이용해 앞으로의 매출 또는 온도 등을 예측하는 것이다. 모델링하는 입력 데이터가 어떤 것인지에 따라 특성이 다르고, 여러 개의 다양한 설명변수가 아닌, 한 개의 설명변수로 생각하면 된다. - 공통점과 차이점 1) 공통점: 레코드의 특정 속성의 값을 미리 알아맞히는 점이다. 2) 차이점 분류: 레코드(튜플)의 범주형 속성의 값을 알아맞히는 것이다. 예측: 레코드(튜플)의 연속형 속성의 값을 알아맞히는 것이다. - 예시 1) 분류: 학생들의 점수를 통해 내.. 2024. 2. 14.
[3과목] 데이터마이닝의 개요 1. 데이터 마이닝 - 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다. - 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 찾아내는 방법을 통칭한다. - 종류 정보를 찾는 방법론에 따른 종류: 인공지능, 의사결정나무, k-평균군집화, 연관분석, 회귀분석, 로짓분석, 최근접이웃 분석대상, 활용목적, 표현방법에 따른 분류: 시각화분석, 분류, 군집화, 포케스팅 2. 데이터마이닝의 분석방법 (1) Supervised Learning 지도학습: 의사결정나무 Decision Tree, 인공신경망 ANN, 일반화 선형 모형 GLM, 회귀분석, 로지스틱 회귀분석, 사례기반 추론, 최근접 .. 2024. 2. 13.
반응형