통계/R

R에서 K-평균 군집화를 활용한 데이터 분석 방법

MKKM 2023. 10. 12. 01:21
반응형

K-평균 군집화는 데이터셋을 K개의 클러스터로 나누는 인기 있는 분류 방법 중 하나입니다. 이 방법은 각 클러스터의 중심을 기준으로 데이터 포인트를 그룹화하며, R 프로그래밍 언어를 사용하면 쉽게 구현할 수 있습니다.

 

 

 

1. K-평균 군집화 (K-Means Clustering) 이란

K-평균 군집화는 비지도 학습 방법 중 하나로, 데이터를 K개의 클러스터로 분류하는 알고리즘입니다.
이 방법은 각 클러스터의 중심점을 계산하고, 데이터 포인트를 가장 가까운 중심점에 할당하는 방식으로 작동합니다.
클러스터링의 목적은 동일 클러스터 내의 데이터 포인트 간의 거리는 최소화하고, 서로 다른 클러스터 간의 거리는 최대화하는 것입니다.
K-평균 군집화는 다양한 분야에서 유용하게 사용되며, 특히 마케팅, 금융, 건강관리 등에서 고객 세분화나 패턴 인식에 활용됩니다.

 

2. R에서 K-평균 군집화 (K-Means Clustering)하는 법

R은 데이터 분석에 아주 강력한 도구로, K-평균 군집화를 비롯한 다양한 통계적 방법들을 쉽게 구현할 수 있게 해줍니다.
`kmeans()` 함수를 사용하면 데이터에 K-평균 군집화를 적용할 수 있습니다.
이 함수는 주어진 데이터와 클러스터의 수 K를 인자로 받아, 군집화된 결과를 반환합니다.

 

예시 코드:

# 예시 데이터 생성
set.seed(123)
data <- matrix(rnorm(100 * 2), ncol=2)

# K-평균 군집화 실행 (K=3으로 설정)
result <- kmeans(data, centers=3)

# 군집화 결과 출력
print(result$cluster)

 

3. 분석결과 해석하는 법

K-평균 군집화의 결과는 주로 각 데이터 포인트가 어떤 클러스터에 할당되었는지를 나타내는 클러스터 번호와, 각 클러스터의 중심점 좌표로 표현됩니다.
`result$cluster`는 각 데이터 포인트의 클러스터 번호를, `result$centers`는 클러스터의 중심점 좌표를 반환합니다.
이 결과를 통해 데이터의 분포와 클러스터링 패턴을 시각적으로 분석하거나, 다른 통계적 분석에 활용할 수 있습니다.

 

예시 코드 결과 해석:

# 중심점 좌표 출력
print(result$centers)

# 이 결과를 통해 각 클러스터의 특성과 중심을 파악할 수 있습니다.
# 또한, `result$tot.withinss`를 사용하여 군집화의 품질을 평가할 수 있습니다. 
# 이 값은 클러스터 내의 제곱 거리의 합을 나타내며, 값이 작을수록 군집화의 품질이 좋다고 판단할 수 있습니다.

 

 

아래 포스팅도 참고해 보세요!

 R의 기본 개념, 예시코드와 알아보는 리스트(List)
 R에서의 주석 처리 기법
 RStudio 단축키 모음
 R에서 데이터 정렬하기
 R에서 데이터 변수 위치 바꾸는 법(데이터 프레임의 컬럼 위치 변경)
반응형