반응형

PCA분석은 다변량 데이터에서 주요 정보를 포착하는데 중요한 도구입니다. 복잡하고 다차원적인 데이터를 더 적은 차원으로 요약하여 주요 특성을 포착하며, 이는 데이터 시각화와 통찰력 있는 분석에 매우 유용합니다.

 

 

목차

 

1. PCA분석 이란

PCA(주성분분석)는 고차원 데이터의 차원을 축소하면서 데이터의 분산을 최대한 보존하는 방법입니다.
이는 복잡한 데이터를 더 간단하고 이해하기 쉬운 형태로 변환하는데 사용됩니다.
주성분분석은 각 데이터 포인트를 새로운 좌표계로 투영하는 것으로, 이 새로운 좌표계의 축(주성분)은 데이터의 분산이 최대인 방향을 나타냅니다.
첫 번째 주성분은 데이터의 가장 큰 분산을 가지며, 이후의 주성분은 첫 번째 주성분과 직교하면서 분산이 점차 작아지는 방향을 나타냅니다.
이 방법을 통해 데이터의 중요한 패턴과 구조를 파악할 수 있습니다.

 

2. R에서 PCA분석 하는 법

R에서 PCA를 수행하기 위해서는 기본적으로 제공되는 'prcomp'나 'princomp' 함수를 사용합니다.
가장 일반적인 함수는 'prcomp'입니다.
이 함수를 사용하면 데이터의 주성분을 쉽게 추출하고, 이를 바탕으로 시각화하거나 분석할 수 있습니다.
'prcomp' 함수는 데이터의 중심을 원점으로 이동시키므로 별도의 데이터 중심화 과정이 필요하지 않습니다.


# 예시코드
data(mtcars) # mtcars 데이터셋 로드
pca_result <- prcomp(mtcars[,1:7], scale=TRUE) # PCA 수행
summary(pca_result) # PCA 결과 요약

 

위의 코드는 mtcars 데이터셋에서 7개의 변수를 대상으로 PCA를 수행하는 예시입니다.
'scale=TRUE' 옵션을 사용하여 변수들을 표준화하였습니다.
결과는 'pca_result' 객체에 저장되며, 'summary' 함수를 사용하여 주성분별로 설명되는 분산의 비율을 확인할 수 있습니다.

 

3. 분석결과 해석하는 법

PCA의 결과 해석은 주로 고유값(eigenvalues), 고유벡터(eigenvectors) 및 주성분 점수를 통해 이루어집니다.
'summary(pca_result)'의 출력은 각 주성분별로 설명되는 분산의 비율을 나타냅니다.
이를 통해 어느 정도의 주성분까지 선택할 것인지 결정할 수 있습니다.


# 예시코드
plot(pca_result) # 주성분별 설명된 분산의 누적 그래프
biplot(pca_result) # biplot으로 주성분과 변수 시각화

 

'plot' 함수를 사용하면 주성분별로 설명되는 분산의 누적 그래프를 확인할 수 있습니다.
또한, 'biplot' 함수는 첫 두 주성분에 대한 데이터 포인트와 변수의 방향성을 함께 시각화하여 주성분의 특성을 이해하는 데 도움을 줍니다.

 

 

아래 포스팅도 참고해 보세요!

 [R] ggplot2로 쉽게 데이터 시각화하기
 R에서 데이터 변수 위치 바꾸는 법(데이터 프레임의 컬럼 위치 변경)
 R에서 컴퓨터를 끄는 방법
 Lavaan 패키지로 확인적 요인분석하기
 R에서 결측치 처리하기
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기