R에서 t-test하는 방법

통계/R / / 2023. 2. 20. 17:43
반응형

R은 데이터 분석을 위한 인기있는 프로그래밍 언어 중 하나입니다. R은 무료로 사용할 수 있으며, 강력한 통계 분석 기능을 제공합니다. t-test는 통계 분석에서 가장 기본적인 분석 중 하나이며, R에서 t-test를 수행하는 방법을 알아보겠습니다.


t-test란?


t-test는 두 집단 간의 평균값이 유의미하게 다른지 여부를 검정하는 데 사용됩니다. 예를 들어, 한 그룹이 어떤 치료를 받고 다른 그룹은 그렇지 않은 경우, 두 그룹 간의 평균값이 유의미하게 다르다면, 치료의 효과가 있는지 여부를 판단할 수 있습니다. t-test는 분산이 정규분포를 따르는 경우에 사용할 수 있으며, 일반적으로 "귀무가설"과 "대립가설"을 설정합니다.

  • 귀무가설 (H0): 두 그룹의 평균값이 같다.
  • 대립가설 (H1): 두 그룹의 평균값이 다르다.

귀무가설이 지지되는 경우에는 두 집단 간 차이는 없다 라고 할 수 있으며, 대립가설이 지지되는 경우에는 두집단 간 차이가 있다라고 할 수 있습니다.


t-test를 수행하는 방법


R에서 t-test를 수행하는 방법은 다음과 같습니다.

 

데이터 준비

 

우선, t-test를 수행하기 위해서는 두 개 이상의 집단의 데이터가 필요합니다. 각 집단의 데이터를 R에서 로드할 수 있습니다. 예를 들어, "Group1"과 "Group2"라는 두 그룹의 데이터를 생성하려면 다음과 같이 합니다.

 

# 샘플 데이터 생성
Group1 <- c(8, 9, 10, 11, 12)
Group2 <- c(11, 12, 13, 14, 15)

 

t-test 함수

R에서 t-test를 수행하는 데에는 여러 함수가 있지만, 가장 일반적으로 사용되는 함수는 t.test()입니다. t.test() 함수를 사용하여 t-test를 수행할 수 있습니다. 함수의 구문은 다음과 같습니다.

 

t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), 
		mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95)
  • x: 첫 번째 그룹의 데이터.
  • y: 두 번째 그룹의 데이터 (옵션).
  • alternative: 대립가설을 지정합니다. "two.sided"는 두 그룹의 평균이 서로 다르다는 것을 의미하며, "less"는 첫 번째 그룹의 평균이 더 작다는 것을, "greater"는 첫 번째 그룹의 평균이 더 크다는 것을 의미합니다.
  • mu: 귀무가설에서 설정한 평균값입니다. 기본값은 0입니다.
  • paired: TRUE인 경우, 쌍체 t-test를 수행합니다. FALSE인 경우, 독립 t-test를 수행합니다. 기본값은 FALSE입니다.
  • var.equal: 두 그룹의 분산이 같은 경우 TRUE를 설정합니다. 기본값은 FALSE입니다.
  • conf.level: 신뢰구간을 설정합니다. 기본값은 0.95입니다.

t-test 수행

t-test를 수행하려면 t.test() 함수를 사용합니다. 예를 들어, "Group1"과 "Group2"라는 두 그룹의 데이터가 있다고 가정하면, 다음과 같이 t-test를 수행할 수 있습니다.

 

# t-test 수행
t.test(Group1, Group2)

t-test 결과는 다음과 같이 출력됩니다.

 

	Welch Two Sample t-test

data:  Group1 and Group2
t = -4.5826, df = 6.958, p-value = 0.002943
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -4.547674 -1.252326
sample estimates:
mean of x mean of y 
      10       13


t-test 결과는 여러 가지 정보를 제공합니다. t 값은 t-test 통계량을 나타내며, df 값은 자유도(degree of freedom)를 나타냅니다. p-value 값은 유의확률을 나타내며, 귀무가설이 기각되는 기준이 됩니다. 95 percent confidence interval은 95% 신뢰구간을 나타냅니다. mean of x와 mean of y는 각각 첫 번째 그룹과 두 번째 그룹의 평균값을 나타냅니다.

t-test 결과 해석

t-test 결과를 해석할 때는 주로 p-value 값을 확인합니다. p-value 값이 0.05보다 작으면, 귀무가설을 기각하고 대립가설을 채택합니다. 즉, 두 그룹 간의 평균값이 유의미하게 다르다는 것을 의미합니다. 반대로, p-value 값이 0.05보다 크면, 귀무가설을 기각하지 않고, 두 그룹 간의 평균값이 유의미하게 다르지 않다는 것을 의미합니다.

t-test 결과에서 t 값이 음수이면, 첫 번째 그룹의 평균값이 더 작다는 것을 의미합니다. 반대로, t 값이 양수이면, 첫 번째 그룹의 평균값이 더 크다는 것을 의미합니다.

또한, 신뢰구간을 통해 두 그룹의 평균값 차이의 범위를 추정할 수 있습니다. 예를 들어, 위 예제에서는 "95 percent confidence interval"이 [-4.547674, -1.252326]로 나타나므로, 두 그룹의 평균값 차이가 이 범위 내에 있다는 것이 95% 확률로 예측됩니다.

결론

이번 글에서는 R을 사용하여 t-test를 수행하는 방법에 대해 알아보았습니다. t-test는 두 그룹 간의 평균값 차이가 유의미한지 여부를 검정할 때 사용되는 통계적 방법 중 하나입니다. R에서는 t.test() 함수를 사용하여 t-test를 수행할 수 있습니다.

t-test 결과에서는 t 값과 p-value 값이 중요합니다. t 값은 두 그룹의 평균값 차이가 유의미한지 여부를 나타내며, p-value 값은 귀무가설을 기각할 수 있는지 여부를 나타냅니다. 또한, t-test 결과에서는 신뢰구간을 통해 두 그룹의 평균값 차이의 범위를 추정할 수 있습니다.

t-test는 데이터 분석에서 매우 중요한 통계적 방법 중 하나입니다. 따라서, t-test에 대한 이해와 R을 사용하여 t-test를 수행하는 방법을 숙지하는 것은 데이터 분석을 위한 필수적인 능력 중 하나입니다.

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기