Skip to content
Home » 분산 분석 예제 | 분산분석 (Anova) F 통계량 계산 예제 상위 248개 답변

분산 분석 예제 | 분산분석 (Anova) F 통계량 계산 예제 상위 248개 답변

당신은 주제를 찾고 있습니까 “분산 분석 예제 – 분산분석 (ANOVA) F 통계량 계산 예제“? 다음 카테고리의 웹사이트 kk.taphoamini.com 에서 귀하의 모든 질문에 답변해 드립니다: https://kk.taphoamini.com/wiki. 바로 아래에서 답을 찾을 수 있습니다. 작성자 슬기로운통계생활 이(가) 작성한 기사에는 조회수 790회 및 좋아요 9개 개의 좋아요가 있습니다.

일원분산분석(one-way ANOVA) 예시 모음
  • 예시 1) 세 반의 수학 점수 비교 A,B,C 반은 각 30명으로 구성되어 있다. …
  • 예시2) 세 두통 약의 효과 비교 제약회사에서 세 종류의 두통약을 개발했다. …
  • 예시3) 생산월에 따른 옷의 치수 비교

분산 분석 예제 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 분산분석 (ANOVA) F 통계량 계산 예제 – 분산 분석 예제 주제에 대한 세부정보를 참조하세요

간단한 데이터를 가지고, F 통계량 (statistic)을 구해보는 예제입니다.

분산 분석 예제 주제에 대한 자세한 내용은 여기를 참조하세요.

【통계학】 15강. 분산분석(ANOVA) – 정빈이의 공부방

【통계학】 15강. 분산분석(ANOVA) · ) [목차] · 일원배치 분산분석 예제 · 통계량 증명 · 모집단들은 동일한 분산을 가짐 · 전체 지역을 여러 가지 지역으로 …

+ 여기에 더 보기

Source: nate9389.tistory.com

Date Published: 5/28/2022

View: 74

[내가 하는 통계 분석] 분산 분석(ANOVA, Analysis of Variance …

데이터 불러오기 data = read.csv(“C:/Users/USER/Desktop/새 폴더/예제 파일/07. [산격동 너구리] ANOVA 예제.csv”, header= T).

+ 자세한 내용은 여기를 클릭하십시오

Source: lunch-box.tistory.com

Date Published: 5/27/2022

View: 217

분산분석 예제: 새 기계의 생산량 (2)

Analyze (분산분석). Six Sigma … 분산분석 예제: 음료수 색상과 판매량. 1. 총변동 … 우리는 사용하는 도구 : 분산분석의 제곱 합 (ANOVA).

+ 자세한 내용은 여기를 클릭하십시오

Source: contents.kocw.or.kr

Date Published: 5/12/2022

View: 2276

ANOVA-일원 분산 분석(예제로 정리) – 카타로그의 일상생활 ㅋ

ANOVA-일원 분산 분석(예제로 정리). 카타로그z 2013. 7. 25. 17:48. 항상 실험때마다 햇갈리는 것중 하나는 ANOVA 대충 개념과 예제 정리로 남겨본다.

+ 더 읽기

Source: katarog.tistory.com

Date Published: 9/18/2022

View: 1272

분산분석 예제&해석 – 네이버 블로그

이와 반대로 남들과 비교하는 일을 좋아하는 통계분석이 있습니다. 바로 분산분석(Anova)입니다. 분산분석은 평균값을 기초로 여러 집단을 비교하고, …

+ 여기에 더 보기

Source: m.blog.naver.com

Date Published: 2/27/2021

View: 3933

분산 분석 (ANOVA) – BioinformaticsAndMe – 티스토리

분산 분석(ANOVA;변량 분석)은 3개 이상 다수의 집단을 비교할 때 사용하는 가설검정 방법 … 3. 일원분산분석(One-way ANOVA) 예제 …

+ 여기에 더 보기

Source: bioinformaticsandme.tistory.com

Date Published: 8/13/2021

View: 9279

일원 분산 분석 | 통계 소개 – JMP

일원 분산 분석(ANOVA)은 셋 이상의 그룹 평균 차이를 검정하기 위한 통계적 방법입니다. 일원 분산 분석을 언제 … 일원 분산 분석 예제를 자세히 살펴보겠습니다.

+ 여기에 표시

Source: www.jmp.com

Date Published: 8/14/2022

View: 2371

주제와 관련된 이미지 분산 분석 예제

주제와 관련된 더 많은 사진을 참조하십시오 분산분석 (ANOVA) F 통계량 계산 예제. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

분산분석 (ANOVA) F 통계량 계산 예제
분산분석 (ANOVA) F 통계량 계산 예제

주제에 대한 기사 평가 분산 분석 예제

  • Author: 슬기로운통계생활
  • Views: 조회수 790회
  • Likes: 좋아요 9개
  • Date Published: 2020. 4. 25.
  • Video Url link: https://www.youtube.com/watch?v=hlwZ9SwJY9U

일원분산분석(one-way ANOVA) 예시 모음

반응형

분산분석은 셋 이상 집단의 평균을 비교할 때 사용하는 분석방법입니다. 종속변수와 독립변수의 개수에 따라 여러 방법으로 나뉩니다.

일원분산분석(One-way ANOVA)은 종속변수와 독립변수가 한개씩인 경우에 사용하는 분산분석입니다. 가장 기본적인 형태의 분산분석입니다.

귀무가설은 아래와 같습니다.

$H_{0}:\mu_{1}=\mu_{2}=\mu_{3}=…$

예시 1) 세 반의 수학 점수 비교

A,B,C 반은 각 30명으로 구성되어 있다. 세 반의 수학점수는 같은가 다른가?

독립변수 : 반

종속변수 : 수학점수

예시2) 세 두통 약의 효과 비교

제약회사에서 세 종류의 두통약을 개발했다. 출시는 가장 성능이 좋은 한 종류만 하려고 한다. 피험자 90명을 모집하고, 임의로 30명씩 나눴다. 각 그룹에게 서로 다른 종류의 두통약을 투여하고, 두통의 정도를 1~10으로 나타내도록 했다. 두통약의 효과에 차이가 있는가?

독립변수 : 약

종속변수 : 두통의 정도

예시3) 생산월에 따른 옷의 치수 비교

티셔츠를 판매하는 회사에서, 기입된 기장이 실제 기장과 다르다는 컴플레인이 많아지고 반품 건수도 늘어났습니다. 사실확인을 위해 3,4,5,6월에 생산된 티셔츠를 각각 30개씩 추출해서 기장을 측정했습니다. 3,4,5,6월에 생산된 티셔츠의 기장은 차이가 있는가?

독립변수 : 티셔츠 생산월

종속변수 : 기장

반응형

【통계학】 15강. 분산분석(ANOVA)

15강. 분산분석(ANOVA)

추천글 : 【통계학】 통계학 목차

a. R로 하는 분산분석

1. 분산분석(ANOVA, analysis of variance)

⑴ 정의 : n개의 집단을 비교하는 통계적 분석 (단, n > 2)

⑵ 제1종 오류의 누적(type Ⅰ error inflation) : n개의 집단에서 t 검정을 하는 경우 문제가 발생 (단, n > 2)

① 1개의 집단에서 제1종 오류가 발생하지 않을 확률 (유의수준 5%) : 0.95

② n개의 집단 모두 제1종 오류가 발생하지 않을 확률 (유의수준 5%) : 0.95n

③ 한 번이라도 제1종 오류가 발생할 확률(유의수준 5%) : 1 – 0.95n ≫ 0.05

④ 제1종 오류의 누적으로 인해 ANOVA가 대두됨

⑶ 가정 : one-way ANOVA, two-way ANOVA 모두에서 필요한 3대 가정

① 정규성(normality)

○ 정의 : 모든 데이터는 정규분포를 따르는 모집단들로부터 추출됨

○ 정규분포라고 보기 곤란한 경우 로그 변환을 사용하여 유사 정규분포로 만듦

○ (참고) 모집단들이라고 표현한 까닭은 모집단의 평균이 다를 수 있기 때문

Figure. 1. 로그 변환을 통해 유사 정규분포로 만드는 예

② 독립성(independency) : i.i.d.라고도 함

○ 정의 : 모든 데이터는 모집단들로부터 독립적으로 추출됨

○ 실험 디자인의 문제

○ (참고) 모집단들이라고 표현한 까닭은 모집단의 평균이 다를 수 있기 때문

③ 등분산성(homoscedasticity)

○ 정의 : 모든 데이터는 평균이 달라도 분산은 동일한 모집단들로부터 추출됨

○ 가장 큰 분산과 가장 작인 분산이 4 : 1을 넘지 않으면 분산분석을 사용해도 됨

○ 분산분석을 사용하기 곤란한 경우 제곱근 변환을 사용하여 분산의 차이를 최소화 함

○ (참고) 회귀분석의 등분산성은 각 X i 에 대해 Y i 의 분산이 같다는 것을 의미 : 약간의 의미 차이가 있음

○ (참고) 등분산성을 만족하지 않는 경우 Welch ANOVA를 적용해야 함

⑷ 강건성(robustness)

① 정의 : 많은 샘플수, 카테고리 내 동일 반복수 등을 만족 시 이분산성, 비정규성에서도 통계적 결론이 달라지지 않는 것

② ANOVA의 강건성 : 등분산성, 정규성이 엄격히 지켜지지 않아도 ANOVA가 잘 적용되는 것

③ (참고) 회귀분석의 강건성 : 회귀변수가 추가돼거나 변경되도 특정 계수의 값이 크게 달라지지 않는 것

⑸ (구별개념) 회귀분석, 교차분석

① 분산분석 : 독립변수는 범주형(분류형) 변수임. 종속변수는 측정형 변수임

② 교차분석 : 독립변수는 범주형(분류형) 변수임. 종속변수는 범주형(분류형) 변수임

③ 회귀분석 : 독립변수는 측정형 변수임. 종속변수는 측정형 변수임

2. 일원배치 분산분석(one-way ANOVA)

⑴ 정의 : 분산분석 중 종속변인이 1개, 독립변인이 1개인 경우

① 독립변인을 처리 효과 또는 인자라고 함

② 적절한 종속변인의 예 :{키}, {몸무게}(O)

③ 적절하지 않은 종속변인의 예 :{키, 몸무게} (X)

⑵ 일원 분산분석 모델

① 모델 1. 고정효과 모델링(fixed effect modeling)

○ 정의 : 특정 대상들의 효과를 비교해 보는 것. 즉 factor의 level이 정해져 있는 것

○ 방법 : 모집단에서 추출하는 행위를 요하지 않음. 사후검정 중요

○ 예 : 대조군, A 처리군, B 처리군

② 모델 2. 임의효과 모델링(random effect modeling)

○ 정의 : 모집단이 가지는 일반적인 경향을 보는 것. 즉 factor의 level이 랜덤한 것

○ 방법 : 모집단에서 임의로 추출하여 ANOVA 분석을 하는 것. 사후검정 불요

○ 예 : 공장의 주인이 공장 생산품의 중량이 모두 같은지 확인하고자 하는 경우

③ 일원 분산분석에서 고정효과와 임의효과는 동일한 계산과정을 거침

⑶ 문제 상황

요인 Group 1 Group 2 Group 3 표본 11 8 5 10 7 4 8 5 2 7 4 1 평균 9 6 3

Table. 1. 일원배치 분산분석 예제

① X̄ 1 = 9, X̄ 2 = 6, X̄ 3 = 3, X̄ = 6

② Group 1, Group 2, Group 3의 샘플 크기가 달라도 됨

⑷ 가설 설정

① H 0 : μ Group 1 = μ Group 2 = ··· = μ Group m = μ (단, 위 문제 상황에서 m = 3)

② H 1 : 적어도 한 쌍의 모평균은 같지 않음

⑸ F 통계량 유도

① 발상 : 그룹 내 분산이 그룹간 분산보다 명백히 작은 경우 표본집단 간 차이가 있다고 말할 수 있음

② 정의

③ 제곱합(SS, sum of squares)

④ 분산비 계산

○ 분산비(variance ratio) : F 비(F ratio)라고도 함

○ 그룹 간 분산(among-group variance) : 오류(error) 및 처리 효과(treatment effect)와 관련 있음

○ 그룹 내 분산(within-group variance) : 오류(error)와 관련 있음

⑤ 결과표

요인 제곱합 자유도 평균제곱 F 비 p 값 효과 72 2 36 10.8 0.0040583 오차 ( 잔차 ) 30 9 3.33 합계 102 11

Table. 2. 결과표

○ 오차 제곱합 = among-group variance + within-group variance = 72 + 30 = 102

○ 전체 자유도 = among-group variance의 자유도 + within-group variance의 자유도 = (k – 1) + (n – k) = n – 1

○ Group 변수는 수치가 아니므로 결정계수 계산은 무의미함

○ 보고 예시 : “A single-factor ANOVA showed a significant difference among the three treatments (Group 1, Group 2, and Group 3): F 2.9 = 10.8, p < 0.01”

○ 팁. 72, 30을 계산할 때 계산하는 항 수는 모두 12개임 (∵ 대칭성)

⑹ F 통계량 증명

① (참고) 표본집단과 표본분포

② 그룹 간 분산의 분포

③ 그룹 내 분산의 분포

④ 분산 비의 분포

⑺ 특징

① 각 그룹의 샘플 개수가 비슷해야 검정력이 높음

② 특정 그룹의 샘플 개수가 적으면 신뢰성이 의심됨

③ 대립가설을 기각한다고 하여 항상 pairwise t testing에서 한 쌍의 평균이 다르다는 결론이 나오는 것은 아님

④ pairwise t testing이 아닌 다른 사후검정(post hoc analysis, posterior analysis)을 통해 어느 그룹이 다른지 알 수 있음

⑻ Levene test : 이분산성(heteroscedasticity) 검정법

Figure. 2. Levene test의 예시

① 1st. 각 표본집단 평균에 대한 편차 절대값을 그룹별로 조사

○ Control : (8, 7, 7, 8)

○ Tumostat : (2, 1, 1, 2)

○ Inhibin 4 : (2, 1, 1, 2)

② 2nd. 세 개의 새로운 그룹에 대해 one-way ANOVA를 실시

③ 3rd. Control이 다른 두 개의 그룹에 비해 확실하게 큰 편차를 보여주고 있음 : 등분산성(homoscedasticity) 기각

⑼ 사후검정 : 기본적으로 다중비교(multiple comparison)로부터 응용된 것

① LSD, Bonferroni, Sidak, Tukey, Duncan, Dunnett, Scheffe, Student-Newman-Keuls, BH procedure 등

○ Scheffe, Tukey, Duncan, Student-Newman-Keuls를 가장 많이 씀

○ 셋 중 Scheffe가 가장 보수적이고 Duncan이 가장 느슨함

○ 자연과학 기준 : 일반적으로 Tukey를 먼저 시도하고 유의하지 않으면 Duncan을 사용

○ 사회과학 기준 : 일반적으로 Scheffe를 자주 사용함

② 예 : Tukey HSD(honestly significant difference)

○ 통계량

○ 검정

Figure. 3. 분산분석 이후 다중비교검정

○ 상황 1. 표본평균이 A > B > C > D > E

○ 상황 2. one-way ANOVA 결과 모든 평균이 같지 않음

○ 1st. A-E, A-D, A-C, A-B 순으로 Tukey 통계량으로 검정 : A-C가 유의하지 않으므로 A-B 검정은 생략

○ 2nd. B-E, B-D, B-C 순으로 Tukey 통계량으로 검정 : A-C가 유의하지 않으므로 B-C 검정은 생략

○ 3rd. C-E, C-D 순으로 Tukey 통계량으로 검정

○ 4th. D-E를 Tukey 통계량으로 검정

○ 크기순으로 정렬하지 않으면 총 10번을 검정하여 10번의 1종 오류가 누적

○ 위의 경우 8번의 1종 오류가 누적돼 약간 더 나은 상황

④ 사후검정 시 주의할 점

○ 예제

Control Neurohib Mitostep 7 4 1 8 5 2 10 7 4 11 8 5

Table. 3. 사후검정 예제

○ 결과

Figure. 4. 사후검정 주의사항

○ Control = Neurohib, Neurohib = Mitostop인데 Control ≠ Mitostop인 것은 제1종 오류 때문

○ 예 : A = B일 확률이 10%이고 B = C일 확률이 10%이면 A = B = C일 확률은 1%로서 유의하게 차이 있음

3. 이원배치 분산분석(two-way ANOVA)

⑴ 개요

① 정의 : 두 가지 독립변인, 한 가지 종속변인에 대해 분산분석을 시도하는 것

② 각 요인의 주효과(main effect)뿐만 아니라 이들의 상호작용도 관심대상임

③ 가정

○ 정규성 : 모집단들은 정규분포를 따름

○ 독립성 : 모집단으로부터 무작위적으로 표본을 추출함

○ 등분산성 : 모집단들은 동일한 분산을 가짐

○ 직교성(orthogonality) : 두 개의 요인이 서로 상관관계가 없을 것

○ 직교성을 만족함은 상호작용이 없음과 전혀 관련이 없음 : 개념의 차이를 이해해야 함

⑵ 상황 분류

Figure. 5. 두 가지 요인에 대한 실험결과 분류

⒜ 온도 효과 없음, 습도 효과 없음

⒝ 온도 효과 없음, 습도 효과 있음

⒞ 온도 효과 있음, 습도 효과 없음

⒟ 온도 효과 있음, 습도 효과 있음

⒠ 온도 효과 있음, 습도 효과 있음, 상호작용 있음

⑶ 이원 분산분석 모델

① 이원배치 분산분석에서 임의효과의 경우 다르게 계산돼야 하는 이유

Figure. 6. 이원배치 분산분석에서 임의효과의 경우 다르게 계산돼야 하는 이유

○ 상황 : B2, B4는 factor B에서 임의로 추출한 level

○ 예상 : A의 주효과가 모호해야 함

○ 실제 : 임의추출 효과로 인해 A의 주효과가 있는 것처럼 보임

② 모델 1. 고정효과 모델링(fixed effect modeling) : 두 factor의 level이 정해져 있는 것

요인 제곱합 자유도 평균제곱 F 비 A SS A df A = I-1 MS A = SS A ÷ df A F A = MS A ÷ MS E B SS B df B = J-1 MS B = SS B ÷ df B F B = MS B ÷ MS E A × B SS A×B df A×B = (I-1)(J-1) MS A×B = SS A×B ÷ df A×B F A×B = MS A×B ÷ MS E 오차 ( 잔차 ) SS E df E = n-IJ MS E = SS E ÷ df E 총합 SS T n-1

Table. 4. 고정효과 모델링 결과표

③ 모델 2. 임의효과 모델링(random effect modeling) : 두 factor의 level이 랜덤한 것

요인 제곱합 자유도 평균제곱 F 비 A SS A df A = I-1 MS A = SS A ÷ df A F A = MS A ÷ MS A×B B SS B df B = J-1 MS B = SS B ÷ df B F B = MS B ÷ MS A×B A × B SS A×B df A×B = (I-1)(J-1) MS A×B = SS A×B ÷ df A×B F A×B = MS A×B ÷ MS E 오차 ( 잔차 ) SS E df E = n-IJ MS E = SS E ÷ df E 총합 SS T n-1

Table. 5. 임의효과 모델링 결과표

④ 모델 3. 혼합효과 모델링(mixed effect modeling) : 한 factor의 level은 정해져 있고 다른 factor의 level은 랜덤한 것

요인 제곱합 자유도 평균제곱 F 비 A SS A df A = I-1 MS A = SS A ÷ df A F A = MS A ÷ MS A×B B SS B df B = J-1 MS B = SS B ÷ df B F B = MS B ÷ MS E A × B SS A×B df A×B = (I-1)(J-1) MS A×B = SS A×B ÷ df A×B F A×B = MS A×B ÷ MS E 오차 ( 잔차 ) SS E df E = n-IJ MS E = SS E ÷ df E 총합 SS T n-1

Table. 6. 혼합효과 모델링 결과표

○ A가 고정효과이고 B가 임의효과인 상황

○ 팁. 아래 지분분산분석 예제와 비교하면서 이해할 것

⑷ 예제 : 고정효과 모델링

Humidity (%) Temperature ( ℃ ) 20 30 40 33 1 5 9 2 6 10 3 7 11 66 9 13 17 10 14 18 11 15 19 99 17 21 25 18 22 2 6 19 23 27

Table. 7. 이요인 분산분석 예제

① 정의

② 제곱합(sum of squares)

③ 분산비 계산

④ 결과표

요인 제곱합 자유도 평균제곱 F 비 p 값 온도 288 2 144 144 8.43e-12 습도 1152 2 576 576 < 2e-16 온도 × 습도 0 4 0 0 1 오차 ( 잔차 ) 18 18 1 합계 1464 26 Table. 8. 결과표 ○ 귀무가설 1. μ 20℃ = μ 30℃ = μ 40℃ = μ : p value = 8.43e-12 < 0.05이므로 기각 ○ 귀무가설 2. μ 33% = μ 66% = μ 99% = μ : p value < 2e-16 < 0.05이므로 기각 ○ 귀무가설 3. 온도와 습도의 상호작용 = 0 : p value = 1이므로 인용 ○ 결정계수 = 1 - 18 ÷ 1464 = 0.987704918 ○ 상관계수 = ± √ 0.987704918 = 0.993833445 ○ 기울기의 추정량의 부호에 따라 상관계수의 부호가 결정됨 ⑤ 상호작용은 주효과를 모호하게 하므로 유의한 상호작용이 있을 때 F 값을 믿으면 안 됨 ○ 예를 들어 물질 A는 유전자 발현을 촉진하고 물질 B는 유전자 발현을 억제하는 경우 ○ 물질 A와 물질 B를 동시에 처리하면 유전자 발현에 큰 변화가 없음 ○ 그렇지만 A, B 모두 효과가 없는 게 아님 ⑸ 응용 1. 반복이 없는 테스트(test without replication) ① 개요 ○ 일원배치 분산분석에서는 불가능 ○ 실험 개체수가 부족하거나 비용이 많이 드는 경우에 사용 ② 예시 Radiation Level Drug 평균 Proshib Testosblock Control Low 81 76 79 78.67 Medium 45 46 45 45.33 High 28 27 27 27.33 평균 51.33 49.67 50.33 50.44 Table. 9. 반복이 없는 분산분석 예제 ③ 결과표 요인 제곱합 자유도 평균제곱 F 비 p 값 Drug 4070.222 2 2035.111 832.546 5.74e-06 Radiation 4.222 2 2.111 0.864 0.488 오차 ( 잔차 ) 9.778 4 2.444 합계 4084.222 8 Table. 10. 반복이 없는 분산분석 결과표 ○ 반복이 없는 분산분석은 상호작용 항을 절대 포함시키면 안 됨 ○ 상호작용 항을 포함시키면 잔차의 자유도 = (RC - 1) - (R - 1 + C - 1 + (R - 1)(C - 1)) = 0이 되어 F 비 계산 불가 ⑹ 응용 2. 임의 블록 실험설계(randomized block experimental design) : 반복이 없는 분산분석의 예시 ① 정의 : 지역을 여러 개의 블록으로 나눈 뒤, 각 블록을 다시 세분화하여 특정 요인에 대해 상이하게 실험 Figure. 7. 임의 블록 실험설계 ○ 이원배치 분산분석 가능 : 블록의 지역 특이적 요인과 treatment 요인의 두 가지 요인 ○ 목적 : 지역 특이적 요인을 분리하여 treatment의 통계적 결론의 신뢰성을 높이기 위함 ② 과정 ○ 1st. 전체 지역을 여러 가지 지역으로 나눔 ○ 2nd. 각 지역에 블록 넘버를 임의로 배정 ○ 3rd. 각 블록을 treatment의 level의 수만큼 서브 블록으로 나눔 ○ 4th. 서브 블록에서 treatment의 level의 위치를 랜덤하게 할당 ○ 5th. 각 블록 내 각 treatment에 대해 반복측정을 함 ○ 6th. 블록 요인이 유의성을 보이면 지역 특이적인 요인이 분명하게 존재했음을 알 수 있음 ○ 지역 특이적인 요인 : 지하수의 존재 유무, 일광의 차이, 지하 광맥의 유무 등 ③ 결과 Table. 11. 임의 블록 실험설계 결과 ⑺ 응용 3. 지분 분산분석(nested analysis of variance) ① 유사 이원 분산분석 : 실제로는 일원 분산분석으로 분류됨 ② 예제 ○ 문제 상황 Prawn Food + Vitamin A Prawn Food Pond 1 Pond 2 Pond 3 Pond 4 30 60 80 110 35 65 85 115 45 75 95 125 50 80 100 130 Table. 12. 지분 분산분석 문제 상황 Figure. 8. 지분 분산분석 문제 상황 ○ F 통계량 계산 요인 제곱합 자유도 평균제곱 F 비 p 값 Diet 10000.0 1 10000.0 5.556 0.143 Pond(Diet) 3600.0 2 1800.0 21.600 0.000 오차 ( 잔차 ) 1000.0 12 83.3 합계 14600.0 14 Table. 13. 지분 분산분석 F 통계량 계산 ○ 실제 계산 : 10000, 3600, 1000을 계산할 때 우변의 항 수는 모두 16개임 (∵ 대칭성) ③ 임의 블록 실험 설계와 유사해 보이지만 분명한 차이점이 존재 ○ 차이 1. Pond 1, Pond 2, Pond 3, Pond 4를 어떤 블록으로 분류할 수 없음 ○ 차이 2. 기본적으로 이원 분산분석의 가정인 직교성을 만족하지 않음 : Diet와 Pond(Diet)는 orthogonal하지 않음 ○ 차이 3. 자유도 계산이 다름 : Pond(Diet)의 자유도는 Pond 1 ↔ Pond 2와 Pond 3 ↔ Pond 4로 총 2임 ○ 위 예제에서 임의 블록 실험 설계를 하는 경우 블록에 대한 자유도는 1임 ○ 임의 블록 실험 설계는 오차의 자유도를 증가시켜서 F 비가 증가함 (검정력 증가) ○ 지분 분산분석이 아니라 임의 블록 실험 설계를 지향하는 이유 ○ 차이 4. Pond(Diet)를 독립적인 factor로 보지 않고 Pond × Diet처럼 계산 입력 : 2019.11.16 17:36 반응형

[내가 하는 통계 분석] 분산 분석(ANOVA, Analysis of Variance) in R

반응형

안녕하세요, 산격동 너구리입니다.

이번 포스팅은,

R을 이용한 “분산 분석(Analysis of Variance)”입니다.

주로 앞 글자를 따서 ANOVA로 부르는데,

한글 이름이 더 어색할 정도로 ANOVA로 많이 알고 계실거에요.

개요

분산 분석(ANOVA)이란??

3개 이상의 집단에 대한 평균 검정

가정

정규성 가정 : 각각의 그룹에서 표본은 정규성을 가진다.

등분산성 가정 : 각 집단의 분산은 서로 동일해야 한다.

독립성 가정 : 표본은 서로 독립적이어야 한다.

가설

$H_0$ : 모든 모집단의 평균은 동일하다.

$H_1$ : 모든 모집단의 평균이 동일한 것은 아니다.

예제

07. [산격동 너구리] ANOVA 예제.csv 0.00MB

A, B, C 고등학교 학생들의 하루 공부 시간을 조사했을 때,

고등학교 간에 공부 시간이 차이가 있는지 확인해보겠습니다.

위의 파일을 이용하였고, 통계적 유의수준은 0.05로 두었습니다.

데이터 불러오기

## 데이터 불러오기 data = read.csv(“C:/Users/USER/Desktop/새 폴더/예제 파일/07. [산격동 너구리] ANOVA 예제.csv”, header= T)

가정

1. 정규성 가정 확인

# 1) 정규성 가정 shapiro.test(subset(data, group == ‘A’)$time) shapiro.test(data[data$group == ‘B’, ‘time’]) shapiro.test(data[data$group == ‘C’, ]$time)

모든 그룹에서 p-value가 0.05보다 크므로 귀무가설을 채택합니다.

따라서, 모든 그룹에서 정규성 가정을 만족하는 것으로 판단할 수 있습니다.

2. 등분산성 가정 확인

# 2) 등분산성 가정 library(lawstat) levene.test(data$time, data$group, location = “mean”) # p-value = 0.801 > 0.05

p-value가 0.05보다 크므로 귀무가설을 채택합니다.

따라서, 세 그룹의 분산은 동일한 것으로 판단할 수 있습니다.

3. 독립성 가정 확인

제가 알기로는 독립성 가정을 확인하는 검정은 따로 없습니다.

독립성 가정은 말 그대로 두 그룹이 독립적인지를 의미하는 것이므로

표본 추출방법에 따라 만족하는지 판단해주시면 됩니다.

가설

$H_0$ : 세 고등학교 학생들의 평균 학습 시간은 전부 같다.

$H_1$ : 세 고등학교 학생들의 평균 학습 시간이 전부 같은 것은 아니다.

예제를 위해 임의로 지정한 가설입니다.

상황에 맞추어 적절히 변형하시길 바랍니다.

ANOVA

## ANOVA model_fin = aov(time ~ group, data = data) summary(model_fin)

“group”변수에 대한 p-value가 0.05 미만이므로 귀무가설을 기각합니다.

따라서, “세 고등학교 학생들의 평균 공부시간에는 유의한 차이가 있다”라는 결론을 낼 수 있습니다.

이 때, 모든 고등학교가 서로 유의한 차이를 가질 수도 있지만,

하나의 고등학교만 유의한 차이를 보일 수도 있죠.

하지만, ANOVA의 결과만으로는,

세 고등학교 중 어느 고등학교가 유의한 차이를 보이는지에 대해서는 정확히 알 수가 없습니다.

이 때 사용하는 것이 사후분석입니다.

그 중 하나인 scheffe 방법으로 해보겠습니다.

사후 분석

## 사후 분석 # scheffe 방법 library(agricolae) scheffe.test(model_fin, “group”, alpha = 0.05, console = T)

맨 마지막에 보면, C는 ‘a’그룹으로, B와 A는 ‘b’ 그룹으로 분류되어있습니다.

따라서,

“C 고등학교 학생들의 공부시간이 A, B 고등학교 학생들의 공부시간보다 유의하게 높음”을 알 수 있으며,

“A, B 고등학교 학생들의 공부 시간은 유의한 차이가 없음”을 확인할 수 있습니다.

이것으로 R을 이용한 분산 분석(ANOVA)에 대해 마치도록 하겠습니다.

이상, 산격동 너구리였습니다.

감사합니다.

* 잘못된 정보 및 오타가 포함되어 있을 수 있습니다.

그대로 받아들이시기보다는 다른 사람의 의견도 참고하셔서 분석하시길 바랍니다.

* 포스팅 내용 및 통계 분석 관련 질문은 언제나 환영입니다.

가능한 선에서 최대한 답변하도록 하겠습니다.

반응형

분산분석 예제&해석

어린이들이 가장 싫어하는 일은 다른 아이들과 비교하여 야단치는 일입니다. 이와 반대로 남들과 비교하는 일을 좋아하는 통계분석이 있습니다. 바로 분산분석(Anova)입니다. 분산분석은 평균값을 기초로 여러 집단을 비교하고, 이들 집단간에 차이점이 있는지 가설 검정을 통해서 상관관계를 파악하는 통계 분석 기법입니다

분산분석은 복잡하고 다양한 사회현상들을 비교․분석하여 현실의 흐름을 파악하는데 주로 사용합니다. 그러나 무작정 모두 다 비교 분석을 할 수 있는 것은 아닙니다. 가령 코흘리개 어린아이와 어른의 100m달리기 기록을 비교하는 것은 아무런 가치가 없습니다. 신체적 조건에 의해 어른이 이길 게 뻔하기 때문이죠. 분산 분석에서는 비교의 조건과 기준을 정확하게 설정해야 합니다. 이때 비교하고자 하는 대상 집단은 제한적이어야 합니다.

비교에도 원칙이 있다

분산 분석(Anova)에서 비교하고자 하는 대상은 독립변수라고 합니다. 독립변수는 다른 변수의 변화와 관계없이 스스로 하나의 독립적인 변수를 말합니다. 분산 분석에서 비교 대상이 되는 독립변수의 변수값 범위이 제한적이고, 명목 데이터(성별, 학력, 직업, 종교별 등)의 성향을 가지고 있어야 합니다. 그리고 순위 데이터의 성향을 가진 변수도 분산 분석의 독립변수가 될 수 있습니다.

비교의 기준이 되는 변수는 수치화하기 쉬워야 하며 수치화한 데이터의 내용도 다양해야 합니다. 이 비교의 기준을 분산 분석에서는 종속변수라고 정의합니다. 종속변수는 독립변수의 변화에 따라 변수의 값이 변하는 변수를 말합니다. 분산분석에서 사용하는 종속변수는 비율 데이터(월소득 액수, 만족지수, 행복지수, 평가점수)의 성향이나 등간데이터의 성향은 반드시 가지고 있어야 합니다.

종속변수는 등간․비율척도이고 독립변수는 명목이나 순서척도

예를 들어 ‘현 정부의 경제적 위기 대처 능력’에 대한 평가를 학력별로 조사한다면 중졸이상, 고졸, 대졸, 대졸이상으로 구분한 학력은 독립변수가 되며 경제위기의 대처능력 평가도는 종속변수가 됩니다.

분산분석은 비교대상이 되는 집단의 평균값을 먼저 비교합니다. 그리고 비교한 집단간의 평균값이 차이가 단순한 숫자상의 차이인지, 아니면 통계상에 의미가 있는 차이인지를 분석해줍니다. 즉, 평균값을 비교 분석함으로써 집단간의 상관관계를 확실하게 파악할 수 있습니다.

F 값은 두 개 이상 복수의 집단을 대상으로 하여 각 집단의 평균을 서로 비교하는 분산 분석의 검정 통계값 입니다. F값의 계산 논리는 다음과 같습니다.

F 값을 구하기 위해 학력수준에 따라 ‘현 정부의 경제적 위기 대처 능력’에 대한 평가가 어떻게 분포되는지를 다음의 설문조사를 실시하여 다음과 같은 결과를 도출했습니다.

IMF 경제위기 극복을 위한 현 정부의 국정수행능력과 관련된 다음 사 항 을 어떻게 평가하십니까? 해당하는 점수 항목의 번호를 적어주십시오. ① 매우 만족 (5점) ② 다소 만족(4점) ③ 보통이다(3점) ④ 다소 불만족(2점) ⑤ 매우 불만족보(1점) ③ 현 정부의 경제적 위기 대처능력 ( )

일련번호 학력 대처능력 평가 일련번호 학력 대처능력 평가 001 대졸 4 006 고졸 3 002 대졸 2 007 고졸 4 003 대졸 3 008 고졸 5 004 대졸 3 009 고졸 5 005 대졸 5 010 고졸 4 대졸 평균값 3.4 고졸 평균값 4.2 전체 평균값 3.8(다소 불만족 경향)

1. F값의 계산 논리는 제곱합의 개념부터 알아야합니다. 먼저 대졸자와 고졸자 각각에 대한 집단내 제곱의 합과 전체 제곱의 합을 구해봅시다.

일련번호 학력 대처 능력 평가 집단 내 제곱의 합 (대처능력평가-집단평균)² 전체 제곱의 합 (대처능력평가-전체평균)² 001 대졸 4 (4-3.4)²=0.36 (4-3.8)²=0.04 002 대졸 2 (2-3.4)²=1.96 (2-3.8)²=3.24 003 대졸 3 (3-3.4)²=0.16 (3-3.8)²=0.64 004 대졸 3 (3-3.4)²=0.16 (3-3.8)²=0.64 005 대졸 5 (5-3.4)²=2.56 (5-3.8)²=1.44 합 계 5.2 6

일련번호 학력 대처 능력 평가 집단 내 제곱의 합 (대처능력평가-집단평균)² 전체 제곱의 합 (대처능력평가-전체평균)² 006 고졸 3 (3-4.2)²=1.44 (3-3.8)²=0.64 007 고졸 4 (4-4.2)²=0.04 (4-3.8)²=0.04 008 고졸 5 (5-4.2)²=0.64 (5-3.8)²=1.44 009 고졸 5 (5-4.2)²=0.64 (5-3.8)²=1.44 010 고졸 4 (4-4.2)²=0.04 (4-3.8)²=0.04 합 계 2.8 3.6

2. 독자들의 이해를 돕기 위하여 대졸자와 고졸자 각각에 대한 집단내 제곱의 합과 전체 제곱의 합을 구해보았다. 그러면 대졸자와 고졸자 모두가 공유하는 집단내의 제곱합과 전체 제곱의 합을 구해보도록 하자.

내용 학력 합계 대졸 고졸 집단 내 제곱의 합 5.2 2.8 8 전체 제곱의 합 6 3.6 9.6

3. 두 집단간 제곱의 합은 전체 제곱의 합에서 집단내 제곱의 합을 빼주면 된다. 도표로 정리하면 다음과 같다.

집단 간 제곱의 합 = 전체 제곱의 합- 집단 내 제곱의 합 (1.6) (9.6) – (8)

4. 우리는 앞에서 교차분석을 카이자승 검정 할 때 필요한 것이 자유도라고 배웠습니다. 이와 마찬가지로 분산분석의 자유도는 한글 SPSS에서 계산된 F값과 부록의 F-분포표에 나온 F값을 비교할 때 쓰입니다. 자유도를 알아야 F-분포표에서 F값을 손쉽게 찾을 수 있습니다.

F값 자유도 공식 자유도 = 집단간 자유도, 집단내 자유도 집단간 자유도 = 집단수 – 1 집단내 자유도 = 전체 표본수 – 집단수 전체의 자유도 = 전체 표본수 – 1

예를 들어 현 정부의 경제적 위기 대처 능력평가를 학력별(고졸, 대졸,)로 10명을 대상으로 하여 조사 연구를 실시하였습니다. 가설검증의 기준이 되는 자유도를 구해보세요.

집단간 자유도 = 2 – 1 = 1

집단내 자유도 = 10 – 2= 8

전체의 자유도 = 10 – 1= 9

부록에 있는 F-분포표에서 df1은 집단간 자유도를 의미라고 df2 는 집단내 자유도를 의미합니다. 그리고 전체 자유도는 집단내 자유도와 집단간의 자유도의 합과 항상 똑같습니다.

4. 제곱의 합과 자유도를 합성하여 평균의 제곱을 구할 수 있다. 평균의 제곱은 제곱의 합을 자유도로 나누어 계산하면 됩니다. 전체 자유도는 집단내 자유도와 집단간의 자유도의 합과 항상 똑같습니다.

내용 제곱의 합 자유도 평균의 제곱 집단 간 1.6 1 1.6 집단 내 8 8 1 전체 9.6 9

5. 마지막으로 F값을 구해봅시다. F값은 집단간 평균의 제곱을 집단내의 평균의 제곱으로 나누어 계산하면 됩니다. 공식으로 설명하면 다음과 같습니다. 어렵죠! 어려우면 “흐르는 강물처럼” 이 정도만 알고 그냥 넘어가세요. 한글 SPSS가 알아서 복잡한 공식을 대신 계산해주니까요. 독자 여러분께서는 F값 계산의 기본원리만 이해하셔도 분산분석을 사용하는데 큰 지장이 없습니다. F값의 기본원리만 이해하고 한글 SPSS 통계박사에게 계산을 맡겨서도 됩니다.

F값 공식 집단간 평균의 제곱/ 집단내의 평균제곱 = 1.6 (1.6) (1)

분산분석의 가설검증 절차

먼저 신뢰도를 결정해야 합니다. 신뢰도는 조사 담당자가 적용하는 가치판단의 영역임으로 신중하게 결정해야합니다. 일반적으로 95%의 신뢰도를 많이 사용합니다. 신뢰도를 설정하고 자유도를 계산한 후 F-분포표에서 기준이 되는 F값을 찾아냅니다. 그렇다면 F-분포표에서 해석 방법을 배워봅시다. 신뢰도를 95%(유의수준0.05%)로 설정하고 (1.8)기준이 되는 F-분포표 값은 5.32입니다.

한글 SPSS에서 계산된 F값과 기준이 되는 F값 분포표을 비교하여 크기를 판단합니다. 다만 SPSS에서 계산한 F값이 기준이 되는 F값 분포표보다 클 경우에만 통계학적으로 의미 있는 상관관계를 형성합니다.

자유도( df₁) α 자유도(df₂) 1 2 3 4 5 6 7 8 9 10 11 12 ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ 49.50 53.60 55.80 57.20 58.20 58.90 59.40 59.90 60.20 60.50 60.70 .10 1 200 216 225 230 234 237 239 241 242 243 244 .05 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39 9.40 9.41 .10 2 19.00 19.20 19.20 19.30 19.30 19.40 19.40 19.40 19.40 19.40 19.40 .05 99.00 99.20 99.20 99.30 99.30 99.40 99.40 99.40 99.40 99.40 99.40 .01 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 5.23 5.22 5.22 .10 3 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.76 8.74 .05 30.80 29.50 28.70 28.20 27.90 27.70 27.50 27.30 27.20 27.10 27.10 .01 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94 3.92 3.91 3.90 .10 4 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.94 5.91 .05 18.00 16.70 16.00 15.50 15.20 15.00 14.80 14.70 14.50 14.40 14.40 .01 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 3.30 3.28 3.27 .10 5 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.71 4.68 .05 13.30 12.10 11.40 11.00 10.70 10.50 10.30 10.20 10.10 9.96 9.89 .01 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 2.94 2.92 2.90 .10 6 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.03 4.00 .05 10.90 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.79 7.72 .01 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 2.70 2.68 2.67 .10 7 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.60 3.57 .05 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.54 6.47 .01 3.11 2.92 2.81 2.73 2.67 2.62 2.59 2.56 2.54 2.52 2.50 .10 8 5.32 ← ← ← ← ← ← ← ← ← .05 11.30 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.73 5.67 .01

신뢰도를 정확하게 판단하는 것이 조사연구의 생명

속담에 ‘‘무덤까지 들고 갈 비밀은 없다“는 말이 있습니다. 거짓말은 언젠가 밝혀진다는 이야기겠지요. 이와 마찬가지로 신뢰도를 고무줄처럼 늘려서 조사 연구 결과를 억지로 증명하려는 사람은 조사 연구의 사기꾼입니다. 신뢰도를 조작하여 ’의미 없는 통계‘가 ’의미 있는 통계‘로 바꾸었다고 칩시다. 어떤 결과가 초래될까요? 이것은 곧 여론을 왜곡하는 일입니다. 한마디로 사회적 범죄지요. 뿐만 아니라 결국 자기 자신도 피해자가 될 것입니다.

혹시 이러한 마음을 먹고 이 책을 사보신 독자가 있다면 당장 책을 덮어주십시오. 정직한 마음을 갖고 조사연구를 배워야 조사방법론을 제대로 활용할 수 있으니까.

영어 문장을 해석하는데도 규칙이 있고, 레스토랑에서 밥을 먹어도 그 나름대로의 식사규칙이 있습니다. 이처럼 세상 사물들은 모두가 자기 나름 데로의 규칙을 가지고 있습니다. SPSS 분석결과를 해석하는 데도 규칙이 있습니다. 규칙만 정확히 숙지하고 있다면 SPSS의 분석결과를 쉽게 해석해 낼 수 있습니다. ‘모로 가도 서울만 가면 된다’라는 속담이 있습니다. 물론 대충 적당히 넘어가자는 소리는 결코 아닙니다. 그러나 쉽게 갈 수 있는 길도 어렵게 갈 필요는 없습니다. 이제부터 설명하는 각종 해석 예제를 꼼꼼하게 살펴본다면 어떤 조사 연구 결과든 거뜬히 혼자서도 해석해 낼 수 있을 것입니다. 휘발유만 넣으면 모든 차는 움직이듯이 각기 다른 조사 연구를 진행했다하더라도 해석하는 원칙만 올바르게 적용한다면 모두 다 해석이 가능합니다. 치매 환자의 증세기간 중 증세 기간이 가장 많은 빈도수와 비율을 알아보고자 합니다. 그리고 치매 환자의 증세기간 분포 상태를 기술통계 분석을 이용하여 파악하고자 합니다. 실전 예제 문1) 현 보호기관의 입원 및 입소 전, 보호노인이 OO증세를 나타낸 기간은 어느정도입니까? ① 6개월 미만 ② 6개월-1년 미만 ③ 1-2년 미만 ④ 2-3년 미만 ⑤ 3-4년 미만 ⑥ 4-5년 미만 ⑦ 5년이상 1. 기술통계분석 이해하기 다음 설문에 대한 응답이 어떻게 나왔는지 살펴봅시다. 실전 예제 문1) 현 보호기관의 입원 및 입소 전, 보호노인이 OO증세를 나타낸 기간 은 어느정도입니까? ① 6개월 미만 ② 6개월-1년 미만 ③ 1-2년 미만 ④ 2-3년 미만 ⑤ 3-4년 미만 ⑥ 4-5년 미만 ⑦ 5년이상

통계량

증세기간

N 유효 98 결측 0 평균의 표준오차 .23 최빈값 1 표준편차 2.28 분산 5.18 왜도 .596 왜도의 표준오차 .244 첨도 -1.128 첨도의 표준오차 .483 범위 6 최소값 1 최대값 7

❶ 설문 응답자(빈도수)는 총 98명이며, 결측 및 무응답치는 0명입니다.

❷ 이 데이터는 명목 데이터이므로 평균값 측정은 최빈값으로 평가해야 합니다. 즉 최빈값이 1(6개월 미만)이므로 치매환자의 입소전 증세기간은 6개월 미만이 가장 많은 증세기간 이었습니다. .

❸ 왜도는 0.596으로 정(+)의 왜도이며 빈도 분포 곡선이 ‘최빈값→중위수→평균값’의 순으로 왼쪽에서 오른쪽으로 늘어져 있습니다.

❹ 첨도(Kurtosis)는 -1.128로서 부(-)의 첨도이며, 아주 비슷비슷한 값을 선택한 응답자가 많아서 빈도 분포 곡선이 편편하다는 것을 의미합니다.

❺ 최소값(Minimu)은 1(① 6개월 미만)이고, 최대값(Maximu)은 7(⑦ 5년이상 )입니다. 그리고 각각의 표준 편차, 분산이 나와 있으나, 명목형 데이터이므로 별다른 의미가 없습니다.

2. 치매환자 입소전 증세기간에 대한 빈도표 분석하기

증세기간

빈도 퍼센트 유효 퍼센트 누적퍼센트 유효 6개월미만 29 29.6 29.6 29.6 6개월-1년미만 15 15.3 15.3 44.9 1-2년미만 18 18.4 18.4 63.3 2-3년미만 9 9.2 9.2 72.4 3-4년미만 3 3.1 3.1 75.5 4-5년미만 3 3.1 3.1 78.6 5년이상 21 21.4 21.4 100.0 합계 98 100.0 100.0

빈도, 퍼센트, 유효 퍼센트(누락 데이터를 제외한 나머지 빈도수의 백분율), 누적 퍼센트 등을 표시하고 있습니다. 그리고 누락된 데이터가 없으면 퍼센트와 유효 퍼센트의 총합계 수치는 항상 100%으로 나타납니다. ‘6개월 미만’을 선택한 사례수(29명, 29.6%)가 최빈값과 마찬가지로 가장 많은 빈도수를 차지하는 것으로 나타나고 있습니다.

분산 분석 (ANOVA)

분산 분석 (ANOVA) Start

BioinformaticsAndMe

1. ANOVA (ANalysis Of VAriance)

: 분산 분석(ANOVA;변량 분석)은 3개 이상 다수의 집단을 비교할 때 사용하는 가설검정 방법

*’집단간분산(variance between groups)/집단내분산(variance within group)’ 기반의 F분포를 이용함

: 다수 집단 비교에서 t-test를 여러번 사용하면, 다중검정문제 발생으로 1종 오류가 증가하게 됨

→따라서, 다수 간의 평균 비교에서 ANOVA를 통해 유의한 차이를 검정

(A 그림) – ANOVA 분석 결과, 그룹 사이의 차이가 없음

(B 그림) – ANOVA 분석 결과, 그룹 사이의 유의한 차이가 존재

2. 분산분석 종류

ㄱ) 일원분산분석(One-way ANOVA)

– ‘독립변인 1개’ and ‘종속변인 1개’일 때, 집단 간의 유의미한 차이 검정

– ex) 한/중/일 국가간 학습기술에 따른 성적비교 (독립변인: 학습기술)

ㄴ) 이원분산분석(Two-way ANOVA)

– ‘독립변인 2개’ and ‘종속변인 1개’일 때, 집단 간의 유의미한 차이 검정

– ex) 한/중/일 국가간 성별과 운동량에 따른 체중비교 (독립변인: 성별/운동량)

ㄷ) 다원변량분산분석(MANOVA;multiple analysis of variance )

– ‘독립변인 1개’ and ‘종속변인 2개’일 때, 집단 간의 유의미한 차이 검정 (One-way MANOVA)

– ‘독립변인 2개’ and ‘종속변인 2개’일 때, 집단 간의 유의미한 차이 검정 (Two-way MANOVA)

ㄹ) 공분산분석(ANCOVA;analysis of covariance)

– 특정한 독립변인을 중점에 두고, 나머지 독립변인은 공변량(Covariates)으로 분석하는 방법

3. 일원분산분석(One-way ANOVA) 예제

: anorexia 거식증 환자데이터를 기반하여 일원분산분석 수행

→거식증 환자의 몸무게 변화 평균이, 세가지 치료방법(Control/CBT/FT)에 상관없이 동일한지를 검정

# aov 함수 사용 library(MASS) attach(anorexia) Change_dep <- Postwt - Prewt aov_result <- aov(Change_dep ~ Treat) #Change_dep: 종속변수, Treat: 설명변수 summary(aov_result) Df Sum Sq Mean Sq F value Pr(>F) Treat 2 615 307.32 5.422 0.0065 ** Residuals 69 3911 56.68 — Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

#p-value가 0.0065로 유의하므로 귀무가설을 기각하고, #치료방법에 따른 평균이 동일하지 않다고 결론 내림

# boxplot 비교 boxplot(Change_dep ~ Treat, col=rainbow(3))

4. 사후 검정 (Post-Hoc analysis;Follow-up test)

: 분산 분석에서 귀무가설 기각 시 모평균이 모두 같지 않다는 것은 알 수 있으나, 어느 집단 사이의 차이인지는 알 수 없음

→귀무가설 기각 시 구체적인 차이를 파악하기 위해, 사후 검정의 형태인 다중비교(Multiple comparison)가 필요함

→다중비교방법: Tukey검정/Scheff방법/최소유의차검정(LSD)

# TukeyHSD 함수로 사후 검정 수행 TukeyHSD(aov_result) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = Change_dep ~ Treat) $Treat diff lwr upr p adj Cont-CBT -3.456897 -8.327276 1.413483 0.2124428 FT-CBT 4.257809 -1.250554 9.766173 0.1607461 FT-Cont 7.714706 2.090124 13.339288 0.0045127

#사후 검정 결과 Control-CBT, FT-CBT 간에는 평균 차이가 없으나, #FT-Control 간에는 평균이 유의하게 차이난다고 결론 내림 # TukeyHSD 사후 검정결과 시각화 plot(TukeyHSD(aov_result))

#Reference

1) https://medium.com/greyatom/inferential-statistics-101-part-9-8bf8302337a2

2) https://namu.wiki/w/%EB%B6%84%EC%82%B0%20%EB%B6%84%EC%84%9D

3) https://ko.wikipedia.org/wiki/%EB%B6%84%EC%82%B0_%EB%B6%84%EC%84%9D

4) https://socialinnovation.tistory.com/m/142

5) https://m.blog.naver.com/PostView.nhn?blogId=khinv&logNo=220741292811&proxyReferer=https%3A%2F%2Fwww.google.com%2F

6) https://www.researchgate.net/figure/Graphical-representation-of-the-rationale-behind-the-analysis-of-variance-ANOVA-A_fig2_329788831

7) https://www.statology.org/understanding-the-differences-between-anova-ancova-manova-and-mancova/

8) https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/anorexia.html

분산 분석 (ANOVA) End

BioinformaticsAndMe

일원 분산 분석

일원 분산 분석은 그룹 평균의 차이에 대한 검정입니다.

일원 분산 분석은 3개 이상 모집단 평균이 동일하다는 귀무가설(H 0 ) 및 1개 이상 평균이 서로 다르다는 대립가설(H a )을 검정하는 통계적 방법입니다. k 평균에 관한 통계적 가설의 공식 표기법을 사용하여 다음을 작성합니다.

$ H_0:\mu_1=\mu_2=\cdots=\mu_k $

$ H_a:\mathrm{not\mathrm{\ }all\ means\ are\ equal} $

여기서 요인에 대한 $\mu_i$는 i번째 수준의 평균입니다.

그렇다면 어떤 상황에서 여러 모집단의 평균이 동일하거나 서로 다른지 여부를 판단해야 할까요? 일반적인 사례는 특정 독립 프로세스 변수가 해당 프로세스에 대한 중요한 결과의 동인이라고 의심하는 경우입니다. 예를 들어 생산 로트, 운영자 또는 원자재 배치가 생산 프로세스의 결과물에 얼마나 다른 영향을 주는지(품질 측정)에 의문을 가질 수 있습니다.

이러한 의문을 검정하기 위해 이 독립 변수(요인)의 3개 이상 변동(수준)을 사용하여 프로세스를 실행한 다음, 각 실행의 결과에서 관측치 표본을 선택할 수 있습니다. 분산 분석을 사용하여 각 관측치 그룹의 평균을 비교할 때 차이를 찾는 경우(모든 것을 정확하게 수행했다고 가정) 해당 의문이 정확했다는 근거가 있습니다. 조사한 요인이 결과에서 일정 역할을 하는 것 같습니다!

키워드에 대한 정보 분산 분석 예제

다음은 Bing에서 분산 분석 예제 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 분산분석 (ANOVA) F 통계량 계산 예제

  • 동영상
  • 공유
  • 카메라폰
  • 동영상폰
  • 무료
  • 올리기

분산분석 #(ANOVA) #F #통계량 #계산 #예제


YouTube에서 분산 분석 예제 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 분산분석 (ANOVA) F 통계량 계산 예제 | 분산 분석 예제, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

See also  만큼 영어 로 | 이~~~~만큼 ~~해 를 영어로 어떻게 표현하는지 알아보겠습니다! 인기 답변 업데이트

Leave a Reply

Your email address will not be published. Required fields are marked *