AI와 교육 - 로그 파일의 통계 분석 (1) 기술 통계
2024. 12. 16. 18:43ㆍRewire (공부)/Edutech 교육공학
반응형
로그 파일의 통계 분석 (Analyse statistique de fichiers log)
로그 파일의 통계 분석은 데이터를 이해하고 유의미한 결론을 도출하기 위해 기술 통계와 추론 통계를 포함한 다양한 접근법을 활용.
분석 방법은 변수의 특성과 데이터의 본질에 따라 달라진다.
1. 통계 기법의 유형 (Types d’analyses):
- 기술 통계 (Statistiques descriptives):
- 목적: 데이터를 요약하고 특성을 정리하여 전체적인 경향과 분포를 파악.
- 활용 예: 평균, 중앙값, 표준편차 계산으로 학습자 행동의 전반적인 특징 분석.
- 추론 통계 (Statistiques inférentielles):
- 목적: 데이터에 기반한 가설 검증과 결론 도출.
- 활용 예: 학습 행동과 성과 간의 상관관계 검증(예: 페이지 방문 시간과 시험 점수의 관계).
2. 변수의 측정 척도 (Échelle de mesure des variables):
변수의 유형에 따라 사용할 수 있는 통계 분석 기법이 달라짐.
- 명목 척도 (Nominale):
- 특징: 순서가 없는 범주형 데이터. catégorielle; pas d'ordre
- 예: 강좌 이름, 성별, URL.
- 적용 기법: 빈도 분석, 모드 계산.
- 서열 척도 (Ordinale):
- 특징: 순서가 존재하지만, 간격은 일정하지 않음.
- 예: 시험 순위, "낮음/중간/높음"과 같은 수준.
- 적용 기법: 중위수 분석, 순위 상관계수(예: Spearman 상관계수).
- 구간 척도 (Intervalle):
- 특징: 순서와 함께 일정한 간격을 가짐. 절대적 0은 없음.
- 예: 점수의 구간(예: 10% 단위로 나눔).
- 적용 기법: 평균, 표준편차, t-검정, ANOVA.
- 비율 척도 (Ratio):
- 특징: 순서, 일정 간격, 절대적 0이 존재.
- 예: 방문 시간, 퀴즈 점수, 수익.
- 적용 기법: 평균, 분산 분석, 회귀 분석.
3. 활용 사례:
- 명목 척도: 학습자가 선호하는 강좌와 관련된 클릭 수를 분석.
- 서열 척도: 학습자가 특정 주제에 대해 보고한 만족도 수준("낮음/중간/높음") 분석.
- 구간 척도: 강좌별 평균 점수를 구간별로 비교.
- 비율 척도: 페이지 방문 시간과 학업 성과 간의 관계 분석.
4. 데이터 처리 및 분석 흐름:
- 데이터 전처리:
- 로그 데이터에서 필요 변수 추출 및 정리.
- 이상치 제거와 결측값 처리.
- 기술 통계:
- 기본적인 데이터의 특성(분포, 중심 경향성)을 확인.
- 예: 학습자의 평균 페이지 방문 시간.
- 추론 통계:
- 데이터 간의 관계를 모델링하거나 가설 검증 수행.
- 예: 학습 시간과 성적의 상관관계 분석.
- 결과 시각화:
- 명목 변수: 파이 차트 또는 히스토그램.
- 비율 변수: 박스플롯 또는 산점도.
요약:
로그 데이터 분석은 변수의 유형과 측정 척도를 고려하여 기술 통계와 추론 통계를 적절히 조합해 수행한다. 이를 통해 학습자의 행동을 더 잘 이해하고, 개인화된 학습 경험과 시스템 설계를 지원할 수 있다.
기술 통계: 데이터 분포와 중심 경향 및 산포 측정
기술 통계는 데이터를 요약하고 특징을 설명하기 위해 평균, 중앙값, 최빈값, 그리고 데이터의 산포를 측정하는 다양한 지표를 사용한다.
1. 중심 경향 측정 (Mesure de la tendance centrale):
- 평균 (Moyenne):
- 정의: 모든 값의 합을 값의 개수로 나눈 값.
- 공식:
Moyenne= Nombre de valeurs/Somme des valeurs
-
- 특징:
- 데이터가 대칭이고 이상치가 없을 때 적합.
- Excel 함수: =MOYENNE(data).
- 특징:
- 중앙값 (Médiane):
- 정의: 데이터를 크기순으로 정렬했을 때 정중앙에 위치한 값.
- 특징:
- 데이터에 비대칭성이 있거나 이상치가 존재할 때 적합.
- Excel 함수: =MEDIANE(data).
- 최빈값 (Mode):
- 정의: 데이터에서 가장 빈도가 높은 값. valeur avec le plus d'occurences
- 특징:
- 명목형 데이터에서 자주 사용.
- Excel 함수: =MODE(data).
2. 산포 측정 (Dispersion):
- 범위 (Etendue): Range
- 정의: 최대값과 최소값의 차이.
공식: Etendue=Valeur maximale−Valeur minimale
- 특징: 간단한 데이터 산포 지표.
- 적합한 척도: O, I, R (서열, 구간, 비율 척도).
- 사분위수 (Quartiles):
- 정의: 데이터를 4등분으로 나누는 값.
- Q1: 하위 25%의 값.
- Q3: 상위 25%의 값.
- Excel 함수:
- Q1: =CENTILE(data, 0.25)
- Q3: =CENTILE(data, 0.75).
- 정의: 데이터를 4등분으로 나누는 값.
- 사분위 범위 (Écart interquartile):
- 정의: Q3와 Q1의 차이로, 중앙 50% 데이터를 나타냄.
- 공식:
écart interquartile= Q3−Q1
- 분산 (Variance):
- 정의: 각 데이터 값과 평균의 차이를 제곱한 값들의 평균.
- 공식:
- 표준편차 (Écart-type):
- 정의: 분산의 제곱근으로, 데이터가 평균에서 얼마나 퍼져 있는지를 나타냄.
- 공식:
-
- Excel 함수: =ECARTYPE(data).
3. 활용 척도에 따른 적합성 (Appropriateness par échelle):
지표 | 명목 (Nominale) | 서열 (Ordinale) | 구간 (Intervalle) | 비율 (Ratio) |
평균 (Moyenne) | - | - | ✅ | ✅ |
중앙값 (Médiane) | - | ✅ | ✅ | ✅ |
최빈값 (Mode) | ✅ | ✅ | ✅ | ✅ |
범위 (Etendue) | - | ✅ | ✅ | ✅ |
분산 (Variance) | - | - | ✅ | ✅ |
표준편차 (Écart-type) | - | - | ✅ | ✅ |
요약
중심 경향(평균, 중앙값, 최빈값)과 산포(범위, 분산, 표준편차, 사분위수 등)를 분석하면 데이터 분포와 변동성을 효과적으로 설명할 수 있다. 이 지표들은 데이터의 척도(명목, 서열, 구간, 비율)에 따라 적절히 선택되어야 한다.
기술 통계 (Statistiques descriptives ): 분포의 형태 (Forme)
1. 참조 형태 (Forme de référence)
- 가우스 분포 또는 종형 곡선 (Courbe de Gauss ou « en cloche »):
데이터가 정규분포를 따를 때의 전형적인 모양.- 정규분포의 특징: 평균 = 중앙값 = 최빈값.
- 활용: 정규성을 가정한 통계적 검정을 수행할 때 중요.
- 정규분포의 밀도 함수 (Densité de probabilité d’une loi normale):
확률 밀도 함수는 데이터가 특정 범위에 속할 확률을 나타냄.
2. 비대칭성 (Asymétrie / Skewness)
- 정의: 데이터 분포가 평균을 기준으로 좌우로 얼마나 비대칭적인지를 나타내는 값.
- 계산 (Excel 함수): =COEFFICIENT.ASYMETRIE(data)
- 종류:
- 음의 비대칭 (Asymétrie négative):
꼬리가 왼쪽으로 길어짐. 평균 < 중앙값 < 최빈값.
예: 낮은 점수가 많고 높은 점수는 적은 시험 결과. - 양의 비대칭 (Asymétrie positive):
꼬리가 오른쪽으로 길어짐. 평균 > 중앙값 > 최빈값.
예: 대부분의 점수가 낮고 소수의 점수가 높은 시험 결과.
- 음의 비대칭 (Asymétrie négative):
3. 첨도 (Kurtosis) coefficient d'aplatissement
- 정의: 데이터 분포의 "꼭대기"가 얼마나 뾰족하거나 평평한지를 나타냄.
- 계산 (Excel 함수): =KURTOSIS(data)
- 종류:
- 낮은 첨도 (Kurtosis faible):
분포가 평평하고 꼬리가 두꺼움 (분산이 더 넓게 퍼짐).
예: 다양한 학습 성향을 가진 학생 그룹. - 높은 첨도 (Kurtosis élevé):
분포가 뾰족하고 꼬리가 얇음 (분산이 좁고 중앙에 집중).
예: 특정 학습 목표를 가진 균일한 학생 그룹.
- 낮은 첨도 (Kurtosis faible):
4. 다중성 (Modalité)
- 정의: 분포 내에서 "피크(peak)"의 수를 나타냄.
- 단일 피크 (Unimodal): 하나의 최빈값(평균 = 중앙값 = 최빈값).
- 다중 피크 (Multimodal): 여러 피크를 가지며, 데이터 그룹화의 존재를 나타냄.
요약
- 정규성 확인: 평균 = 중앙값 = 최빈값일 때 정규분포일 가능성.
- 비대칭 확인: 꼬리의 방향을 통해 분포 왜곡 분석.
- 첨도 확인: 데이터 집중 또는 분산 정도 평가.
- 다중성 확인: 데이터 내 하위 그룹의 존재 여부를 파악.
변수 A와 B 간의 관계 Relation entre variable A et B
1. 상관관계: corrélation r(A,B)
- 정의: 변수 A와 B 사이의 선형 관계 정도를 측정하는 지표.
- 범위: r∈[−1.0,1.0]
- r=1.0 : 완벽한 양의 상관관계 (A가 증가하면 B도 비례적으로 증가).
- r=−1.0 : 완벽한 음의 상관관계 (A가 증가하면 B는 비례적으로 감소).
- r=0: 선형 상관관계가 아님.
- 선형적인 관계가 있다고 인과관계가 있는 것은 아님
- 피어슨 상관관계.
- Excel 함수: =PEARSON(data1, data2)
2. 결정 계수: coefficient de détermination : r2(A,B)
- 정의: 상관계수(r)의 제곱값으로, 변수 A의 분산 중 B에 의해 설명되는 비율을 나타냄.
- 범위: r²∈[0,1]
- 해석:
- r²=0.56이라면, 변수 A의 56%의 변화가 B에 의해 설명됨을 의미.
- 예시:
학습 시간과 시험 성적 간의 상관계수 r=0.75 인 경우: r²=0.75²=0.56(56%) - 이는 시험 점수의 변화 중 56%가 학습 시간과 관련되어 있음을 나타냄.
3. 그래프 표현:
A. 단일 변수의 분포
- 히스토그램 (Histogramme):
- 변수를 구간으로 나누어 데이터 분포를 시각적으로 보여줌.
- 활용: 데이터의 전체 분포를 확인하고 정규성 여부나 비대칭성을 파악.
- 박스 플롯 (Boîte à moustaches):
- 변수를 시각적으로 요약하여 중심 경향과 분산 정도를 나타냄.
- 구성 요소:
- 박스 하단/상단: 1사분위수(Q1, 하위 25%)와 3사분위수(Q3, 상위 25%).
- 수염(선): 최소값(min)과 최대값(max).
- 중앙값(중앙선): 박스 내부의 선.
B. 두 변수 간의 관계
- 산점도 (Nuage de points):
- 두 수치형 변수 간의 관계를 시각적으로 나타냄.
- 활용:
- 상관관계의 방향(양의 상관, 음의 상관)과 강도를 파악.
- 비정상적인 이상치(Outlier) 확인.
분석 단계 요약
- 상관계수(r) 측정: 두 변수 간 선형 관계가 존재하는지 확인.
- 결정 계수(r²) 계산: 변수 A의 변화 중 B로 설명 가능한 비율을 정량적으로 평가.
- 데이터 시각화:
- 히스토그램과 박스 플롯: 단일 변수 분석.
- 산점도: 두 변수 간 관계 탐구. scatterplot
이러한 도구들은 변수 간 관계를 평가하고, 가설을 검증하며, 데이터에서 의미 있는 패턴을 식별하는 데 유용하다.
반응형
'Rewire (공부) > Edutech 교육공학' 카테고리의 다른 글
AI와 교육 - 교육 데이터 마이닝 머신러닝 예측 모델 Predictive analytics (1) (0) | 2024.12.18 |
---|---|
AI와 교육 - 로그 파일의 통계 분석 (2) 추론 통계 (0) | 2024.12.17 |
AI와 교육 - 교육 데이터의 전처리 및 통계 분석 개념 (2) | 2024.12.16 |
AI와 교육 - 교육 데이터 마이닝(EDM)의 연관 분야와 미래 (러닝아날리틱스 Learning Analytics, 생성형 AI) (3) | 2024.12.15 |
AI와 교육 - 데이터 마이닝과 EDM 교육 데이터 마이닝 (3) | 2024.12.12 |