Rewire (공부)
AI와 교육 - 교육 데이터 마이닝(EDM)의 주요 접근법 (Approches principales)
FRENCH GREY
2024. 12. 14. 00:21
교육 데이터 마이닝(EDM)의 주요 접근법 (Approches principales)
- 예측 (Prédiction):
- 목적: 데이터의 특정 측면(예: 성적, 중도 탈락 등)을 예측하기 위해 다른 변수들의 조합을 활용.
- 특징: 레이블된 데이터(ground truth)가 필요하며, 지도 학습(supervised learning) 기법 사용.
- 클러스터링 (Clustering):
- 목적: 데이터의 구조를 파악하고, 비슷한 데이터 포인트를 그룹화.
- 특징: 비지도 학습(unsupervised learning) 방법론으로 레이블이 없는 데이터에 사용.
- 관계 탐색 (Relationship Mining):
- 목적: 변수 간의 관계를 발견.
- 방법:
- 연관 규칙(Association rules)
- 상관 관계(Correlation)
- 패턴 시퀀스 탐색(Sequence mining)
- 인과 관계 추론(Causality extraction)
- 모델을 활용한 발견 (Découverte à l’aide de modèles):
- 목적: 기존 모델(예: 예측 모델, 클러스터링 모델)을 활용하여 새로운 인사이트를 도출.
- 활용 사례: 학생의 시스템 오용 행동(gaming the system)을 감지하고 성과를 예측.
- 인간 판단을 위한 데이터 증류 (Distillation de données pour le jugement humain):
- 목적: 데이터를 시각화하거나 가공하여 인간 전문가가 쉽게 분석하고 판단할 수 있도록 지원.
- 활용: 학습 곡선이나 패턴을 시각적으로 표현하여 중요한 요소를 발견.
일반 데이터 마이닝(DM)과의 차별성 (Propres à EDM):
- EDM은 교육 환경에 특화된 데이터와 연구 방법을 사용하여 학습자 행동 및 학습 과정에 대한 깊은 이해를 목표로 함.
- 일반 DM과 비교했을 때, 인간의 판단과 교육 현장에의 적용 가능성을 더욱 중시함.
예측 (Prédiction)
사용 조건 (Condition d’utilisation):
- **레이블된 데이터 (grounded truth)**가 존재해야 함.
- 지도 학습(Classification supervisée) 기법을 활용.
목적 (Objectif):
- 예측 모델 개발: 데이터의 한 측면(예: 변수 예측값)을 다른 측면(예측 변수들)의 조합을 통해 예측하는 모델 생성.
응용 사례 (2 Types d’applications):
- 예측에 중요한 데이터 식별:
- 예: MOOC에서의 접속 횟수가 최종 성적에 미치는 영향 분석.
- 레이블 없는 데이터에 대한 미래 예측:
- 데이터가 늦게 제공될 때: 예: 최종 성적을 사전에 예측해 조기 개입이 필요한 경우.
- 레이블이 비싸거나 얻기 어려운 경우: 예: 학생의 감정 상태를 동영상으로 추정.
3가지 주요 방법 (3 Types de méthodes):
- 분류 (Classification):
- 예측 변수: 이진(binaire) 또는 범주형(catégorielle).
- 사용되는 기법:
- 의사결정나무(Arbres de décision),
- 로지스틱 회귀(Régression logistique),
- 서포트 벡터 머신(SVM).
- 회귀 (Régression):
- 예측 변수: 연속형(continue).
- 사용되는 기법:
- 선형 회귀(Régression linéaire),
- 신경망(Réseau de neurones).
- 밀도 추정 (Estimation de densité):
- 예측 변수: 확률 밀도 함수.
- 사용되는 기법:
- 가우시안 밀도 추정(Gaussian density estimation) 등.
예측 변수의 특징 (Variables prédictives):
- 이진, 연속형 또는 범주형 데이터.
품질 측정 (Mesure de la qualité):
- 실제 데이터와 예측된 데이터를 비교하여 예측 모델의 품질을 측정.
- 다양한 평가 지표(메트릭)가 존재.
이 접근법은 학습자의 성과와 행동을 예측하고, 맞춤형 지원을 제공하기 위한 강력한 도구로 활용
클러스터링 (Clustering)
정의 및 특징:
- 클러스터링(Partitionnement ou regroupement): 데이터를 그룹화하거나 분할하여, 비슷한 데이터 포인트끼리 하나의 클러스터에 속하도록 하는 과정.
- 비지도 학습 (Classification non supervisée): 사전에 데이터의 범주가 알려지지 않은 경우에 사용.
사용 조건 (Condition d’utilisation):
- 데이터의 범주나 그룹화 기준이 사전에 알려지지 않은 경우.
목적 (Objectif):
- 데이터 포인트가 같은 클러스터 내의 다른 데이터 포인트들과는 가깝고, 다른 클러스터의 데이터 포인트들과는 멀리 위치하도록 그룹화.
변형 (Variantes):
- 다양한 적용 수준:
- 예: 학생 행동, 학생 집단, 학급, 학교 수준에서의 분석.
- 클러스터 개수:
- 사전에 알고 있는 경우(고정된 클러스터 개수) 또는 모르는 경우(가변적 클러스터 개수).
- 클러스터 소속 가능성:
- 각 데이터 포인트가 하나의 클러스터에 속하거나(0 또는 1), 다수의 클러스터에 속할 가능성도 있음.
클러스터 품질 측정 (Mesure de la qualité des clusters):
- 클러스터가 데이터를 얼마나 잘 표현하는지(적합도)를 측정.
- 무작위로 그룹화했을 때와 비교하여 평가.
활용 사례:
- 학생의 행동 유형 분류.
- 학습자의 학습 패턴 분석.
- 교육 환경에서 데이터 기반의 그룹별 전략 설계
관계 탐색 (Relationship Mining)
정의:
- 데이터 세트 내 여러 변수 간의 관계를 찾는 과정으로, 대규모 데이터 내에서 중요한 상호작용이나 연관성을 탐지하는 데 사용됩니다.
목적 (Objectif):
- 서로 다른 변수들 간의 상호작용, 연관성 또는 인과 관계를 발견하여 데이터를 더 깊이 이해.
4가지 주요 방법 (4 Types de méthodes):
- 연관 규칙 추출 (Extraction de règles d’association):
- "If-then" 규칙을 사용해 두 변수 간의 관계를 찾음.
- 예: "학생이 80% 이상 강의를 완료하면 시험에서 90% 이상의 점수를 받을 가능성이 높다."
- 상관 관계 탐색 (Extraction de corrélations):
- 두 변수 간의 양의 상관관계(positive correlation) 또는 음의 상관관계(negative correlation)를 발견.
- 예: "학습 시간과 성적 간의 상관관계."
- 시퀀스 패턴 탐색 (Extraction de séquences de motifs):
- 데이터 내에서 시간 순서대로 발생하는 패턴을 찾음.
- 예: "학생이 특정 강좌를 수강한 후 다른 강좌를 등록할 가능성."
- 인과 관계 추론 (Extraction de causalité):
- 한 변수가 다른 변수에 미치는 영향을 발견.
- 예: "교사의 피드백 빈도가 학생의 성과에 미치는 영향."
추출된 관계의 조건 (2 Conditions sur les relations extraites):
- 통계적 유의성 (Statistiquement significatives):
- 발견된 관계가 통계적으로 신뢰할 수 있어야 함 (예: F-test 사용).
- 흥미로운 관계 (Relations intéressantes):
- 관계가 실질적으로 유의미하고, 불필요한 유사 규칙은 제거해야 함.
- 예: 높은 지지도를 가진 규칙만 유지.
활용 사례:
- 학습자 행동과 성과 간의 연관성 분석.
- 교육 콘텐츠의 학습 효과성 파악.
- 개인화된 학습 추천 시스템 개발.
관계 탐색은 데이터 간의 숨겨진 구조를 밝혀내어 교육 환경에서 효과적인 데이터 기반 결정을 지원하는 데 중요한 역할을 함.
모델을 활용한 발견 (Découverte à l’aide de modèles)
정의:
- 기존 모델 활용: 예측, 클러스터링, 또는 지식 공학(ingénierie des connaissances)을 통해 생성된 모델을 활용하여 데이터의 관계를 탐구하거나 새로운 예측을 수행하는 과정. faire des prédiction ou extraction de relations
- 반복적 과정 (Processus itératif): 모델의 성능을 점진적으로 개선하며, 데이터를 지속적으로 분석하여 새로운 인사이트를 도출.
주요 특징:
- 다양한 모델 활용:
- 예측 모델(Prediction), 클러스터링 모델(Clustering), 지식 공학 모델이 주로 사용됨.
- 각 모델은 학습 데이터로부터 생성되어 특정 교육 문제를 해결하거나 관계를 분석하는 데 사용.
- 적용 가능성:
- 모델은 교육 데이터 마이닝의 다양한 영역에서 활용 가능:
- 학생 행동 및 성과 예측.
- 학습 과정 중 비정상적인 패턴 탐지.
- 학생 그룹 간의 상호작용 분석.
- 모델은 교육 데이터 마이닝의 다양한 영역에서 활용 가능:
- 반복적 과정 (Iterative Process / Processus itératif):
- 모델을 지속적으로 개선하고 새로운 데이터를 적용하여 더 나은 결과를 도출.
- 모델이 특정 패턴을 감지하거나 더 복잡한 문제를 해결하도록 학습.
사례 (Exemple):
- Baker et al. (2008):
- "시스템 오용 감지 모델 (Gaming the System)":
- 학생들이 시스템을 부정확하거나 부적절하게 사용하는 상황을 감지하기 위한 모델 개발.
- 이 모델은 학생들의 학습 행동을 분석하여 성과를 예측하는 데 활용됨. prédire la performance
- 예: 시험 준비보다 반복적으로 정답을 추측하는 행동을 식별.
- "시스템 오용 감지 모델 (Gaming the System)":
활용 사례:
- 예측: 학생 성과, 시험 결과, 학습 성취 수준 등.
- 관계 탐색: 학생 행동 패턴과 학습 성과 간의 관계 분석.
- 비정상 행동 감지: 시스템 내 부정적인 학습 행동 탐지.
장점:
- 기존 모델을 활용하여 추가 데이터를 생성하거나 관계를 발견할 수 있음.
- 반복적 개선을 통해 지속적인 성능 향상 가능.
제한점:
- 모델의 초기 성능은 데이터 품질과 양에 크게 의존.
- 새로운 데이터에 대한 일반화 능력이 부족할 수 있음.
"모델을 활용한 발견"은 교육 데이터 마이닝에서 복잡한 문제를 해결하고, 데이터에서 유의미한 인사이트를 얻는 강력한 도구임
데이터 증류를 통한 인간 판단 (Distillation de données pour le jugement humain)
정의:
- 특수한 데이터 시각화 과정: 데이터를 인간 전문가가 더 쉽게 분석할 수 있도록 제공하는 방식.
- 데이터의 구조와 패턴을 명확히 보여줌으로써 인간의 판단을 돕는 데 초점.
2가지 주요 목표 (2 objectifs possibles):
- 식별 (Identification):
- 시각적으로 잘 알려진 패턴을 인식하도록 지원. repérer des modifs bien connus visullement mais difficile à formaliser
- 예: 시간 경과에 따른 학습 곡선(learning curve / courbe d'apprentissage au cours du temps)과 같은 데이터 패턴.
- 이러한 패턴은 직관적으로 이해되지만, 공식화하거나 수치적으로 표현하기 어려울 수 있음.
- 분류 (Classification):
- 데이터를 그래픽 또는 텍스트 형태로 정리하여 전문가가 라벨링 l'étiquetage 작업을 보다 쉽게 수행.
- 이후 자동 분류(classification automatique)를 위해 데이터를 준비.
- 효율성: Baker와 de Carvalho(2008)의 연구에 따르면, 이 방식은 기존 방식보다 최대 40배 빠른 라벨링을 가능하게 함.
활용 사례:
- 학습 데이터 분석: 학생들의 성취도를 시각화하여 학습 과정에서 특정 문제를 식별.
- 평가 지원: 데이터를 시각화하여 교육 관리자나 연구자가 의사 결정을 내리는 데 도움 제공.
- 라벨링 작업 간소화: 학습 데이터에서 패턴을 강조하여 자동화 알고리즘의 정확도를 높이는 데 활용.
장점:
- 복잡한 데이터를 직관적으로 표현하여 인간 전문가가 쉽게 분석 가능.
- 데이터 패턴을 명확히 하여 의사 결정 시간을 단축하고 효율성을 증대.
제한점:
- 인간 전문가의 주관적 판단에 의존할 수 있음.
- 적절한 시각화 도구 및 기술이 없으면 데이터 이해가 어려울 수 있음.
이 접근법은 인간의 전문 지식과 데이터를 결합하여 더 나은 교육 연구 및 개선을 위한 기반을 제공
SU – Master EdTech – EDM Intro – F. Bouchet 강의 요약