Rewire (공부)

AI와 교육 - 교육 데이터 마이닝(EDM)의 주요 접근법 (Approches principales)

FRENCH GREY 2024. 12. 14. 00:21

 

교육 데이터 마이닝(EDM)의 주요 접근법 (Approches principales)

  1. 예측 (Prédiction):
    • 목적: 데이터의 특정 측면(예: 성적, 중도 탈락 등)을 예측하기 위해 다른 변수들의 조합을 활용.
    • 특징: 레이블된 데이터(ground truth)가 필요하며, 지도 학습(supervised learning) 기법 사용.
  2. 클러스터링 (Clustering):
    • 목적: 데이터의 구조를 파악하고, 비슷한 데이터 포인트를 그룹화.
    • 특징: 비지도 학습(unsupervised learning) 방법론으로 레이블이 없는 데이터에 사용.
  3. 관계 탐색 (Relationship Mining):
    • 목적: 변수 간의 관계를 발견.
    • 방법:
      • 연관 규칙(Association rules)
      • 상관 관계(Correlation)
      • 패턴 시퀀스 탐색(Sequence mining)
      • 인과 관계 추론(Causality extraction)
  4. 모델을 활용한 발견 (Découverte à l’aide de modèles):
    • 목적: 기존 모델(예: 예측 모델, 클러스터링 모델)을 활용하여 새로운 인사이트를 도출.
    • 활용 사례: 학생의 시스템 오용 행동(gaming the system)을 감지하고 성과를 예측.
  5. 인간 판단을 위한 데이터 증류 (Distillation de données pour le jugement humain):
    • 목적: 데이터를 시각화하거나 가공하여 인간 전문가가 쉽게 분석하고 판단할 수 있도록 지원.
    • 활용: 학습 곡선이나 패턴을 시각적으로 표현하여 중요한 요소를 발견.

일반 데이터 마이닝(DM)과의 차별성 (Propres à EDM):

  • EDM은 교육 환경에 특화된 데이터와 연구 방법을 사용하여 학습자 행동 및 학습 과정에 대한 깊은 이해를 목표로 함.
  • 일반 DM과 비교했을 때, 인간의 판단과 교육 현장에의 적용 가능성을 더욱 중시함.

예측 (Prédiction)

사용 조건 (Condition d’utilisation):

  • **레이블된 데이터 (grounded truth)**가 존재해야 함.
  • 지도 학습(Classification supervisée) 기법을 활용.

목적 (Objectif):

  • 예측 모델 개발: 데이터의 한 측면(예: 변수 예측값)을 다른 측면(예측 변수들)의 조합을 통해 예측하는 모델 생성.

응용 사례 (2 Types d’applications):

  1. 예측에 중요한 데이터 식별:
    • 예: MOOC에서의 접속 횟수가 최종 성적에 미치는 영향 분석.
  2. 레이블 없는 데이터에 대한 미래 예측:
    • 데이터가 늦게 제공될 때: 예: 최종 성적을 사전에 예측해 조기 개입이 필요한 경우.
    • 레이블이 비싸거나 얻기 어려운 경우: 예: 학생의 감정 상태를 동영상으로 추정.

3가지 주요 방법 (3 Types de méthodes):

  1. 분류 (Classification):
    • 예측 변수: 이진(binaire) 또는 범주형(catégorielle).
    • 사용되는 기법:
      • 의사결정나무(Arbres de décision),
      • 로지스틱 회귀(Régression logistique),
      • 서포트 벡터 머신(SVM).
  2. 회귀 (Régression):
    • 예측 변수: 연속형(continue).
    • 사용되는 기법:
      • 선형 회귀(Régression linéaire),
      • 신경망(Réseau de neurones).
  3. 밀도 추정 (Estimation de densité):
    • 예측 변수: 확률 밀도 함수.
    • 사용되는 기법:
      • 가우시안 밀도 추정(Gaussian density estimation) 등.

예측 변수의 특징 (Variables prédictives):

  • 이진, 연속형 또는 범주형 데이터.

품질 측정 (Mesure de la qualité):

  • 실제 데이터와 예측된 데이터를 비교하여 예측 모델의 품질을 측정.
  • 다양한 평가 지표(메트릭)가 존재.

이 접근법은 학습자의 성과와 행동을 예측하고, 맞춤형 지원을 제공하기 위한 강력한 도구로 활용


클러스터링 (Clustering)

정의 및 특징:

  • 클러스터링(Partitionnement ou regroupement): 데이터를 그룹화하거나 분할하여, 비슷한 데이터 포인트끼리 하나의 클러스터에 속하도록 하는 과정.
  • 비지도 학습 (Classification non supervisée): 사전에 데이터의 범주가 알려지지 않은 경우에 사용.

사용 조건 (Condition d’utilisation):

  • 데이터의 범주나 그룹화 기준이 사전에 알려지지 않은 경우.

목적 (Objectif):

  • 데이터 포인트가 같은 클러스터 내의 다른 데이터 포인트들과는 가깝고, 다른 클러스터의 데이터 포인트들과는 멀리 위치하도록 그룹화.

변형 (Variantes):

  1. 다양한 적용 수준:
    • 예: 학생 행동, 학생 집단, 학급, 학교 수준에서의 분석.
  2. 클러스터 개수:
    • 사전에 알고 있는 경우(고정된 클러스터 개수) 또는 모르는 경우(가변적 클러스터 개수).
  3. 클러스터 소속 가능성:
    • 각 데이터 포인트가 하나의 클러스터에 속하거나(0 또는 1), 다수의 클러스터에 속할 가능성도 있음.

클러스터 품질 측정 (Mesure de la qualité des clusters):

  • 클러스터가 데이터를 얼마나 잘 표현하는지(적합도)를 측정.
  • 무작위로 그룹화했을 때와 비교하여 평가.

활용 사례:

  • 학생의 행동 유형 분류.
  • 학습자의 학습 패턴 분석.
  • 교육 환경에서 데이터 기반의 그룹별 전략 설계

관계 탐색 (Relationship Mining)

정의:

  • 데이터 세트 내 여러 변수 간의 관계를 찾는 과정으로, 대규모 데이터 내에서 중요한 상호작용이나 연관성을 탐지하는 데 사용됩니다.

목적 (Objectif):

  • 서로 다른 변수들 간의 상호작용, 연관성 또는 인과 관계를 발견하여 데이터를 더 깊이 이해.

4가지 주요 방법 (4 Types de méthodes):

  1. 연관 규칙 추출 (Extraction de règles d’association):
    • "If-then" 규칙을 사용해 두 변수 간의 관계를 찾음.
    • 예: "학생이 80% 이상 강의를 완료하면 시험에서 90% 이상의 점수를 받을 가능성이 높다."
  2. 상관 관계 탐색 (Extraction de corrélations):
    • 두 변수 간의 양의 상관관계(positive correlation) 또는 음의 상관관계(negative correlation)를 발견.
    • 예: "학습 시간과 성적 간의 상관관계."
  3. 시퀀스 패턴 탐색 (Extraction de séquences de motifs):
    • 데이터 내에서 시간 순서대로 발생하는 패턴을 찾음.
    • 예: "학생이 특정 강좌를 수강한 후 다른 강좌를 등록할 가능성."
  4. 인과 관계 추론 (Extraction de causalité):
    • 한 변수가 다른 변수에 미치는 영향을 발견.
    • 예: "교사의 피드백 빈도가 학생의 성과에 미치는 영향."

추출된 관계의 조건 (2 Conditions sur les relations extraites):

  1. 통계적 유의성 (Statistiquement significatives):
    • 발견된 관계가 통계적으로 신뢰할 수 있어야 함 (예: F-test 사용).
  2. 흥미로운 관계 (Relations intéressantes):
    • 관계가 실질적으로 유의미하고, 불필요한 유사 규칙은 제거해야 함.
    • 예: 높은 지지도를 가진 규칙만 유지.

활용 사례:

  • 학습자 행동과 성과 간의 연관성 분석.
  • 교육 콘텐츠의 학습 효과성 파악.
  • 개인화된 학습 추천 시스템 개발.

관계 탐색은 데이터 간의 숨겨진 구조를 밝혀내어 교육 환경에서 효과적인 데이터 기반 결정을 지원하는 데 중요한 역할을 함.

 


모델을 활용한 발견 (Découverte à l’aide de modèles)

정의:

  • 기존 모델 활용: 예측, 클러스터링, 또는 지식 공학(ingénierie des connaissances)을 통해 생성된 모델을 활용하여 데이터의 관계를 탐구하거나 새로운 예측을 수행하는 과정. faire des prédiction ou extraction de relations
  • 반복적 과정 (Processus itératif): 모델의 성능을 점진적으로 개선하며, 데이터를 지속적으로 분석하여 새로운 인사이트를 도출.

주요 특징:

  1. 다양한 모델 활용:
    • 예측 모델(Prediction), 클러스터링 모델(Clustering), 지식 공학 모델이 주로 사용됨.
    • 각 모델은 학습 데이터로부터 생성되어 특정 교육 문제를 해결하거나 관계를 분석하는 데 사용.
  2. 적용 가능성:
    • 모델은 교육 데이터 마이닝의 다양한 영역에서 활용 가능:
      • 학생 행동 및 성과 예측.
      • 학습 과정 중 비정상적인 패턴 탐지.
      • 학생 그룹 간의 상호작용 분석.
  3. 반복적 과정 (Iterative Process / Processus itératif):
    • 모델을 지속적으로 개선하고 새로운 데이터를 적용하여 더 나은 결과를 도출.
    • 모델이 특정 패턴을 감지하거나 더 복잡한 문제를 해결하도록 학습.

사례 (Exemple):

  • Baker et al. (2008):
    • "시스템 오용 감지 모델 (Gaming the System)":
      • 학생들이 시스템을 부정확하거나 부적절하게 사용하는 상황을 감지하기 위한 모델 개발.
      • 이 모델은 학생들의 학습 행동을 분석하여 성과를 예측하는 데 활용됨. prédire la performance
      • 예: 시험 준비보다 반복적으로 정답을 추측하는 행동을 식별.

활용 사례:

  • 예측: 학생 성과, 시험 결과, 학습 성취 수준 등.
  • 관계 탐색: 학생 행동 패턴과 학습 성과 간의 관계 분석.
  • 비정상 행동 감지: 시스템 내 부정적인 학습 행동 탐지.

장점:

  • 기존 모델을 활용하여 추가 데이터를 생성하거나 관계를 발견할 수 있음.
  • 반복적 개선을 통해 지속적인 성능 향상 가능.

제한점:

  • 모델의 초기 성능은 데이터 품질과 양에 크게 의존.
  • 새로운 데이터에 대한 일반화 능력이 부족할 수 있음.

"모델을 활용한 발견"은 교육 데이터 마이닝에서 복잡한 문제를 해결하고, 데이터에서 유의미한 인사이트를 얻는 강력한 도구임


데이터 증류를 통한 인간 판단 (Distillation de données pour le jugement humain)

정의:

  • 특수한 데이터 시각화 과정: 데이터를 인간 전문가가 더 쉽게 분석할 수 있도록 제공하는 방식.
  • 데이터의 구조와 패턴을 명확히 보여줌으로써 인간의 판단을 돕는 데 초점.

2가지 주요 목표 (2 objectifs possibles):

  1. 식별 (Identification):
    • 시각적으로 잘 알려진 패턴을 인식하도록 지원. repérer des modifs bien connus visullement mais difficile à formaliser
    • 예: 시간 경과에 따른 학습 곡선(learning curve / courbe d'apprentissage au cours du temps)과 같은 데이터 패턴.
    • 이러한 패턴은 직관적으로 이해되지만, 공식화하거나 수치적으로 표현하기 어려울 수 있음.
  2. 분류 (Classification):
    • 데이터를 그래픽 또는 텍스트 형태로 정리하여 전문가가 라벨링 l'étiquetage 작업을 보다 쉽게 수행.
    • 이후 자동 분류(classification automatique)를 위해 데이터를 준비.
    • 효율성: Baker와 de Carvalho(2008)의 연구에 따르면, 이 방식은 기존 방식보다 최대 40배 빠른 라벨링을 가능하게 함.

활용 사례:

  • 학습 데이터 분석: 학생들의 성취도를 시각화하여 학습 과정에서 특정 문제를 식별.
  • 평가 지원: 데이터를 시각화하여 교육 관리자나 연구자가 의사 결정을 내리는 데 도움 제공.
  • 라벨링 작업 간소화: 학습 데이터에서 패턴을 강조하여 자동화 알고리즘의 정확도를 높이는 데 활용.

장점:

  • 복잡한 데이터를 직관적으로 표현하여 인간 전문가가 쉽게 분석 가능.
  • 데이터 패턴을 명확히 하여 의사 결정 시간을 단축하고 효율성을 증대.

제한점:

  • 인간 전문가의 주관적 판단에 의존할 수 있음.
  • 적절한 시각화 도구 및 기술이 없으면 데이터 이해가 어려울 수 있음.

이 접근법은 인간의 전문 지식과 데이터를 결합하여 더 나은 교육 연구 및 개선을 위한 기반을 제공

 

 

 

 

SU – Master EdTech – EDM Intro – F. Bouchet 강의 요약