Open edX包含一个数据分析系统Insights。它包含三个组件:

  • Pipeline,用于将LMS的log文件归集到Hadoop进行计算,并把计算结果写入Mysql。
  • DataAPI,用于将Mysql中的分析结果输出给Insights使用。
  • Insights,用于展示分析结果。

目前是一个重量级的系统。针对的是edx.org这种千万级别的用户网站产生的数据。大量的log被输送到Hadoop进行离线计算用来展示。因此对于小规模的Open edX部署,数万人级别的用户,这样的计算太繁琐。

我们计划开发一个轻量级的数据分析系统。有两个主要方向:

  • 使用python计算来取代hadoop,实现一个基于pandas的pipeline。还在insights里面展现
  • 直接在Inistructor Dashboard里面加入分析展现。可以看整个课程,或者单个学生的学习分析

这两个系统会全部开源。有兴趣一起研究的朋友可以参与。