Open edX语言词频统计

在翻译Open edX语言时,经常遇到翻译不一致的问题。由于transifex是众包翻译,不同的人对同一词语的理解存在差异。例如“Learner”这个词汇,可以翻译为“学习者”、“学员”、“学生”,不能说哪个翻译更好。但是在界面中,如果这三个中文词语都存在,会给使用者带来混乱,认为这些不是指向同一个含义。

广州英荔的@liuxing3169写了一个小程序,统计Open edX语言中的词频。从中可以看到哪些词语出现的频率高,再对频率高的词语进行规范,设定一个术语表给翻译者。这是他的源代码 https://github.com/liuxing3169/Simple-python-programming-exercises

目前算出来的部分结果如下

the,2313,
to,1674,
you,1066,
your,951,
a,947,
this,884,
for,856,
course,785,
and,754,
in,728,
of,700,
is,599,
or,536,
not,529,
be,434,
are,359,
with,341,
that,341,
have,296,
an,278,
can,278,
on,271,
if,259,
will,256,
please,242,
by,215,
must,211,
has,206,
content,192,
{platform_name},190,
as,188,
from,187,
email,185,
any,185,
all,182,
use,182,
access,180,
file,172,
certificate,171,
enter,169,
name,158,
no,156,
error,153,
new,148,
been,144,
at,142,
student,141,
enrollment,136,
add,135,
course.,132,
page,129,
account,129,
learners,125,
problem,124,
students,121,
information,118,
user,116,
date,114,
was,112,
team,110,
try,110,
id,109,
we,106,
cannot,105,
it,105,
create,105,
when,104,
image,102,
see,102,
video,102,
do,100,
group,99,
view,97,
verified,95,
only,95,
number,94,
courses,93,
more,92,
select,91,
there,91,
library,89,
about,88,
enrolled,85,
want,84,
api,84,
address,83,
upload,83,
code,82,
click,80,
could,79,
plural,79,
download,78,
does,77,
contact,77,
request,77,
sure,77,
list,77,
transcript,76,
verification,75,

可以看到其中有一些频率且容易不一致的词,如enrollment,learners,library等。Open edX中文社区将根据这个词表推出一套标准的术语定义,来方便翻译者。

为什么计算机专业学生不热衷开源?

https://opensource.com/article/17/12/students-and-open-source-3-common-preconceptions

作者参加了国内最大的院校黑客马拉松 http://pennapps.com/,观察了其中的开源情况。之后,他对一些学院学生进行了调查问卷,提出以下问题:

你喜欢编写个人项目吗? 你有没有为开源项目做过贡献?
你是否觉得开始自己的编程项目或为现有的开源工作做出贡献对你更有益?
你如何比较与生成开源软件和专有软件的组织的编码相关的声望?

作者对三个先入为主的观点提出了看法:

Preconception#1:从头开始创建个人项目比为现有的开源项目做贡献更好。
在我调查的大学时代程序员中,26人中有24人断言,开始他们自己的个人项目可能比建立在开源项目上更有益。

我经常从年长的同龄人那里听到个人项目会让我对实习生招聘更有吸引力。没有人提到过为开源项目做贡献的可能性 – 所以在我看来,它并不相关。

我现在意识到开源项目为现实世界提供了强有力的准备。对开源项目的贡献使人们意识到工具和语言如何以甚至个别项目无法组合的方式组合在一起。此外,开源是协调和协作的练习,培养学生的沟通,团队合作和解决问题的专业技能。

Preconception#2:我的编码技巧不会削减它。
一些受访者表示,他们受到开源项目的威胁,不知道在哪里做出贡献,或者害怕阻碍项目进展。不幸的是,自卑感往往特别影响女性程序员,并不止于开源社区。

我记得第一次在GitHub上查看开源项目的贡献指南时我感到多么恐惧。但是,准则不是为了鼓励排他性,而是为了提供指导。为此,我认为指导方针是在不依赖等级结构的情况下建立期望的一种方式。

Preconception#3:专有软件公司比开源软件组织做得更好。
在我调查的26位受访者中,只有5位认为开放和专有软件组织在声望上被认为是平等的。这可能是由于人们误以为“开放”意味着“无利可图”,因此质量低。

但是,开源软件和盈利软件并不相互排斥。事实上,小型和大型企业通常都会为免费的开源软件付费以获得技术支持服务。正如红帽首席执行官Jim Whitehurst解释的那样,“我们的工程团队可以跟踪每一个变化 – 一个错误修复,安全增强或任何与Linux相关的工作,并确保我们客户的关键任务系统保持最新和稳定“。此外,开放的本质通过让更多人检查源代码来促进而不是阻碍质量。

另一个问题可能是年轻程序员不了解他们每天与之交互的开源软件。我使用了许多工具 – 包括MySQL,Eclipse,Atom,Audacity和WordPress – 几个月甚至几年没有意识到它们是开源的。经常急于下载教学大纲指定软件以完成课堂作业的大学生可能不知道哪些软件是开源的。这使得开源看起来比它更加陌生。

查看这个适合初学者的项目列表list of beginner-friendly projects以及开始您的开源之旅的这六个起点  these six starting points 。