使用哪一种程序语言的工程师平均收入最高?

damndigital_average-income-per-programming-language_2013-08

本文翻译自 bpodgursky 的文章 《 Average Income per Programming Language 》,透过数据分析讨论 GitHub 上使用各种程序语言的工程师平均收入概况。当然,本文只能作为一种参考,作者详细说明了统计方面的种种限制以及可能出现的偏误。

来源: INSIDE

几个星期前,我在博客中描述我如何使用 Git 的 metadata 和 RapLeaf 的 API 来建立 GitHub 上各种组织的人口统计概况(博客文章点这里,每个组织的数据点这里)。

我也曾尝试用不同方法截取数据,得出针对每种程序语言(而非组织)的人口统计概况。有关使用不同程序语言开发者的刻板印象比比皆是,我很好奇它们如何与现实挂钩。从每个程序语言使用族群的基本信息如年龄、收入、性别开始分析,根据我手上既有的资料,要做到这一点并不困难:

  • 我采用 GitHub 对每个 repostory 程序语言组成情况的估算。例如,GitHub估计某个项目使用了 75% 的 Java 语言;
  • 我从中得知每个项目中使用比例超过 50% 的是什么程序语言,某个项目中使用此一主要语言的开发人员是谁,并把他们的收入加总;
  • 我进而筛选出收入数据点(data point)大于 100 的程序语言。

以下便是收入情况的统计,根据家庭平均收入由低到高排列:

damndigital_average-income-per-programming-language_2013-08-01

同样的数据以图表的形式呈现如下:

damndigital_average-income-per-programming-language_2013-08-02

大部分的排行结果大致符合我的预期:

  • Haskell 是种非常偏学术的语言,因此在收入方面并不可观;
  • PHP 是种较容易掌握的语言,方便非专业的或是初级工程师使用,也因此收入相对不高;
  • Java 和 ActionScript 已收入来看则被认为是高级的语言,多用于企业软件的开发,因此收入颇丰。

另一方面,我不太了解图表两端的某些语言,例如 XSLT、Puppet 跟 CoffeeScript,也不清楚造成它们排名高低的原因。

不过在我们下出过多结论前,必须明白这些数据的限制:

  • 这些项目是开源的,无法适用于闭源(closed-source)程序开发人员的报酬;
  • Rapleaf 数据不涉及总收入信息,样本可能因此有所偏差;
  • 我忽略了年龄、性别等因素对造成数据分配偏态的可能性;
  • 我没有分析所有的 GitHub repostory,作为样本的用户数据可能不具代表性。

这样说吧,即使在绝对数字上有所偏差,这仍然是比较不同程序语言间相对收入差别的一个开始。

bpodgursky 这篇文章在 Hacker News 跟 Reditt 上都引发不小的回响,因此他又写了一篇文章 《Updates to language vs income breakdown post 》 补充更多统计相关的信息。




Have Your Say »

Required

Required, never published

无觅相关文章插件,快速提升流量