Github上的有趣统计结果
近日看到了Google的BigQuery技术,用类似SQL的语言来做一些数据的分析。而Github也加入了进来。闲来无事,就去体验了一把。 这是相关文章的地址。
BigQuery语法
整体的语法都和SQL非常接近,鉴于点进来的人很多都是冲着“有趣”这两个字来的,就不过多介绍代码了。这段代码的作用是找到github仓库中,使用Python语言的仓库中,前10个被引用的库。
SELECT
package,
COUNT(*) count
FROM (
SELECT
REGEXP_EXTRACT(line, r' ([a-z0-9\._]*)\.') package,
id
FROM (
SELECT
SPLIT(content, '\n') line,
id
FROM
[bigquery-public-data:github_repos.sample_contents]
WHERE
content CONTAINS 'import'
AND sample_path LIKE '%.py'
HAVING
LEFT(line, 6)='import' )
GROUP BY
package,
id )
GROUP BY
1
ORDER BY
count DESC
LIMIT
40;
BigQuery的界面也非常有Google风……
Most Popular Python Packages
这是通过刚刚的分析做出来的前几名的Python库的列表。
Most Popular Java Packages
一些其它有趣的事情
例如大家都在用什么协议来发布作品,有接近150万个仓库使用MIT协议来发布。
关注tensorflow的人都在关注什么?
最受欢迎的语言
提交次数和时间的关系
本文文字及图片出自 blog.askfermi.me
你也许感兴趣的:
- GitHub 删除代码等于“任何人均可永久访问”!微软回应:我们有意为之
- 【外评】”GitHub “开始让人感觉像传统软件
- 编码20年,现在的我想放弃GitHub!
- GitHub 变 Twitter?强“喂”新推荐算法引公愤,开发者从“编程乌托邦”被驱赶到了信息茧房
- 让部署更快更安全,GitHub 无密码部署现已上线
- 开发者危机!微软GitHub启动裁员:印度工程师团队几乎整体裁撤
- 因使用 GitHub ,我们被取消了参赛资格
- 告别SVN,Git成“独苗”:GitHub 在 13 年后宣布淘汰Subversion支持
- GitHub被起诉,版权问题再引热议,网友类比谷歌图书:毕竟谷歌没拿用户内容写小说
- GitHub 前 CTO:全面微服务是最大的架构错误!网友:这不是刚改完 GitHub 吗
你对本文的反应是: