2018 年度 GtiHub 开源项目 TOP 25:数据科学 & 机器学习
雷锋网 AI 科技评论按:本文作者 Pranav Dar 是 Analytics Vidhya 的编辑,对数据科学和机器学习有较深入的研究和简介,致力于为使用机器学习和人工智能推动人类进步找到新途径。2018 这一年中,作者在每个月都会发布一份开源项目月度推荐榜单,而本文则是对全年开源项目的盘点和总结。雷锋网 AI 科技评论编译如下。
前沿
关于托管代码、与团队成员合作以及充当展示个人写代码技能的「在线简历」,最好的平台是哪个?问及任何一位数据科学家,他们都会让你去 GitHub。近年来,GitHub 作为一个真正具有变革性的平台,已经改变了我们托管甚至写代码的方式。
但这还不是全部。此外,它还是一个学习平台。如果你问怎么学习的话,我可以给你一个暗示——开源项目!
世界领先的科技公司通过在 GitHub 上发布其热门算法的代码,对项目进行开源。2018 年,在 Google 和 Facebook 等公司的带领下,这类开源项目大幅增加。其中最好的那部分开源项目,写代码的研究者还提供了预训练模型,从而让你我这些人不必再浪费时间从头开始创建高难度的模型。
同时,针对编码者和开发者的热门开源项目也很多——包括备忘单、视频链接、电子书、研究论文链接以及其他等资源。无论你在你的专业领域处于哪个等级(初学者、中级以及高级),你总可以在 GitHub 上找到可以学习的新东西。
对于数据科学的很多子领域来说,2018 年是不同凡响的一年,这个我下面马上就会讲到。随着 ULMFiT、BERT 等项目在 GitHub 上进行开源,自然语言处理(NLP)迅速成为社区中谈论最多的领域。我致力于将自己最大的努力贡献给这么棒的 GitHub 社区,在这一年中,我精心挑选了每位数据科学家都应该了解的 TOP 5 开源项目,并整理成了月度榜单系列。你可以点击下面的链接,前往查看完整榜单:
一月份:
二月份:
三月份:
四月份:
五月份:
六月份:
七月份:
八月份:
九月份:
十月份:
十一月份:
这些文章的部分内容会和我盘点的 2018 年 AI 和 ML 领域最大突破文章有所重合,大家也可以前往以下地址阅读这篇文章——它从根本上来说是一份盘点了该领域主要进展的榜单,我认为该领域的每个人都应该有所了解。作为额外福利,文中还有来自专家们的预测——大家应该都不想错过吧。
现在,准备好去探索新的项目,并努力成为 2019 年的数据科学之星吧。继续向下滚动,大家点击每个项目后面的链接就可以前往 GitHub 的代码库了。
本文将覆盖到的话题
工具和框架
计算机视觉
生成式对抗网络(GANs)
其他深度学习项目
自然语言处理(NLP)
自动的机器学习(AutoML)
强化学习
工具和框架
让我们开始来看看工具、开发库和框架方面的最佳开源项目。由于我们在讨论的是一个软件仓库平台,先讲这部分似乎才是正确的打开方式。
科技正在快速发展,同时计算成本也比之前更低了,所以现在有一个接一个大量的开源项目可供我们使用。现在,可以被称作机器学习编码的黄金时代吗?这是一个开放的问题,但是我们都认同的一件事是,现在是做一个数据科学领域的编程员的好时期。在这个部分(以及整篇文章),我都在尝试让编程语言尽可能地多样化些,不过 Python 无法避免地占据主导地位。
ML.NET
开源地址:

如果你们这些.NET 开发者们想要学一点机器学习知识来补充现有的技能,你会怎么做?现在就有一个完美的开源项目可以助你开始实施这一想法!这个完美的开源项目就是微软的一个项目——ML.NET,它是一个开源的机器学习框架,让你用 .NET 就可以设计和开发模型。
你甚至可以将现有的机器学习模型集成到你的应用程序中,而完全不要求你切确地知道怎样开发机器学习模型。ML.NET 实际上已被应用于多个微软产品中,例如 Windows、 Bing 搜索、 MS Office 等等。
ML.NET 可以在 Windows、Linux 以及 MacOS 上运行。
TensorFlow.js
开源地址:

在浏览器中实现机器学习!几年前,这还只是一个幻想,而现在成为了一个震撼人心的现实。这一领域的大多数人都与我们最爱的 IDEs 牢不可分,而 TensorFlow.js 则有可能改变我们的习惯。自今年早些时候发布以来,它就成为一个非常受欢迎的开源项目,并且它的灵活性还在继续给人带来惊喜。
正如开源项目所介绍的,TensorFlow.js 主要有三个重要特征:
浏览器自身可以开发机器学习和深度学习模型;
可以在浏览器中运行现有的 TensorFlow 模型;
同时可以对这些现有的模型进行重新训练或者微调。
版权保护: 本文由 沃派博客-沃派网 编辑,转载请保留链接: http://www.bdice.cn/html/24786.html
