过去5年最受欢迎机器学习论文+代码速查-白红宇

新智元编译

来源：paperswithcode.com

编辑：肖琴

【新智元导读】Papers with Code网站将ArXiv上的最新机器学习论文与GitHub上的代码联系起来。这个项目索引了大约5万篇论文和1万个GitHub库，你可以按标题关键词查询，也可以按流行程度、GitHub星星数排列“热门研究”，跟上ML社区流行的最新动态。

网站地址：https://paperswithcode.com

在阅读一篇论文时，我们很自然地想看看论文中提出的算法和模型实现的代码。然而，机器学习领域虽然有开源的优良传统，但提出新算法的最新论文中，真正公开算法代码的着实不多，找到对应论文的相关代码库也不容易。

去年在AAAI会议上，挪威一名计算机科学家报告了一项调查的结果：过去几年发表的AI顶会论文提出的400种算法中，只有6％的研究者公开了算法的代码。另外，只有三分之一的人分享了他们测试算法的数据，而只有一半分享了“伪代码”。

CREDITS: (GRAPHIC) E. HAND/SCIENCE; (DATA) GUNDERSEN AND KJENSMO, ASSOCIATION FOR THE ADVANCEMENT OF ARTIFICIAL INTELLIGENCE 2018

via新智元报道：【AI幽灵】超90%论文算法不可复现，你为何不愿公开代码？

现在，有一个找到论文代码的“神器”出现了。Reddit用户rstoj做了一个网站，将ArXiv上的最新机器学习论文与GitHub上的代码（TensorFlow/PyTorch/MXNet /等）对应起来。你可以按标题关键词查询，也可以按流行程度、GitHub星星数排列“热门研究”。这个网站能让你跟上ML社区流行的最新动态。

网站地址：https://paperswithcode.com/

这个项目索引了大约5万篇论文（最近5年发布在arxiv上的论文）和1万个GitHub库。网站刚刚上线，功能还有些单一，作者表示未来还将增加标签索引、链接媒体文章和教程等功能。以下介绍按GitHub星星数排列的Top 10研究，来先睹为快吧！

1. Caffe：一个快速、开源的深度学习框架

star：24,596

代码：https://github.com/BVLC/caffe

论文：http://arxiv.org/abs/1408.5093v1

Caffe 是一个深度学习框架，在设计时将表达式、速度和模块化考虑在内。这个热门的计算机视觉框架由 Berkeley AI Research（BAIR）和社区贡献者开发。贾扬清在UC Berkeley博士期间创建了这个项目。Caffe 可为学术研究项目、新创公司原型和大规模行业应用程序提供强大的视觉、语音和多媒体支持。

Caffe是一个采用BSD许可证发布的C ++库，使用Python和MATLAB绑定，可在商用架构上有效训练和部署通用卷积神经网络和其他深层模型。Caffe通过CUDA GPU计算满足行业和互联网规模的媒体需求，在单个K40或Titan GPU上，媒体处理超过4000万张图像。

2. Neural Style：神经风格转换算法

A Neural Algorithm of Artistic Style

star：15,840

代码：https://github.com/jcjohnson/neural-style

论文：http://arxiv.org/abs/1508.06576v2

在艺术，特别是绘画中，人类已经掌握了通过图像风格来创造独特的视觉体验的技巧。在这篇论文中，研究人员提出一种算法，用卷积神经网络将一幅图像的内容与另一幅图像的风格进行组合。下面是一个将梵高《星夜》的艺术风格转移到斯坦福大学校园夜景的照片中的效果：

3. Detectron

star：14,795

代码：https://github.com/facebookresearch/detectron

论文：http://arxiv.org/abs/1703.06870v3

Detectron是Facebook AI Research（FAIR）的物体检测研究平台，这个代码库包含许多最新对象检测算法的实现，包括了Mask R-CNN和RetinaNet等流行算法。

4. 使用子字信息丰富词汇向量

Enriching Word Vectors with Subword Information

star：14,565

代码：https://github.com/facebookresearch/fastText

论文：http://arxiv.org/abs/1607.04606v2

在大型未标记语料库上训练的连续词表示对许多自然语言处理任务都很有用。一个向量表示与每个字符n-gram相关联; 单词被表示为这些向量表示的总和。

5. FastText.zip：压缩文本分类模型

FastText.zip: Compressing text classification models

star：14,565

代码：https://github.com/facebookresearch/fastText

论文：http://arxiv.org/abs/1612.03651v1

这是为文本分类生成紧凑的体系结构的问题，从而使整个模型可以在有限的内存中使用。在思考了由哈希方法启发的不同解决方案之后，我们提出了一种基于产品量化来存储词嵌入的方法。

6. 高效的文本分类技巧包

Bag of Tricks for Efficient Text Classification

star：14,565

代码：https://github.com/facebookresearch/fastText

论文：http://arxiv.org/abs/1607.01759v3

这篇文章探讨了一种简单有效的文本分类基准。实验表明，我们的快速文本分类器fastText在准确率上可以与深度学习分类器相媲美，并且在训练和评估上速度快了几个数量级。

（注：以上3篇论文都链接到fastText的GitHub库）

7. 多目标强化学习：挑战机器人环境和研究要求

Multi-Goal Reinforcement Learning: Challenging Robotics Environments and Request for Research

star：12,481

代码：https://github.com/openai/gym

论文：http://arxiv.org/abs/1802.09464v2

这篇技术报告有两个目的：首先，它基于现有的机器人硬件，引入了一套具有挑战性的连续控制任务（与OpenAI Gym集成），包括用机器人手臂进行推动、滑动，拾物和放置等。第二部分，研究人员提出一套改进RL算法的具体研究思路，其中大部分与多目标RL和事后经验回放（Hindsight Experience Replay）有关。

8. OpenAI Gym

star：12,481

代码：https://github.com/openai/gym

论文：http://arxiv.org/abs/1606.01540v1

OpenAI Gym是强化学习研究的工具包。它包括越来越多的基准问题集，引入一个通用的接口，以及一个可以让人们在上面分享他们的结果并比较算法的性能的网站。

9. XGBoost：一种可扩展的基于树的Boosting系统

XGBoost: A Scalable Tree Boosting System

star：12,449

代码：https://github.com/dmlc/xgboost

论文：http://arxiv.org/abs/1603.02754v3

在这篇论文中，我们描述了一个名为XGBoost的可扩展端到端的tree boosting系统，该系统已经被数据科学家广泛使用，实现了许多机器学习挑战的最新成果。我们提出了一种新的用于稀疏数据的sparsity-aware 算法。

10. 使用深度卷积网络的图像超分辨率

Image Super-Resolution Using Deep Convolutional Networks

star：11,432

代码：https://github.com/nagadomi/waifu2x

论文：http://arxiv.org/abs/1501.00092v3

该映射表示为一个深度卷积神经网络（CNN），它将低分辨率图像作为输入，并输出高分辨率图像。我们进一步证明传统的基于稀疏编码的SR方法也可以被看作是一个深度卷积网络。