盘点当下大热的 7 大 Github 机器学习『创新』项目

  最顶尖的Github机器学习项目

  1. PyTorch-Transformers(NLP)

  传送门:https://github.com/huggingface/pytorch-transformers

  自然语言处理(NLP)的力量令人叹服。NLP改变了文本的处理方式,几乎到了无法用语言描述的程度。

  在最先进的一系列NLP库中,PyTorch-Transformers出现最晚,却已打破各种NLP任务中已有的一切基准。它最吸引人的地方在于涵盖了PyTorch实现、预训练模型权重及其他重要元素,可以帮助用户快速入门。

  运行最先进的模型需要庞大的计算能力。PyTorch-Transformers在很大程度上解决了这个问题,它能够帮助这类人群建立起最先进的NLP模型。

  这里有几篇深度剖析PyTorch-Transformers的文章,可以帮助用户了解这一模型(及NLP中预训练模型的概念):

  · PyTorch-Transformers:一款可处理最先进NLP的惊人模型库(使用Python)

  https://www.analyticsvidhya.com/blog/2019/07/pytorch-transformers-nlp-python/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

  · 8个入门NLP最优秀的预训练模型

  https://www.analyticsvidhya.com/blog/2019/03/pretrained-models-get-started-nlp/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

  · PyTorch——一个简单而强大的深度学习库

  https://www.analyticsvidhya.com/blog/2018/02/pytorch-tutorial/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

  2. NeuralClassifier (NLP)

  传送门:https://github.com/Tencent/NeuralNLP-NeuralClassifier

  在现实世界中,文本数据的多标签分类是一个巨大的挑战。早期面对NLP问题时,我们通常处理的是单一标签任务,但在真实生活中却远不是这么简单。

  在多标签分类问题中,实例/记录具备多个标签,且每个实例的标签数量并不固定。

  NeuralClassifier使我们能够在多层、多标签分类任务中快速实现神经模型。我最喜欢的是NeuralClassifier,提供了各种大众熟知的文本编码器,例如FastText、RCNN、Transformer等等。

  用NeuralClassifier可以执行以下分类任务:

  · 双层文本分类

  · 多层文本分类

  · 多标签文本分类

  · 多层(多标签)文本分类

  以下两篇优秀的文章介绍了究竟什么是多标签分类,以及如何在Python中执行多标签分类:

  · 使用NLP预测电影类型——多标签分类的精彩介绍

  https://www.analyticsvidhya.com/blog/2019/04/predicting-movie-genres-nlp-multi-label-classification/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

  · 使用Python构建你的第一个多标签图像分类模型

  https://www.analyticsvidhya.com/blog/2019/04/build-first-multi-label-image-classification-model-python/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

  3. TDEngine (大数据)

  传送门:https://github.com/taosdata/TDengine

  TDEngine数据库在几乎不到一个月的时间内就累积了近10,000个star。继续往下读,你立马就能明白这是为何。

  TDEngine是一个开源大数据平台,针对:

  · 物联网(IoT)

  · 车联网

  · 工业物联网

  · IT基础架构等等

  本质上,TDEngine提供了一整套与数据工程相关的任务,用户可以用极快的速度完成所有这些工作(查询处理速度将提高10倍,计算使用率将降低到1/5)。

  目前有一点需要注意——TDEngine仅支持在Linux上执行。TDEngine数据库包含完整的文件资料以及包含代码的入门指南。

  建议你阅读这一篇针对数据工程师的综合资源指南:

  · 想成为数据工程师?这里列出了入门应看的综合资源

  https://www.analyticsvidhya.com/blog/2018/11/data-engineer-comprehensive-list-resources-get-started/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

  4. Video Object Removal (计算机视觉)

  传送门:https://github.com/zllrunning/video-object-removal

  你是否接触过图像数据?计算机视觉是一种十分先进的技术,用于操纵和处理图像的。想要成为计算机视觉专家,图像的目标检测通常被认为是必经之路。

  那么视频呢?如果要对几个视频中的目标绘制边界框,虽然看似简单,实际难度却远不止如此,而且目标的动态性会使任务更加复杂。

  所以Video Object Removal非常棒,只要在视频中某一目标周围绘制边界框,即可将它删除。就是这么简单!以下是一个范例:

  如果你在计算机视觉的世界里还是个小白,这里有两篇能帮助你入门并快速上手的文章:

  · 对基础目标检测算法的全面介绍

  https://www.analyticsvidhya.com/blog/2018/10/a-step-by-step-introduction-to-the-basic-object-detection-algorithms-part-1/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

  · 使用深度学习2.0掌握计算机视觉

  https://courses.analyticsvidhya.com/courses/computer-vision-using-deep-learning-version2/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

  5. Python Autocomplete (编程)

  传送门:https://github.com/vpj/python_autocomplete

  你一定会爱上Python Autocomplete的。数据科学家的所有工作就是对各种算法进行试验(至少是大多数人),而Python Autocomplete可以利用一个LSTM简单模型自动写完Python代码。

  下图中,灰色的部分就是LSTM模型自动填写的代码(结果位于图像底部):

  开发人员如是描述:

  首先清除Python代码中的注释、字符串和空行,然后进行训练和预测。模型训练的前提是对python代码进行标记化,相比使用字节编码来预测字节,这似乎更为有效。

  如果你曾花费(浪费)时间编写一行行单调的Python代码,那么这一模型可能正是你所寻找的。不过它的开发还处于非常早期的阶段,操作中不可避免会出现一些问题。

  如果你想知道LSTM到底是什么,请阅读这篇文章中的介绍:

  · 深度学习的要点:长短时记忆(LSTM)入门

  https://www.analyticsvidhya.com/blog/2017/12/fundamentals-of-deep-learning-introduction-to-lstm/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

  6. tfpyth–从TensorFlow到PyTorch再到TensorFlow (编程)

  传送门:https://github.com/BlackHC/tfpyth

  TensorFlow和PyTorch两大模型都坐拥庞大的用户群,但后者的使用率高得惊人,在未来一两年内很可能超过前者。不过请注意:这并不会打击Tensorflow,因为它的地位相当稳固。

  所以如果你曾经在TensorFlow中写了一串代码,后来又在PyTorch中写了另一串代码,现在希望将两者结合起来用以训练模型——那么tfpyth框架会是一个好选择。Tfpyth最大的优势就在于用户不需要重写先前写好的代码。

  这一项目对tfpyth的使用方法给出了结构严谨的示例,这无疑是对TensorFlow与PyTorch争论的一种重新审视。

  郑州人流医院那家好:http://mobile.zzrlyytj.com/

  郑州妇科:http://mobile.xasgfuke.cn/

  安装tfpyth易如反掌:

  pip install tfpyth

  以下是两篇深度介绍TensorFlow和PyTorch如何运作的文章:

  · 深度学习指南:使用Python中的TensorFlow实现神经网络

  https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

  · PyTorch——一个简单而强大的深度学习库

  https://www.analyticsvidhya.com/blog/2018/02/pytorch-tutorial/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

  7. MedicalNet

  MedicalNet中包含了一个PyTorch项目,该项目将《Med3D:用迁移学习分析3D医学图像》(https://arxiv.org/abs/1904.00625)这篇论文中的想法付诸实践。这一机器学习项目将医学数据集与不同的模态、目标器官和病理结合起来,以构建规模较大的数据集。

  众所周知,深度学习模型(通常)需要大量训练数据,而TenCent发布的MedicalNet是一个相当出色的开源项目,希望大家都能尝试使用它。

  MedicalNet的开发人员已经发布了四个预训练模型,这些模型基于23个数据集。如果你需要,下文对迁移学习进行了直观的介绍:

  · 迁移学习及在深度学习中使用预训练模型的艺术

  https://www.analyticsvidhya.com/blog/2017/06/transfer-learning-the-art-of-fine-tuning-a-pre-trained-model/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

原文地址:https://www.cnblogs.com/wode1/p/Transformers.html

时间: 2024-10-03 00:07:59

盘点当下大热的 7 大 Github 机器学习『创新』项目的相关文章

2017 编程趋势预测:10大技术大热,10大技术遇冷

在编程世界,流行的是科学,严谨和精确的准则.这不是说编程是一种缺乏趋势的行业.不同的是,由于编程重视的是高效,用户化和使用方便,因此编程技术需要不断更新换代. 那么,在即将到来的2017年和未来的几年内,会有哪些新技术出现,成为新的潮流,又有哪些技术的热潮会渐渐消退呢?下面所列出的10种技术,摘自infoworld.com的一位编辑Peter Wayner撰写的文章21 hot programming trends -- and 21 going cold.本文旨在与大家一起讨论这个话题. 1.

2017编程趋势预测:10大技术大热,10大技术遇冷

在编程世界,流行的是科学,严谨和精确的准则.这不是说编程是一种缺乏趋势的行业.不同的是,由于编程重视的是高效,用户化和使用方便,因此编程技术需要不断更新换代.那么,在即将到来的2017年和未来的几年内,会有哪些新技术出现,成为新的潮流,又有哪些技术的热潮会渐渐消退呢?下面所列出的10种技术,摘自infoworld.com的一位编辑Peter Wayner撰写的文章21 hot programming trends -- and 21 going cold.本文旨在与大家一起讨论这个话题. 1.

忘记IP 大热“超级IP”才能大卖

跳出超级IP的固态范围,抓住一个核心,即故事变了.场景换了,但人物气质不变,精神世界不变,原著的世界观不变. 文/张书乐 刊载于<株洲日报>11月30日天台时评版 下半年,在网络文化圈,有一个名词因为<大圣归来>这部动画电影而大红--超级IP.所谓IP,看着玄乎,其实就是版权,而超级IP,其实就是网络文学里面那些诸如<鬼吹灯>.<盗墓笔记>.<何以笙箫默>等大热网络小说改编的影视作品.这一概念在短时间内迅速蹿红,甚至一部网络小说尚未动笔,就已经卖

(4.2.32)各大热补丁方案分析和比较

选自: [腾讯bugly干货分享]微信Android热补丁实践演进之路 各大热补丁方案分析和比较 继插件化后,热补丁技术在2015年开始爆发,目前已经是非常热门的Android开发技术.其中比较著名的有淘宝的Dexposed.支付宝的AndFix以及QZone的classloader超级热补丁方案. 为什么需要热补丁 热补丁:让应用能够在无需重新安装的情况实现更新,帮助应用快速建立动态修复能力 从上面的定义来看,热补丁节省Android大量应用市场发布的时间.同时用户也无需重新安装,只要上线就能

再提《太阳的后裔》,大热背后谁是推手?

文/张书乐 刊载于<销售与市场>管理版2016年5月刊 韩剧<太阳的后裔>很火,演员宋仲基更火.可你确定能叫得出他在剧中的名字吗? 这个问题是芒果TV的一个小伙伴对笔者提出来的,除了有那么一丝对爱奇艺收视狂潮的醋意外,其实也透露出了一个信息--在韩剧大热的背后,有一股营销力量在左右. 讲个励志故事,刷爆款的最佳路径 2月24日,以中韩首次同步周播方式上线的<太阳的后裔>,在爱奇艺上才播了4集,话题量已经接近20亿,而视频的点击量则超过了3亿.到3月14日第6集上架,已经

为什么前两年大热的VR创业突然冷了?

不得不说,如果不是<头号玩家>在国内的热映,人们似乎都要忘记VR这个行业了.<头号玩家>中那些带有极强真实色彩的游戏,其实就是VR进化的目标,甚至是巅峰!而里面的角色佩戴的设备,其雏形正是现在的各种VR设备.但与电影大热形成鲜明对比的,是现在整个VR行业都处于沉寂阶段. 2016年.2017年VR是炙手可热的时间段,众多VR创业者.企业等层出不穷.相关的VR硬件设备.游戏/影视/旅游等内容也成为创业者的发力点,似乎大有一夜之间就进化成"完全体"形态,一举颠覆智能

Go语言的9大优势和3大缺点, GO语言最初的定位就是互联网时代的C语言, 我为什么放弃Go语言

Go语言的9大优势和3大缺点 转用一门新语言通常是一项大决策,尤其是当你的团队成员中只有一个使用过它时.今年 Stream 团队的主要编程语言从 Python 转向了 Go.本文解释了其背后的九大原因以及如何做好这一转换. Go的优势 原因 1:性能 Go 极其地快.其性能与 Java 或 C++相似.在我们的使用中,Go 一般比 Python 要快 30 倍.以下是 Go 与 Java 之间的基准比较: 原因 2:语言性能很重要 对很多应用来说,编程语言只是简单充当了其与数据集之间的胶水.语言

论大数据的十大局限

“忽如一夜春风来,千树万树梨花开”,似乎在一夜之间,大数据就红遍了南北半球,,大数据被神化得无处不在,无所不包,无所不能.这里面有认识上的原因,也有故意忽悠的成份.笔者以为,越是在热得发烫的时候,越是需要有人在旁边吹吹冷风.在这里谈大数据的十大局限性,并非要否定其价值.相反,只有我们充分认识了大数据的特点和优劣势,才能更加有效地对其进行采集.加工.应用,充分挖掘和发挥其价值.         1.数据噪声:与生俱来的不和谐 大数据之所以为大数据,首先是因为其数据体量巨大.然而,在这海量的数据中,

大数据简介与大数据分析

最近几年,大数据热得像烫手山芋!什么是大数据?通过查阅资料,整理一番,博文将给您带来福利了! 大数据概念 "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取.管理和处理. "大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量:其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐