NLP项目整理

基于 word2vec 和 CNN 的文本分类 :综述 & 实践  https://zhuanlan.zhihu.com/p/29076736

文本分类的算法

一、决策树(Decision Trees) 
二、人工神经网络

准确度高 并行分布处理能力强,分布存储及学习能力强,鲁棒性好  联想记忆        神经网络需要大量的参数,如网络拓扑结构、

三、遗传算法  编程实现比较复杂四、KNN算法(K-Nearest Neighbour)    简单、有效  新训练的代价较低      KNN方法主要靠周围有限的邻近的样本 而不是靠判别类域的方法来确定所属类别的  适用交叉或重叠较多的待分样本集   样本容量比较大 可解释性不强,决策树的可解释性较强。 
五、支持向量机(SVM)  
小样本    高泛化    高维   非线性 避免神经网络结构选择和局部极小点 
1、对缺失数据敏感。 
2、对非线性问题没有通用解决方案,必须谨慎选择Kernelfunction来处理。 
六、朴素贝叶斯 
要知道先验概率   分类决策存在错误率 
七、Adaboosting方法

高精度     提供的是框架。 
不用担心overfitting。

训练集和测试集划分

机器学习传统方法的时候,一般将训练集和测试集划为7:3.

若有验证集,则划为6:2:2. 当数据量不大的时候(万级别及以下)。

在深度学习中若是数据很大(百万级以上),我们可以将训练集、验证集、测试集比例调整为98:1:1

词袋模型

Bag of words model假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现

为什么用交叉验证法    留出法  留一法

评估模型的预测性能  减小过拟合 获取多有效信息。

Navie Bayes和Logistic回归区别是什么?

前者是生成式模型,后者是判别式模型,二者的区别就是生成式模型与判别式模型的区别。

1)Navie Bayes通过已知样本求得先验概率P(Y), 及条件概率P(X|Y), 对于给定的实例,计算联合概率,进而求出后验概率。也就是说,它尝试去找到底这个数据是怎么生成的(产生的),然后再进行分类。哪个类别最有可能产生这个信号,就属于那个类别。

优点:样本容量增加时,收敛更快;隐变量存在时也可适用。

缺点:时间长;需要样本多;浪费计算资源

2)相比之下,Logistic回归直接给出预测模型的式子。设每个特征都有一个权重,训练样本数据更新权重w,得出最终表达式。梯度法。

优点:直接预测往往准确率更高;简化问题;可以反应数据的分布情况,类别的差异特征;适用于较多类别的识别。

缺点:收敛慢;不适用于有隐变量的情况。

Textrank算法

Tensorflow VocabularyProcessor

max_document_length: 文档的最大长度。如果文本的长度大于最大长度,那么它会被剪切,反之则用0填充。 
min_frequency: 词频的最小值,出现次数小于最小词频则不会被收录到词表中。 
vocabulary: CategoricalVocabulary 对象。 
tokenizer_fn:分词函数

原文地址:https://www.cnblogs.com/qianyuesheng/p/8743760.html

时间: 2024-07-30 07:11:18

NLP项目整理的相关文章

项目整理--Echarts前端后台的贯通写法

项目整理–Echarts前端后台的贯通写法 注:下面所有内容建立在FH admin开源框架和eharts插件基础上,建议观看本案例者进行了解. 业务逻辑 绘制两张图表.分别显示城市空间库和其它数据仓库的信息(城市空间库单独绘制).要求:城市空间库显示数据库的实际使用量和剩余用量.其它库显示百分比. 效果展示 默认显示状态 鼠标指向状态 实现过程 1.后台数据处理 表结构设计 数据库数据 注:此处数据为显示数据,并不是项目使用数据,仅作測试使用. Mapper文件写法 注1:此处在前端页面须要绘制

深度学习与模式识别之项目整理

深度学习与模式识别之项目整理 [email protected] http://blog.csdn.net/luojun2007 作者:Luogz 声明: 本人一直从事图像处理,模式识别专业方向.该专业具有非常广的应用范围.我对这个专业有非常大的兴趣.本人承接各种与图像处理相关的项目,如您须要请联系我,谢谢!! ! 图像处理方向大概有下面等应用场景: 1) 智能交通 2) 日常智能产品应用 3)医学 4)工业 5)航空 以上领域.我基本都有涉及.熟悉图像增强.图像重建.人脸检測.人脸性别分类.年

GitHub优质项目整理。

福利大放送 free-programming-books 这个项目目前 star 数排名 GitHub 第三,总 star 数超过6w,这个项目整理了所有跟编程相关的免费书籍,而且全球多国语言版的都有,中文版的在这里:free-programming-books-zh,有了这个项目,理论上你可以获取任何编程相关的学习资料,强烈推荐给你们! oh-my-zsh 俗话说,不会用 shell 的程序员不是真正的程序员,所以建议每个程序员都懂点 shell,有用不说,装逼利器啊!而 oh-my-zsh

291.博客园安卓&苹果手机客户端开源项目整理

1.简介 1.1本贴简介 本贴主要收集一些博客园安卓&苹果端的开源项目,方便园友参与开发和下载,各个风格不同,根据各人审美参与开发和下载使用,欢迎下方留言投稿. 1.2本贴说明 本贴为个人整理,与博客园官方无关,其中所有观点看法均为个人看法,不代表博客园官方和开发者,如有侵权或言论不良,请下方留言,必定删除或修改. 下方排序为本文博主接触及收集顺序,并不是安全性.美观性等标准的排序. 博主简评为个人看法,并不代表该应用的全部特点,只是选取个人认为比较方便实用或者突出的特点进行说明,如有本同看法欢

Android开源项目整理:个性化空间View篇(看遍论坛千万篇,不看此篇也枉然)

个性化View控件虽然你在多处可以找到 但是这个整理的不可以不看欧: 主要介绍不错的个性化View,包括ListView.ActionBar.Menu.ViewPager.Gallery.GridView.ImageView.ProgressBar.TextView.ScrollView.TimeView.TipView.FlipView.ColorPickView.GraphView.UI Style 等等.   乐于分享并且有一些很不错的开源项目的个人和组织,包括JakeWharton.Ch

安卓开发8- 安卓开源项目整理github

主要是一些从知乎上来的:http://www.zhihu.com/question/23804819 地址:The Android Arsenal Google I/O Android App - https://github.com/google/iosched AntennaPod Rss订阅 乐音订阅 - https://github.com/danieloeh/AntennaPodMuzei Live Wallpaper 定时更换桌面精美壁纸 - https://github.com/r

bbs小项目整理(一)(界面整理篇)

1.首先讲解一下这个小项目要实现的工能 ①在登录界面实现简单的用户输入验证,使用验证码放置恶意注册 ②在登录成功后能在首页左侧显示用户的一些信息,在右侧显示最新的五条消息 ③之后可以根据导航条选择查看更多消息 ④发布消息的界面 ⑤点击消息标题进入查看详细消息界面 ⑥在查看详细消息界面的下方提供用户回复 总结以上就是要实现的几个功能界面了(PS:前端技术有限,只能编写一些简单的界面 ^_^!!) 下面的系列就是对这些小功能,小模块的实现整理(刚入门的小菜鸟一枚,大神轻喷,主要整理自己学习的一些小东

最火的Android开源项目整理

一.代码库 1.from  代码家 整理比较好的源码连接 *************************************************************************************************************************************************************************** http://blog.zhan-dui.com/?page_id=60 感谢 “代码家”整理 一

直接拿来用!最火的Android开源项目整理

一.代码库 1.from  代码家 整理比较好的源码连接 *************************************************************************************************************************************************************************** http://blog.zhan-dui.com/?page_id=60 感谢 “代码家”整理 一