我用Python进行情感分析，让程序员和女神牵手成功

先用电影评论来做情感分析，主要包括下面几个主要内容（看到最后哦）：

1、准备文本数据

2、基于文本文档来构建特征向量

3、训练机器学习模型来区分电影评论的正面评论和负面评论（对你的女神同样适用哦~~）

4、使用外存学习和在线学习算法来处理大数据

在本篇文章中，主要介绍对于电影评论数据的准备工作。

一、情感分析

情感分析也称观点挖掘(opinion mining)，是机器学习中自然语言处理(NLP)领域一个非常流行的分支，它主要是分析文档的情感倾向。

二、下载数据

请自行准备一个电影信息（或者直接使用你和女神的聊天信息）

该电影评论是来自IMDb中的电影评论，数据集一共包含了50000个关于电影的正面评论和负面评论，正面评论代表对于影片的评分超过了6颗星，而负面评论则表示评分低于5颗星。50000条评论被分成了四个文件夹train的neg和pos和test的neg和pos，其中每个文件夹中包含了12500个txt电影评论文件，其中pos代表正面评论,neg代表负面评论。所以，我们需要将这50000个txt文件整合成一个表格，表格分为两列，第一列表示评论的内容，第二列表示评论是属于正面(用1表示)还是负面(用0表示)。

三、生成电影评论的表格文件

将50000个txt文件整合成一个表格文件的时候，需要十分钟左右。我们可以通过Python的pyprind库将整个处理过程可视化，同时它还能根据当前计算机的运行状态来估计剩余处理时间，处理完成之后，还能查看消耗的总时间。通过python的数据分析库pandas将电影评论保存成一个csv文件。

1、预计处理总时间

2、统计处理总时间

3、python实现代码

我们还需要知道将文本转换为特征向量前的一些准备工作，主要内容包括：

1、清洗文本数据

2、标记文档

3、词袋模型

一、清洗文本数据

清洗文本需要将文本中所包含的一些不必要的字符删除。

1、删除不必要的字符

print(data["review"][0][-50:])

is seven.

Title (Brazil): Not Available

发现评论中含有一些HTML标记符、标点符号、以及其他的非字母符号。HTML标记符在对于我们对评论做情感分析的时候没有影响，至于标点符号可能会影响句子的语义，为了简化处理我们将标点符号进行删除，保留表情符号(如":)")，因为表情符号对于电影评论情感的分析很有帮助。下面，我们通过python的正则表达式来删除这些不必要的字符。

python的正则表达式提供了一种字符串搜索特定字符串的方便有效方法，正则表达式也要很多的技巧和方法，如果对正则表达式有兴趣的话可以自己去了解一下。在这里我们只是简单的使用一下，所以对正则表达式不会有太过详细的介绍。

2、标记文档

对于英文文档我们可以利用其天然的空格作为单词的分隔符，如果是中文的时候，可以利用一些分词库如jieba分词。在句子中，我们可能会遇见先"runners"、"run"、"running"单词不同的形式，所以我们需要通过词干提取(word

stemming)来提取单词原形。最初的词干提取算法是由Martin F. Porter在1979年提出的，被称为porter

stemming算法。我们可以通过安装python的自然语言工具包NLTK，官网安装链接:http://www.nltk.org/install.html，在NLTK中已经是实现了Porter

Stemming算法，还有实现了比它更高级的Snowball stemmer和Lancaster stemmer与porter

stemming相比，它们更加的提取速度更快。可以通过pip命令进行安装

pip install nltk

3、停用词的移除

停用词大致可以分为两类，一类是功能词，这些功能词非常普遍，与其他的词相比，功能词没有什么实际的含义，比如"the"、"is"、"at"、"which"等。还有一类是词汇词，比如"want"等。停用词对于电影评论的情绪分类没有任何意义，所以我们需要将一些停用词进行删除。通过nltk.download函数获取NLTK提供的停用词，并使用这些停用词来移除电影评论中的停用词。NLTK库提供的停用词，一共有179个，下面给出部分的停用词

我们还需要做什么呢？

1、将单词转换为特征向量

2、TF-IDF计算单词关联度

在之前，我们已经知道一些文本的预处理和分词。这篇文章中，主要介绍如何将单词等分类数据转成为数值格式，以方便我们后面使用机器学习来训练模型。

一、将单词转换为特征向量

词袋模型(bag-of-words model)：将文本以数值特征向量的形式来表示。主要通过两个步骤来实现词袋模型：

1、为整个文档集(包含了许多的文档)上的每个单词创建一个唯一的标记。

2、为每个文档构建一个特征向量，主要包含每个单词在文档上的出现次数。

注意：由于每个文档中出现的单词数量只是整个文档集中很少的一部分，因此会有很多的单词没有出现过，就会被标记为0。所以，特征向量中大多数的元素就会为0，就会产生稀疏矩阵。

下面通过sklearn的CountVectorizer来实现一个词袋模型，将文档转换成为特征向量

通过count.vocabulary_我们可以看出每个单词所对应的索引位置，每一个句子都是由一个6维的特征向量所组成。其中，第一列的索引为0，对应单词"and"，"and"在第一和二条句子中没有出现过，所以为0，在第三条句子中出现过一些，所以为1。特征向量中的值也被称为原始词频(raw

term frequency)简写为tf(t,d)，表示在文档d中词汇t的出现次数。

注意：在上面词袋模型中，我们是使用单个的单词来构建词向量，这样的序列被称为1元组(1-gram)或单元组(unigram)模型。除了一元组以外，我们还可以构建n元组(n-gram)。n元组模型中的n取值与特定的应用场景有关，如在反垃圾邮件中，n的值为3或4的n元组可以获得比较好的效果。下面举例说明一下n元组，如在"the weather is sweet"这句话中，1元组："the"、"weather"、"is"、"sweet"。2元组："the weather"、"weather is"、"is sweet"。在sklearn中，可以设置CountVecorizer中的ngram_range参数来构建不同的n元组模型，默认ngram_range=(1,1)。sklearn通过CountVecorizer构建2元组