nltk31_twitter情感分析

已经生成4个pickle文件，分别为documents,word_features,originalnaivebayes5k,featurests

其中featurests容量最大，3百多兆，如果扩大5000特征集，容量继续扩大，准确性也提供

https://www.pythonprogramming.net/sentiment-analysis-module-nltk-tutorial/

Creating a module for Sentiment Analysis with NLTK

# -*- coding: utf-8 -*-
"""
Created on Sat Jan 14 09:59:09 2017

@author: daxiong
"""

#File: sentiment_mod.py

import nltk
import random
import pickle
from nltk.tokenize import word_tokenize

documents_f = open("documents.pickle", "rb")
documents = pickle.load(documents_f)
documents_f.close()

word_features5k_f = open("word_features5k.pickle", "rb")
word_features = pickle.load(word_features5k_f)
word_features5k_f.close()

def find_features(document):
    words = word_tokenize(document)
    features = {}
    for w in word_features:
        features[w] = (w in words)

    return features

featuresets_f = open("featuresets.pickle", "rb")
featuresets = pickle.load(featuresets_f)
featuresets_f.close()

random.shuffle(featuresets)
print(len(featuresets))

testing_set = featuresets[10000:]
training_set = featuresets[:10000]

open_file = open("originalnaivebayes5k.pickle", "rb")
classifier = pickle.load(open_file)
open_file.close()

def sentiment(text):
    feats = find_features(text)
    return classifier.classify(feats)

print(sentiment("This movie was awesome! The acting was great, plot was wonderful, and there were pythons...so yea!"))
print(sentiment("This movie was utter junk. There were absolutely 0 pythons. I don‘t see what the point was at all. Horrible movie, 0/10"))

测试效果

还是比较准，the movie is good 测试不准，看来要改进算法，考虑用频率分析和过滤垃圾词来提高准确率

时间： 2024-10-19 19:39:31

nltk31_twitter情感分析的相关文章

文本情感分析的基础在于自然语言处理、情感词典、机器学习方法等内容。以下是我总结的一些资源。

词典资源:SentiWordNet<知网>中文版中文情感极性词典 NTUSD情感词汇本体下载自然语言处理工具和平台:哈尔滨工业大学社会计算与信息检索研究中心isnowfy/snownlp · GitHub 汉语分词:自然语言处理与信息检索共享平台 NLPIR.orgfxsjy/jieba · GitHub 语料资源:信息分类与情感发现课程:斯坦福大学自然语言处理第七课"情感分析(Sentiment Analysis)" 网站和博客:Text Classification

python snownlp情感分析简易demo

SnowNLP是国人开发的python类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典.注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode.MIT许可下发行.其 github 主页我自己修改了上文链接中的python代码并加入些许注释,以方便你的理解: f

情感分析语料资源（免费）

1.知网的情感词典- http://www.keenage.com/html/c_bulletin_2007.htm由知网发布的词典,包括中文情感词典和英文情感词典 2.台湾大学的情感极性词典- http://www.datatang.com/data/11837包括2810个正极性词语和8276个负极性词语准确度很高 3.酒店评论语料- http://www.datatang.com/data/11936 谭松波整理的一个较大规模的酒店评论语料语料规模为10000篇语料从携程网上自动采集,并经

情感分析的现代方法（包含word2vec Doc2Vec）

英文原文地址:https://districtdatalabs.silvrback.com/modern-methods-for-sentiment-analysis 转载文章地址:http://datartisan.com/article/detail/48.html 情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以提取文本的情感内容为目标的分类方法中.通过这种方式,情感分析可以被视为利用一些情感得分指标来量化定性数据的方法.尽管情绪在很大程度上是主观的,但是情感量化分析已经有

微博情感分析（一）

话说微博面世已经很久了,但对于微博信息的挖掘却才刚刚起步,这其中的原因当然有信息挖掘的技术还不成熟,但我觉得主要问题还是在于中文信息处理的技术还处于萌芽的阶段.中文语言本身信息量就很大,歧义性词汇多,再加上微博语言语义不整.微博媒介本体中夹杂着大量的标签,导致微博技术发展缓慢.在现在的网络上,用户通过网络主动地表达自己的观点或对其他人或事件的态度,主观性强:微博载体规定的语言只有140字,使信息在微博中呈现出碎片化.即时化和移动化的特性,而不再是具有完整的上下文信息.通过微博自由.便捷.即时地抒

C#编程实现朴素贝叶斯算法下的情感分析

C#编程实现这篇文章做了什么朴素贝叶斯算法是机器学习中非常重要的分类算法,用途十分广泛,如垃圾邮件处理等.而情感分析(Sentiment Analysis)是自然语言处理(Natural Language Progressing)中的重要问题,用以对文本进行正负面的判断,以及情感度评分和意见挖掘.本文借助朴素贝叶斯算法,针对文本正负面进行判别,并且利用C#进行编程实现. 不先介绍点基础? 朴素贝叶斯,真的很朴素朴素贝叶斯分类算法,是一种有监督学习算法,通过对训练集的学习,基于先验概率与贝叶

如何用KNIME进行情感分析

Customer Intelligence Social Media Finance Credit Scoring Manufacturing Pharma / Health Care Retail Cross Industry Government Credit Scoring / Credit Rating / Customer Risk (This workflow can be found on the KNIME Workflow Public Server under 0

主题模型及其在文本情感分析中的应用

随着Web2.0技术的出现和发展,互联网上(包括门户网站.电子商务网站.社交网站.音/视频分享网站.论坛.博客.微博等)产生了海量的.由用户发表的对于诸如人物.事件.产品等目标实体的评论信息.例如,下面这两个短文本评论:(1)“比较了多个智能手机后选择了8150,性价比还可以.另外,就是考虑到它是3.7的屏幕,大小比较合适,否则携带很不方便.”(京东商城用户,2011.11.25):(2)“我以前在杭州做二手房地产,用温州炒房客的话说:全世界房价降了,杭州的房价永远不会降,因为他们有一道坚不可摧

短文本情感分析

一.什么是情感分析: 情感分析(SA)又称为倾向性分析和意见挖掘,它是对带有情感色彩的主观性文本进行分析.处理.归纳和推理的过程,其中情感分析还可以细分为情感极性(倾向)分析,情感程度分析,主客观分析等. 情感极性分析的目的是对文本进行褒义.贬义.中性的进行判断. 情感程度分析主要是对同一情感极性中再进行划分或者细分,以描述该极性的强度.例如"喜爱"和"敬爱"都是褒义词,但是"敬爱"相对来说褒义的程度更加强烈一些. 主客观分析主要目的是识别文本中