#coding:utf-8
import jieba
import jieba.analyse #计算tf-idf需要调用此模块jieba.analyse
stopkey=[line.strip().decode(‘utf-8‘) for line in open(‘stopkey.txt‘).readlines()]
#将停止词文件保存到列表stopkey,停止词在网上下载的。
neirong = open(r"ceshi1.txt","r").read() #导入需要计算的内容
zidian={}
fenci=jieba.cut_for_search(neirong) #搜索引擎模式分词
for fc in fenci:
if fc in zidian:
zidian[fc]+=1 #字典中如果存在键,键值加1,
else:
zidian.setdefault(fc,1) #字典中如果不存在键,就加入键,键值设置为1
quanzhong=jieba.analyse.extract_tags(neirong,topK=20) #计算tf-idf,输出前20的权重词。
for qg in quanzhong:
if qg in stopkey: #如果qg存在停止词stopkey里面,则pass
pass
else: #不存在的话就输出qg和出现qg的次数
print qg+","+`zidian[qg]` #输出权重词和权重词出现的次数