结巴中文词频分析

结果保存在result.txt文档内

# -*- coding: utf-8 -*-

import jieba
import sys
from collections import Counter
import jieba.analyse
filename="招聘分析.txt"

def fenci(filename) :
    f = open(filename,‘r+‘)
    file_list = f.read()
    f.close()

    seg_list = list(jieba.cut(file_list,cut_all=True))
    tf={}
    for seg in seg_list :
        #print seg
        seg = ‘‘.join(seg.split())
        if (seg != ‘‘ and seg != "\n" and seg != "\n\n") :
            if seg in tf :
                tf[seg] += 1
            else :
                tf[seg] = 1

    f = open("result.txt","w+")
    for item in tf:
        #print item
        f.write(item+"  "+str(tf[item])+"\n")
    f.close()

fenci(filename)
时间: 2024-10-07 08:41:23

结巴中文词频分析的相关文章

实验二-3 Hadoop&Paoding 中文词频统计

  参考教程 在Hadoop上使用庖丁解牛(较复杂,并未采用,可以之后试试) http://zhaolinjnu.blog.sohu.com/264905210.html Lucene3.3.Lucene3.4中文分词——庖丁解牛分词实例(屈:注意版本) http://www.360doc.com/content/13/0217/13/11619026_266124504.shtml 庖丁分词在hadoop上运行时的配置问题(采纳了一半,没有按照其所写配置dic属性文件) http://f.da

"结巴"中文分词的R语言版本:jiebaR

"结巴"中文分词的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(MixSegment),共四种分词模式,同时有词性标注,关键词提取,文本Simhash相似度比较等功能.项目使用了Rcpp和CppJieba进行开发. 特性 支持 Windows , Linux操作系统(Mac 暂未测试). 通过Rcpp Modules实现同时加载多个分词系统,可以分别使用不

中文词频统计与词云生成

https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 中文词频统计 1. 下载一长篇中文小说. 2. 从文件读取待分析文本. 3. 安装并使用jieba进行中文分词. pip install jieba import jieba jieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇. jieba.add_word('天罡北斗阵')  #逐个添加 jieba.load_userdict(word_dict) 

词频分析

词频分析,分析一段文字或者一段话每个单词出现的频率.对于英文文章,我们可以使用split()函数进行文章段落的切割,对于中文,我们可以使用jieba库进行文章段落的分割. import jieba # jieba提供三种分词模式 txt = "中华人民共和国万岁,中国共-产-党万岁,中国人民万岁!" words1 = jieba.lcut(txt) words2 = jieba.lcut(txt, cut_all=True) words3 = jieba.lcut_for_search

初学Hadoop之中文词频统计

1.安装eclipse 准备 eclipse-dsl-luna-SR2-linux-gtk-x86_64.tar.gz 安装 1.解压文件. 2.创建图标. ln -s /opt/eclipse/eclipse /usr/bin/eclipse #使符号链接目录 vim /usr/share/applications/eclipse.desktop #创建一个  Gnome 启动 添加如下代码: [Desktop Entry] Encoding=UTF-8 Name=Eclipse 4.4.2

唐诗三百首分词词频分析

发现本博客的文章也有随意转载了,而且排名还比原文高.所以加上申明,本文不得转载. http://www.cnblogs.com/cartler ? 下面是正文,看到微博上词频分析很火,自己也试了下. 过程很简单,但结果很有趣,所以先上结果. 成果基本可以由下面这首"唐诗"概括,o(≧v≦)o~~好棒~ ? 不见万里在何处 琵琶明月尤不知 不得春风思故人 长安将军今无人 ? 出现频率最高的如下: ? 从结果还可以分析出一些东西: 比如:蜀道之难难于上青天,仅仅这一句就出现过三次,[出典]

中文词频统计及词云制作

  1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答) 大数据会用到哪些技术? 2.中文分词 下载一中文长篇小说,并转换成UTF-8编码. 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数. **排除一些无意义词.合并同一词. import jieba fr=open("复活.txt",'r',encoding='utf-8') s=list(jieba.cut(fr.read())) key=set(s) dic={} f

中文词频统计

中文分词 下载一中文长篇小说,并转换成UTF-8编码. 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数. 排除一些无意义词.合并同一词. 对词频统计结果做简单的解读. import jieba txt=open('111.txt','r',encoding='utf-8').read() words=list(jieba.cut(txt)) keys=set(words) dic={} for w in keys: if len(w)>1: dic[w]=words.count

+中文词频统计及词云制作9-25

1.我希望老师能讲一点python在数据挖掘,数据分析领域的应用,最好能举些实例,或者说带我们实际操作一波. 2.中文分词 下载一中文长篇小说,并转换成UTF-8编码   使用jieba库,进行中文词频统计,输出TOP20的词及出现次数. >>>import jieba >>>lr = open('斗破苍穹第一章.txt','w') >>>lr.write('''大陆名为斗气大陆,大陆上并没有小说中常见的各系魔法,而斗气,才是大陆的唯一主调! 在这片大