自然语言8_中文搜词

import nltk
from nltk.corpus import sinica_treebank
sinica_text = nltk.Text(sinica_treebank.words())
print(sinica_text.concordance(‘我‘))

时间: 2024-10-13 04:41:50

自然语言8_中文搜词的相关文章

自然语言9_NLTK计算中文高频词

以下代码仅限于python2 NLTK计算中文高频词 >>> sinica_fd=nltk.FreqDist(sinica_treebank.words()) >>> top100=sinica_fd.items()[0:100] >>> for (x,y) in top100: print x,y 的 6776 . 1482 在 1331 是 1317 了 1190 有 759 我 724 他 688 就 627 上 612 和 580 也 542

自然语言0_nltk中文使用和学习资料汇总

http://blog.csdn.net/huyoo/article/details/12188573 nltk是一个Python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具. 1. nltk的安装 资料1.1: 黄聪:Python+NLTK自然语言处理学习(一):环境搭建  http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html   这个图

CSS3实战开发:百度新闻热搜词特效实战开发

各位网友,今天这篇文章,我将手把手带领大家开发百度新闻首页的"新闻热搜词"特效.在这个特效中应用的知识点都很基础,如果你对这些还不清楚,可以关注我以前写的详细教程.今天讲这个案例,也是希望告诉大家,在开发一个特效的时候,请不要将问题复杂化.可能有些人一开始真的不知道从哪下手,当你看完本次教程,你定会觉得,原来一切都这么简单. 可能有些人还不知道这个特效,啥也不说了,直接上效果图: 从上面的特效中,大家不难发现,当鼠标划过热搜词时,会有一个半透明的黑色背景滑上来,而且这个黑色区域中也是有

统计站内热搜词 实现百度搜索的时候的提示功能

方案一: 建立一张热搜词的数据表  每次用户插入就直接更新该表即可 ID KeyWords Count 缺点:每次搜索后都要Update这张表,高并发的情况就不太好使 方案二: 建立一张热搜词的数据表  每次用户搜索一次,就直接将该用户搜索的词插入数据库(最好使用NoSql而非关系型数据库),毕竟插入数据库的速度要比更新来得快,但是查询起来速度又会减慢 ID KeyWords SearchTime 方案三: 结合方案一与方案二: 定时任务: 每个一段时间将方案二的数据库表里的数据归纳到方案一的数

C++ 简单中文敏感词检测工具类

具体思路: 1->敏感词库,可从数据库读取,也可以从文件加载. 2->将敏感词转化为gbk编码,因为gbk严格按照字符一个字节,汉字两个字节的格式编码,便于容易切分文字段. 3->将所有敏感词以首个字符[英文一字节,汉字两字节]转换为一个整数,然后按照这个整数给所有敏感词建立索引,索引的value用list,因为考虑到同一个整数对应多个关键字. 4->检测一段内文字类容时,也实现转化为gbk,然后逐个字符[英文一字节,汉字两字节]检测是否有以该字符为首的敏感词. 代码.h 1 #i

sphinx+coreseek+php扩展--用php程序实现中文拆词

##################### 一  mariadb 安装 ##############                    使用的是yum安装 略##################################################### ##################### 二  php 环境搭建 ##############                    使用的是yum安装 略####################################

word2vec中文类似词计算和聚类的使用说明及c语言源代码

word2vec相关基础知识.下载安装參考前文:word2vec词向量中文文本相似度计算 文件夹: word2vec使用说明及源代码介绍 1.下载地址 2.中文语料 3.參数介绍 4.计算相似词语 5.三个词预測语义语法关系 6.关键词聚类 1.下载地址 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ 执行 make 编译word2vec工具: Makefile的编译代码在makefile.txt文件里,先改名makefile.txt 为M

托福阅读的搜词技巧

在听新东方刘聪的托福阅读课,讲到托福阅读题型中有一种排除列举题. 大致题型如上,这种题型最主要在于能够在文章中找到和各个选项对应的关键词,然而文章正常比较长,按行寻找关键词低效.容易出错.主要原因在于由于阅读习惯,当阅读整个要找的章节的时候,会不由自主地试着去理解每句话是什么意思,然而做这题的任务是找到关键词即可,理解句子纯属浪费时间.这里,刘聪给了一个“九宫格”法. 如图,用九宫格,将整段话分为九个部分,在九个部分里面单独寻找.这样的好处是能够将完整的句子割裂开,让读者无法下意识地去理解句子,

[python] 词云:wordcloud包的安装、使用、原理(源码分析)、中文词云生成、代码重写

词云,又称文字云.标签云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思.常见于博客.微博.文章分析等. 除了网上现成的Wordle.Tagxedo.Tagul.Tagcrowd等词云制作工具,在python中也可以用wordcloud包比较轻松地实现(官网.github项目): from wordcloud import WordCloud import matplotlib.pyplot as pl