统计英文文档频率前n单词

#coding:utf-8
#!/usr/bin/python2.6

def statistic_eng_text():
    ‘‘‘统计出英文文档中高频词汇‘‘‘
    cnt = Counter()
    np = os.path.join(get_project_path(),‘doc‘,‘jack lodon.txt‘)
    ff = open(np,‘r‘)
    words = ff.read()
    format_text = re.split(‘[\s\ \\,\;\.\!\n]+‘,words)

    for w in format_text:#比较的时候注意了大小写,其中有一个 the是以大写字母开始的,所以在notepad中统计出来了,而在代码中没有统计出来

        cnt[w.lower()] += 1#这里需要把单词进行一个转换,避免大小写导致的不匹配
    print cnt.most_common(5)

if __name__ == ‘__main__‘:
    statistic_eng_text()

  

时间: 2024-10-10 02:45:28

统计英文文档频率前n单词的相关文章

python3 怎么统计英文文档常用词?(附解释)

# coding: utf-8 # In[32]: #import requests #from bs4 import BeautifulSoup #res = requests.get("http://www.guancha.cn/america/2017_01_21_390488_s.shtml") #res.encoding = 'utf-8' #soup = BeautifulSoup(res.text,'lxml') # In[66]: speech_new = open(&

对英文文档中的单词与词组进行频率统计

一.程序分析 1.以只读模式读取文件到字符串 def process_file(path): try: with open(path, 'r') as file: text = file.read() except IOError: print("Read File Error!") return None return text 2.对字符串进行数据清洗,返回一个字典 import re word_list = re.sub('[^a-zA-Z0-9n]', ' ', textStr

一篇英文文档中找出频数最多的10个单词

"""一篇英文文档中找出频数最多的10个单词collections: Counter 提供计数器工具以支持方便和快速的计数 most_common(n) 返回n个最常见元素及其计数的列表,从最常见到最少. 如果省略nNone,则 most_common()返回计数器中的所有元素."""import refrom collections import Counter# print(dir(Counter))with open('english.tx

py爬取英文文档学习单词

最近开始看一些整本整本的英文典籍,虽然能看个大概,但是作为四级都没过的我来说还是有些吃力,总还有一部分很关键的单词影响我对句子的理解,因为看的是纸质的,所以查询也很不方便,于是想来个突击,我想把程序单词收拢在一起学习一下,希望这样的更有针对性一些,因为你想,arbitrary (任意的,武断的)这样的单词不太可能会出现在技术文档上,学了这样的单词对理解英文技术文档没有太大帮助.所以今天花了几个小时研究了一下,发现是很可行的,实现也不算难.步骤主要是以下几点,第一:先搞定翻译接口.翻译的来源分为接

如何看英文文档?

发现自己没有看英文文档的能力,一是看不进去,二是勉强看进去但是很累,往往看了后面就忘了前面的.太长的文档基本需要很长时间才能看懂. 怎么办? 以后就把英文文档直接下载下来,然后用文本编辑器打开,看一句翻译一句.直接自己搞汉化.这样不仅印象深刻,再次复习的时候也能快速的看懂. 虽然笨了点,效率查了点,但是是个好方法.相信坚持下来还是会有所收获的.以后自己英文文档的阅读能力也会随着翻译的数量的增加而提高的. 纯英文的文档看完了还可以分享的网络上,也算有分享精神,而且,如果哪里有不正确的地方也许网友可

Nagios 插件开发英文文档网址

http://nagios-plugins.org/doc/guidelines.html#PREFACE Nagios 插件开发英文文档网址,布布扣,bubuko.com

软件开发中 常见英文文档 缩写(转)

软件开发中常见英文缩写和各类软件开发文档的英文缩写: 英文简写 文档名称 MRD market requirement document (市场需求文档) PRD product requirement document (产品需求文档) SOW 工作任务说明书 PHB Process Handbook (项目过程手册) EST Estimation Sheet (估计记录) PPL Project Plan (项目计划) CMP Software Management Plan( 配置管理计划

PHP-redis英文文档

作为程序员,看英文文档是必备技能,所以尽量还是多看英文版的^^ PhpRedis The phpredis extension provides an API for communicating with the Redis key-value store. It is released under the PHP License, version 3.01. This code has been developed and maintained by Owlient from November

openstack【Kilo】汇总:包括20英文文档、各个组件新增功能及Kilo版部署

OpenStack Kilo版本发布 20英文文档OpenStack Kilo版本文档汇总:各个操作系统安装部署.配置文档.用户指南等文档 Kilo版部署 openstack[Kilo]入门 [准备篇]零:整体介绍 openstack[Kilo]入门 [准备篇]一: Ubuntu14.04远程连接(ssh安装) openstack[Kilo]入门 [准备篇]二:NTP安装 openstack[Kilo]入门 [准备篇]三:mysql(MariaDB)安装[控制节点] openstack[Kilo