python 统计单词个数

根据一篇英文文章统计其中单词出现最多的10个单词。

# -*- coding: utf-8 -*-
import urllib2
import re
from collections import Counter

‘‘‘
007之雷霆谷 You Only Live Twice‘,可以从http://novel.tingroom.com/jingdian/1584/47084.html这个地址获取,
列出其中使用最频繁的10个单词,并给出它们的出现次数
Python2.7上测试通过
‘‘‘

‘‘‘根据URL网址读取数据‘‘‘
def Get_Data(url):
  data = urllib2.urlopen(url).read()
  return data

‘‘‘统计单词及个数,text是要统计的文章字符串,n是统计次数最多的前几个‘‘‘
def PrintWordsCount(text,n=1):
  ‘‘‘调用Counter用正则进行拆分‘‘‘
  wordCountList = Counter(re.split(r‘\W+‘, text, flags=re.M|re.I)).most_common(n)
  print ‘单词\t次数‘
  print ‘\n‘.join([w+‘\t‘+str(c) for w,c in wordCountList])

#测试代码
def test():
url =‘http://novel.tingroom.com/jingdian/1584/47084.html‘
data = Get_Data(url)
PrintWordsCount(data,10)
test()

时间: 2024-10-09 00:40:53

python 统计单词个数的相关文章

python 统计单词个数---不去重

需求: 统计一篇完全由英文构成的文章中的单词的个数 分析:需要判断什么是单词,并统计判断为单词的元素的个数 需要: Python 正则表达式 简单例子: import re pattern  = re.compile(r'\w+') pattern.match('hello ,world') words = pattern.findall('hello hello  world') len(words)

python 统计单词个数---从文件读取版本---不去重

#/usr//bin/env  pytnon #coding:utf-8 import re ''' words = 'hello word  [email protected]#  ####   ##$dfabpple# apple##%#$  3423421apple        apple323423 432422324##[email protected]@#  @@@@@  $$!!#!#' ''' #编译生成正则表达式对象 regexp = re.compile(r'[a-zA-Z

统计单词个数

驱动开发的第六章让我了解了统计单词个数的Linux驱动程序开发和测试的完整过程. Linux系统将每一个驱动都映射成一个文件,这些文件被称为设备文件或驱动文件,都保存在/dev目录中.由于大多数Linux驱动都有与其对应的设备文件,因此与Linux驱动交换数据就变成了与设备文件交换数据. 编写Linux驱动程序的步骤:第一步,建立Linux驱动骨架(装载和卸载Linux驱动):第二步,注册和注销设备文件:第三步,指定与驱动相关的信息:第四步,指定回调函数:第五步,编写业务逻辑:第六步,编写mak

NOIP2001 统计单词个数

题三 统计单词个数(30分) 问题描述 给出一个长度不超过200的由小写英文字母组成的字母串(约定;该字串以每行20个字母的方式输入,且保证每行一定为20个).要求将此字母串分成k份(1<k<=40),且每份中包含的单词个数加起来总数最大(每份中包含的单词可以部分重叠.当选用一个单词之后,其第一个字母不能再用.例如字符串this中可包含this和is,选用this之后就不能包含th). 单词在给出的一个不超过6个单词的字典中. 要求输出最大的个数. 输入格式 去部输入数据放在文本文件input

codevs 1040 统计单词个数

1040 统计单词个数 2001年NOIP全国联赛提高组  题目等级 : 黄金 Gold 题目描述 Description 给出一个长度不超过200的由小写英文字母组成的字母串(约定;该字串以每行20个字母的方式输入,且保证每行一定为20个).要求将此字母串分成k份(1<k<=40),且每份中包含的单词个数加起来总数最大(每份中包含的单词可以部分重叠.当选用一个单词之后,其第一个字母不能再用.例如字符串this中可包含this和is,选用this之后就不能包含th)(管理员注:这里的不能再用指

第六章第一个Linux驱动程序:统计单词个数

第六章介绍如何在多种平台,使用多种方法测试Linux驱动. 本章主讲统计单词个数的算法的实现技术:Linux驱动.统计单词个数的功能是封装在Linux驱动中的.驱动不一定是直接和硬件打交道的,还可以喝普通的library一样提供其他程序的调用来实现特定功能的. 第一节Linux驱动到底是个什么东西 Linux驱动和普通的Linux API没有本质上的区别,只是使用Linux驱动的方式和使用Linux API的方法不同. Linux系统将每一个驱动都映射成一个文件,这些文件称为设备文件或驱动文件,

洛谷 【P1026】统计单词个数

P1026 统计单词个数 题目描述 给出一个长度不超过200的由小写英文字母组成的字母串(约定;该字串以每行20个字母的方式输入,且保证每行一定为20个).要求将此字母串分成k份(1<k<=40),且每份中包含的单词个数加起来总数最大(每份中包含的单词可以部分重叠.当选用一个单词之后,其第一个字母不能再用.例如字符串this中可包含this和is,选用this之后就不能包含th). 单词在给出的一个不超过6个单词的字典中. 要求输出最大的个数. 输入输出格式 输入格式: 每组的第一行有二个正整

第六章 第一个Linux驱动程序:统计单词个数 心得笔记

一.Linux系统将每个驱动都映射成一个文件.这些文件称为设备文件或驱动文件,都保存在/dev目录中.这使得与Linux驱动进行交互就向与普通文件进行交互一样容易.大多数Linux驱动都有与其对应的设备文件,因此与Linux驱动交换数据变成与驱动设备交换数据. 二.编写Linux驱动程序 1.建立Linux驱动骨架           Linux内核在使用驱动时需要装载与卸载驱动        装载驱动:建立设备文件.分配内存地址空间等:module_init 函数处理驱动初始化        

统计单词个数案例

Linux系统将每一个驱动都映射成一个文件.这些文件称为设备文件或驱动文件,都保存在/dev目录中.编写linux驱动最重要的一步就是编写回调函数,否则与设备文件交互的数据无法得到处理. 1. 编写linux驱动程序的步骤: 第 1 步:建立 Linu x 驱动骨架 (装载和卸载 Linu x 驱动): Linux 内核在使用驱动时首先需要装载驱动.当 Linux系统退出时需要卸载 Linux 驱动,在卸载的过程中需要释放由 linux 驱动占用的资源,例如,删除设备文件.释放内存地址空间等.在