第 0004 题:任一个英文的纯文本文件,统计其中的单词出现的个数。
思路:用正则表达式匹配响应的单词和数字,然后让Counter计算单词的词频,再用most_common方法返回一个按照词频排序的包含该词语和该词语出现的次数的元组的列表。
0004.统计单词.py
#!/usr/bin/env python
#coding: utf-8
import re
from collections import Counter
FILESOURCE = ‘/home/bill/Desktop/testarticle‘
def getMostCommonWord(articlefilesource):
‘‘‘输入一个英文的纯文本文件,统计其中的单词出现的个数‘‘‘
pattern = r‘‘‘[A-Za-z]+|\$?\d+%?$‘‘‘
with open(articlefilesource) as f:
r = re.findall(pattern,f.read())
return Counter(r).most_common()
if __name__ == ‘__main__‘:
print getMostCommonWord(FILESOURCE)
其中的文章是随便从BBC上选的一篇新闻
时间: 2024-11-13 21:36:45