一、程序分析
(1)读取文件到缓冲区
def process_file(dst): # 读文件到缓冲区 try: # 打开文件 f1=open(dst,"r") except IOError as s: print (s) return None try: # 读文件到缓冲区 bvffer=f1.read() except: print ("Read File Error!") return None f1.close() return bvffer
(2)缓冲区字符串分割成带有词频的字典
def process_buffer(bvffer): if bvffer: word_freq = {} # 下面添加处理缓冲区 bvffer代码,统计每个单词的频率,存放在字典word_freq bvffer=bvffer.lower() for x in ‘[email protected]#$%^&*()_+/*-+\][‘: bvffer=bvffer.replace(x, " ") words=bvffer.strip().split() for word in words: word_freq[word]=word_freq.get(word,0)+1 return word_freq
(3)将字典按词频排序并输出排名前十的词频对
def output_result(word_freq): if word_freq: sorted_word_freq = sorted(word_freq.items(), key=lambda v: v[1], reverse=True) for item in sorted_word_freq[:10]: # 输出 Top 10 的单词 print (item)
(4)封装main函数
def main(): dst = "Gone_with_the_wind.txt" bvffer = process_file(dst) word_freq = process_buffer(bvffer) output_result(word_freq) if __name__ == "__main__": import cProfile import pstats cProfile.run("main()", "result") # 直接把分析结果打印到控制台 p = pstats.Stats("result") # 创建Stats对象 p.strip_dirs().sort_stats("call").print_stats() # 按照调用的次数排序 p.strip_dirs().sort_stats("cumulative").print_stats() # 按执行时间次数排序 p.print_callers(0.5, "process_file") # 如果想知道有哪些函数调用了process_file,小数,表示前百分之几的函数信息 p.print_callers(0.5, "process_buffer") # 如果想知道有哪些函数调用了process_buffer p.print_callers(0.5, "output_result") # 如果想知道有哪些函数调用了output_res
二、代码风格
缩进
使用4个空格进行缩进
ef process_buffer(bvffer): if bvffer:
行宽
每行代码尽量不超过80个字符
三、程序运行命令、运行结果截图
四、性能分析结果及改进
执行次数最多
执行时间最多
五、可视化操作
- 需要安装:graphviz , "pip install graphviz"; 参考使用cProfile分析Python程序性能:链接
- 下载转换 dot 的 python 代码gprof2dot 官方下载,下载完了,解压缩,将『gprof2dot.py』 copy 到当前分析文件的路径,或者你系统 PATH 环境变量设置过的路径
1. 性能分析:python -m cProfile -o result -s cumulative word_freq.py Gone_with_the_wind.txt;分析结果保存到 result 文件;
2. 转换为图形;gprof2dot 将 result 转换为 dot 格式;再由 graphvix 转换为 png 图形格式。
命令:python gprof2dot.py -f pstats result | dot -Tpng -o result.png
得到以下图
原文地址:https://www.cnblogs.com/zhouzhan/p/9763681.html
时间: 2024-11-05 00:41:54