tf–idf算法python代码实现
这是我写的一个tf-idf的核心部分的代码,没有完整实现,当然剩下的事情就非常简单了,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四句话,每句表示一个文档
copus=[‘我正在学习计算机‘,‘它正在吃饭‘,‘我的书还在你那儿‘,‘今天不上班‘]
由于中文需要分词,jieba分词是python里面比较好用的分词工具,所以选用jieba分词,文末是jieba的链接。首先对文档进行分词:
import jieba copus=[‘我正在学习计算机‘,‘它正在吃饭‘,‘我的书还在你那儿‘,‘今天不上班‘] copus= [[word for word in jieba.cut(doc)] for doc in copus] print(copus)
输出结果:
[[‘我‘, ‘正在‘, ‘学习‘, ‘计算机‘], [‘它‘, ‘正在‘, ‘吃饭‘], [‘我‘, ‘的‘, ‘书‘, ‘还‘, ‘在‘, ‘你‘, ‘那儿‘], [‘今天‘, ‘不‘, ‘上班‘]]
文档变成我们想要的格式了,然后开始词频统计,计算tf值,这里用Counter类来把每篇文档都转换成词和词频的字典,其实就已经得到tf值了
tf = [] for doc in copus: tf.append(Counter(doc)) print(tf)
输出结果:
[Counter({‘我‘: 1, ‘正在‘: 1, ‘学习‘: 1, ‘计算机‘: 1}), Counter({‘它‘: 1, ‘正在‘: 1, ‘吃饭‘: 1}), Counter({‘的‘: 1, ‘书‘: 1, ‘你‘: 1, ‘在‘: 1, ‘那儿‘: 1, ‘我‘: 1, ‘还‘: 1}), Counter({‘今天‘: 1, ‘不‘: 1, ‘上班‘: 1})]
计算idf值
import math from collections import defaultdict idf = defaultdict(int) for doc in tf: for word in doc: idf[word] += 1 for word in idf: idf[word] = math.log(len(idf)/(idf[word]+1)) print(idf)
输出结果:
defaultdict(<class ‘int‘>, {‘的‘: 2.0149030205422647, ‘正在‘: 1.6094379124341003, ‘学习‘: 2.0149030205422647, ‘计算机‘: 2.0149030205422647, ‘今天‘: 2.0149030205422647, ‘书‘: 2.0149030205422647, ‘那儿‘: 2.0149030205422647, ‘它‘: 2.0149030205422647, ‘不‘: 2.0149030205422647, ‘在‘: 2.0149030205422647, ‘吃饭‘: 2.0149030205422647, ‘我‘: 1.6094379124341003, ‘你‘: 2.0149030205422647, ‘还‘: 2.0149030205422647, ‘上班‘: 2.0149030205422647})
剩下的事情就很简单了,只需要把tf和idf相乘就可以了。
时间: 2024-10-14 12:15:08