机器学习入门-贝叶斯统计语料库的词频.groupby() collections

1..groupby()[].agg(by={})

2. collections.de...(lambda:1)

统计的单词是语料库中所有的词，对Dataframe统计单词词频，同时增加一列数据count，这里我们使用reset_index,sort_values(by = [‘counts], ascending=False)

这里使用的数据是经过分词后的语料库里所有的数据，该数据已经去除了停用词，

第一步：载入语料库的数据

第二步：进行分词

第三步：载入停用词，对停用词数据进行序列化tolist(),然后去除分词后语料库中的停用词

第四步：使用grouby()[].agg 进行词频统计，使用reset_index().sort_values根据新增的counts列进行排序操作

# 1.导入数据语料的新闻数据
df_data = pd.read_table(‘data/val.txt‘, names=[‘category‘, ‘theme‘, ‘URL‘, ‘content‘], encoding=‘utf-8‘)

# 2.对语料库进行分词操作
df_contents = df_data.content.values.tolist()

# list of list 结构
Jie_content = []
for df_content in df_contents:
    split_content = jieba.lcut(df_content)
    if len(split_content) > 1 and split_content != ‘\t\n‘:
        Jie_content.append(split_content)

# 3. 导入停止词的语料库, sep=‘\t‘表示分隔符， quoting控制引号的常量， names=列名， index_col=False，不用第一列做为行的列名， encoding
stopwords = pd.read_csv(‘stopwords.txt‘, sep=‘\t‘, quoting=3, names=[‘stopwords‘], index_col=False, encoding=‘utf-8‘)
print(stopwords.head())

# 对文本进行停止词的去除
def drop_stops(Jie_content, stopwords):
    clean_content = []
    all_words = []
    for j_content in Jie_content:
        line_clean = []
        for line in j_content:
            if line in stopwords:
                continue
            line_clean.append(line)
            all_words.append(line)
        clean_content.append(line_clean)

    return clean_content, all_words
# 将DateFrame的stopwords数据转换为list形式
stopwords = stopwords.stopwords.values.tolist()
clean_content, all_words = drop_stops(Jie_content, stopwords)
print(clean_content[0])

# 4 .对所有词统计词频，做一个字典，然后进行排序， 这里也可以使用collections实现

df_dict = pd.DataFrame({‘content‘:clean_content})
all_words_pd = pd.DataFrame({‘all_word‘:all_words})
all_words_pd = all_words_pd.groupby(by=[‘all_word‘])[‘all_word‘].agg({‘count‘:np.size})
all_words_pd = all_words_pd.reset_index().sort_values(by=[‘count‘], ascending=False)
print(all_words_pd.head())

原文地址：https://www.cnblogs.com/my-love-is-python/p/10290242.html

时间： 2024-08-01 01:09:35

机器学习入门-贝叶斯统计语料库的词频.groupby() collections的相关文章

机器学习入门-文本数据-构造词频词袋模型 1.re.sub(进行字符串的替换) 2.nltk.corpus.stopwords.words(获得停用词表) 3.nltk.WordPunctTokenizer(对字符串进行分词操作) 4.np.vectorize(对函数进行向量化) 5. CountVectorizer(构建词频的词袋模型)

函数说明: 1. re.sub(r'[^a-zA-Z0-9\s]', repl='', sting=string) 用于进行字符串的替换,这里我们用来去除标点符号参数说明:r'[^a-zA-Z0-9\s]' 配对的模式,^表示起始位置,\s表示终止位置,[]表示取中间部分,这个的意思是找出除字符串大小写或者数字组成以外的东西,repl表示使用什么进行替换,这里使用'',即直接替换,string表示输入的字符串 2. stopwords = nltk.corpus.stopwords.word

机器学习入门-贝叶斯统计语料库的词频.groupby() collections

机器学习入门-贝叶斯统计语料库的词频.groupby() collections的相关文章

机器学习入门-文本数据-构造词频词袋模型 1.re.sub(进行字符串的替换) 2.nltk.corpus.stopwords.words(获得停用词表) 3.nltk.WordPunctTokenizer(对字符串进行分词操作) 4.np.vectorize(对函数进行向量化) 5. CountVectorizer(构建词频的词袋模型)

机器学习入门资源--汇总

机器学习入门：线性回归及梯度下降

机器学习入门——单变量线性回归

【转载】机器学习入门者学习指南（经验分享）

机器学习入门 - 1. 介绍与决策树(decision tree)

老司机学python篇:第一季(基础速过、机器学习入门)

机器学习入门-文本特征-word2vec词向量模型 1.word2vec（进行word2vec映射编码）2.model.wv['sky']输出这个词的向量映射 3.model.wv.index2vec(输出经过映射的词名称)

web安全之机器学习入门——3.1 KNN/k近邻算法