数据挖掘——文本挖掘

文本挖掘是将文本信息转化为可利用的数据的知识。  

第一步:创建“语料库”

语料库(Corpus)是我们要分析的所有文档的集合。

实现逻辑:

  将各文本文件分类放置在一个根目录下,通过读取根目录下所有子目录中的所有文件,

  然后将读取结果赋值到一个数据框中,得到含有文件路径、文件内容的结果。

代码核心:

  构建方法:os.walk(fileDir)    对在fileDir目录下的所有文件(for循环)进行操作  ,得到文件路径

  文件读取:codecs.open(filepath,medthod,encoding)   文件路径、打开方式(r,w,rw)、文件编码  ,得到文本内容

#构建语料库
import codecs
filepaths = []  #构建一个空的‘文件路径’列表
filecontents = [] #构建一个空的‘文件内容’列表
for root, dirs, files in os.walk(‘.\SogouC.mini\Sample‘):
    for name in files:
         #拼接文件路径,得到所有子文件夹下的文件的文件路径的列表 filepaths,包含根目录、子目录和文件名
        filepath = os.path.join(root,name)
        filepaths.append(filepath) #将所有子文件夹下的文件路径的列表合并到一个新的列表中
        #打开文件,‘r’表示只读,编码方式‘utf-8’
        f = codecs.open(filepath,‘r‘,‘utf-8‘)
        filecontent = f.read() #读取文件,并将内容传入到  ‘filecontent‘(文件内容)列表中
        f.close() #关闭文件
        filecontents.append(filecontent) #将所有子文件夹下的文件内容的列表合并到一个新的列表中

import pandas as pd
#根据得到的合并后的文件路径和文件内容,得到语料库的数据框
corpos = pd.DataFrame({
        ‘filePath‘:filepaths,
        ‘fileContent‘:filecontents})
corpos.to_csv(‘.\corpos.csv‘,sep=‘,‘,encoding=‘utf_8_sig‘,index=False)###防止保存时出现乱码,需要参数encoding=‘utf_8_sig‘

 第二步:中文分词

  一般使用 jieba 中文分词包

  jieba.cut(‘str‘)   对str进行分词

  jieba.add_word()   增加自定义分词

  jieba.load_userdict()  通过导入保存文件中的单词添加到词库

<未完>

  

原文地址:https://www.cnblogs.com/rix-yb/p/9630956.html

时间: 2024-11-10 00:20:24

数据挖掘——文本挖掘的相关文章

数据挖掘——文本挖掘-关键字提取

基于jieba包的自动提取 关键方法:jieba.analyse.extract_tags(content,topK=n) 具体思路:通过jieba包自带的extract_tags方法,在遍历读取文件内容时,获得每篇文档前n个关键字 使用的包: import os import codecs import pandas as pd import jieba import jieba.analyse 过程: '''定义变量 文件路径/文件内容/关键字(5个)''' filepaths = [] c

关于数据挖掘中的文本挖掘

文本挖掘, 顾名思义,就是挖掘本文信息中潜在的有价值的信息.文本数据与数值数据的区别有三: 第一,非结构化且数据量大: 文本数据的数据量是非常之巨大的,一百万条结构化数据可能才几十到几百兆,而一百万条文本数据就已经是GB了.当然文本数据的数据量无法与每天的log数据相比,但在基础数据中算是占比很大的数据类型了.大数据容量的数据和大数据条目的数据处理方式完全不一样,普通的机器甚至都无法按条处理:其次呢,文本数据是非结构化数据.非结构化意味着没有任何的列可供你定义和参考. 第二,它与人的语言是对接的

7款优秀的开源数据挖掘工具

7款优秀的开源数据挖掘工具 IDMer说道:本文只对几种流行的开源数据挖掘平台进行了检视,比如Weka和R等.如果您想找寻更多的开源数据挖掘软件,可以到KDnuggets和Open Directory上查看.为了评测这些软件,我们用了UCI Machine Learning Repository上的心脏病诊断数据集. Tanagra Tanagra (http://eric.univ-lyon2.fr/wricco/tanagra/) 是使用图形界面的数据挖掘软件,采用了类似Windows资源管

大数据时代的精准数据挖掘——使用R语言

老师简介: Gino老师,即将步入不惑之年,早年获得名校数学与应用数学专业学士和统计学专业硕士,有海外学习和工作的经历,近二十年来一直进行着数据分析的理论和实践,数学.统计和计算机功底强悍. 曾在某一世界500强公司核心部门担任高级主管负责数据建模和分析工作,在实践中攻克统计建模和数据分析难题无数,数据处理与分析科学精准,在实际应用中取得良好的效果. Gino老师担任数据分析培训师多年,探索出一套以实例讲解带动统计原理理解和软件操作熟悉的方法,授课的学生能迅速理解统计原理并使用统计软件独立开展数

【知乎转载】机器学习、数据挖掘 如何进阶成为大神?

著作权归作者所有. 商业转载请联系作者获得授权,非商业转载请注明出处. 作者:淩清风 链接:https://www.zhihu.com/question/37256015/answer/85198013 来源:知乎 我不是大神. 背景:某二本院校大四学生: 说一说自己的学习经历吧.不知道能不能对题主有所帮助. 跟大多数人一样,是从Andrew Ng大神的coursera课程接触到机器学习.在学那门课的时候也就老老实实的看完,看到最后,听到Andrew说看完这些课程的人基本上已经超过硅谷半数的工程

舆情,文本挖掘

MLE,MAP,EM 和 point estimation 之间的关系是怎样的 和点估计相对应的是区间估计,这个一般入门的统计教材里都会讲.直观说,点估计一般就是要找概率密度曲线上值最大的那个点,区间估计则要寻找该曲线上满足某种条件的一个曲线段. 最大似然和最大后验是最常用的两种点估计方法.以最简单的扔硬币游戏为例,一枚硬币扔了五次,有一次是正面.用最大似然估计,就是以这五次结果为依据,判断这枚硬币每次落地时正面朝上的概率(期望值)是多少时,最有可能得到四次反面一次正面的结果.不难计算得到期望概

文本挖掘

文本挖掘介绍 文本挖掘:“自动化或半自动化处理文本的过程”,包含了文档聚类.文档分类.自然语言处理.文本变化分析及网络挖掘等领域内容.对于文本处理过程首先需要有分析的语料(text corpus),然后根据这些语料建立半结构化的文本库(text database).最后生成包含语频的结构化的词条——文档卷着那(term-document matrix). 这个一般性数据结构会被用于后续的分析: 文本分析,比如根据现有的文本分类情况,对未知文本进行归类: 语法分析: 信息提取和修复 文档信息汇总,

浅谈我对机器学习和文本挖掘的新的理解

转眼间已经工作了一段时间了,回想起2014年初学机器学习时的付出.艰苦和努力,感觉都是值得的.从现在往前看,我是沿着“计算机->统计学->数据分析->数据挖掘->机器学习->文本挖掘”的路径走过来的,我觉得这个思路还是属于比较传统的进阶方法,学习的内容有不少的冗余,但相对来说更稳健一些.今天写这篇文章的目的是想总结一下我最近关于文本挖掘的工作体会以及我对机器学习的一些新的看法,只为探讨,还望与大家共勉. 我先来说一些文本挖掘的东西.似乎大家做Text Mining的不太多,可

从回归分析到数据挖掘

回归分析是研究两种或两种以上变量之间相互依赖的定量关系的统计分析方法,在很多行业都有广泛的应用.无论是银行.保险.电信等服务行业的业务分析人员在进行数据库营销.欺诈风险侦测,还是半导体.电子.化工.医药.钢铁等制造行业的研发技术人员在进行新产品实验设计与分析.流程优化与过程监控,或者更广义地说,不同类型的企业在开展质量管理和六西格玛项目时,都常常会用到回归分析. 回归分析可以帮助我们判断哪些因素的影响是显著的,哪些因素的影响是不显著的,还可以利用求得的回归方程进行预测和控制.但是,稍微对回归模型