Python3.5 数据处理 --jieba + sklearn库安装及第一个示例

一，安装pip3：

#sudo apt-get install pip3

二，安装jieba：

#sudo pip3 install jieba

三，安装sklearn：

#sudo pip3 install scikit-learn

四，安装sklearn依赖(numpy,scipy)：

#sudo pip3 install numpy
#sudo pip3 install scipy

eg:国内安装时可能出现time-out错误---解决办法如下：

#sudo pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy
#sudo pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple scipy

五，简单实现分词并计算TF-IDF值：

#!/usr/bin python3.5
# coding=utf-8
#import os
import jieba
import re
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
#import collections

class Tfi(object):
    def __init__(self):
        self.stop_list = []
        pass

    def fenci(self, file):
        #list = []
        fin = open(file, ‘r‘)
        read_b = fin.read()
        fin.close()
        read_res = ‘‘.join(re.findall(u‘[a-zA-Z0-9\u4e00-\u9fa5]+‘, read_b))
        cut_res = jieba.cut(read_res, cut_all=True)
        line_res = ‘‘
        for i in cut_res:
            if i not in self.stop_list:
                line_res = line_res + i + ‘ ‘
        fout = open(‘res/‘ + file, ‘w‘)
        fout.write(line_res)
        fout.close()

    def cipin(self, fil_list):
        corpus = []
        for fil in fil_list:
            ffout = open(‘res/‘+fil, ‘r‘)
            read_r = ffout.read()
            ffout.close()
            corpus.append(read_r)
        vectorizer = CountVectorizer()
        transformer = TfidfTransformer()
        tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))
        word = vectorizer.get_feature_names()  # 所有文本的关键字
        weight = tfidf.toarray()
        for j in range(len(weight)):
            f = open(‘fes/‘+fil_list[j], ‘w‘)
            for i in range(len(word)):
                f.write(word[i]+‘  ‘+str(weight[j][i]) + ‘\n‘)
            f.close()

if __name__ == ‘__main__‘:
    first = Tfi()
    fil_list = [‘inputtext‘]
    first.fenci(‘inputtext‘)
    first.cipin(fil_list)

时间： 2024-12-17 16:08:46

Python3.5 数据处理 --jieba + sklearn库安装及第一个示例的相关文章

Python3.5 数据处理 –jieba + sklearn库安装及第一个示例

一,安装pip3: #sudo apt-get install pip3 二,安装jieba: #sudo pip3 install jieba 三,安装sklearn: #sudo pip3 install scikit-learn 四,安装sklearn依赖(numpy,scipy): #sudo pip3 install numpy #sudo pip3 install scipy eg:国内安装时可能出现time-out错误-解决办法如下: #sudo pip3 install -i h

1、cesium安装及第一个示例

cesium安装及第一个示例一.环境要求二.浏览器要求三.安装node.js 四.下载cesium包(地址为https://cesiumjs.org) 包括了五.在你的项目里引入相关js与css 只需要在js中写下面这句话六.在html页面写入这句话,然后nmp install npm start就可以了:如果没有服务器:可以在cmd里输入 npm install http-server -g http-server服务就跑起来了. 原文地址:https://

[视频讲解]Java(JDK的下载安装及第一个程序运行)

(JDK的下载安装及第一个程序运行) 内容:Java JDK 的安装以及HelloWorld 程序的运行欢迎童鞋们前往围观 http://v.youku.com/v_show/id_XODA3MzkzNzMy.html 更多内容分享请关注我的博客 http://www.xiaozhangwx.com 本视频由小张网校提供

django安装及第一个程序

1.django安装 a.下载所需版本,地址:https://www.djangoproject.com/download/1.3.7/tarball/ b.解压并安装(需要root权限) tar xf Django-1.3.7.tar.gz cd Django-1.3.7python setup.py install c.在python环境下import django无报错则说明安装正常. 2.第一个django程序 django-admin.py startproject favoo #用d

vue.js+web storm安装及第一个vue.js

小白还是自己写一遍吧 1.下载node.js https://nodejs.org/en/download/ 2.安装淘宝镜像(类似于阿里云的maven中央仓库镜像) 安装时间有点长安装命令:npm install -g cnpm --registry=https://registry.npm.taobao.org 验证命令:cnpm -v 3.安装webpack 利用cnpm安装webpack 命令行语句为cnpm install webpack -g 完了还要装webpack cli 验证

sklearn库的安装

sklearn库 sklearn是scikit-learn的简称,是一个基于Python的第三方模块.sklearn库集成了一些常用的机器学习方法,在进行机器学习任务时,并不需要实现算法,只需要简单的调用sklearn库中提供的模块就能完成大多数的机器学习任务. sklearn库是在Numpy.Scipy和matplotlib的基础上开发而成的,因此在介绍sklearn的安装前,需要先安装这些依赖库. Numpy库:Numpy(Numerical Python的缩写)是一个开源的Python科学

Python3.6（windows系统）安装matplotlib库

Python3.x(windows系统)安装matplotlib库 cmd命令: pip install matplotlib 执行结果:

1.1.2：sklearn库的下载安装

sklearn库的下载安装方法一 anaconda优雅安装方法二 pycharm内安装方法三 pip和shell安装(内心OS:???) 方法四官网下载,pip安装,如下 ? 该地址也提供了很多其它库.注意:sklearn库的安装方式和另外三个是不同的.如下: ? ? ? ? 测试是否安装成功进入python的命令行模式,导入包进行测试.没有错误则说明全部安装成功. ? 原文地址:https://www.cnblogs.com/nishida-rin/p/12253010.html

Python的Sklearn库的基本用法

Sklearn库是基于Python的第三方库,它包括机器学习开发的各个方面. 机器学习的开发基本分为六个步骤,1)获取数据,2)数据处理,3)特征工程,4)机器学习的算法训练(设计模型),5)模型评估,6)应用. 机器学习的算法一般分为两种:一种既有目标值又有特征值的算法称之为监督学习,另一种只有特征值的算法称之为无监督学习.而监督学习还可以继续细分为分类算法和回归算法. 1)获取数据⑤ Sklearn中获取数据集使用的包为Sklearn.datasets,之后可以接load_* 和fetch_