trate

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import metrics
from text.textpredict import *
from sklearn.cross_validation import *

def chi22():
    train_words=["急需 钱用 不用 出售 如图 价值 千多 便宜 出售 出售 急 ",
                 "读 读 重复 读好输 不变 绿 求高人 指点迷津 ",
                 "诚召搛只呆家小时工,全职妈妈、在校学生、在家待业者、上班族、游戏者皆可做!每天5",
                 "发福利了 火熱找小莳工,每天在綫2--3小莳,莳涧地點没限制,薪资鈤结80--150/",
                 "急招小时工,每天在綫2--3小拭,时间地点没限制,薪资日结80--150/天,适 急招小时工,每天在綫2--3小拭,时间地点没限制,薪资日结80--150/天,适合学生党,手机党,上班族,有空闲时间者,有興趣缪系,QQ(937117723)咨询,此处不回!!",
                 "发福利来 火熱找小莳工,每天在綫2--3小莳,莳涧地點没限制,薪资鈤结80--150/",
                 "	读 不好 呜呜 ","这句 话 总是 知道 连读 ","求 师傅 交 口语 求有 耐心 老师 基础 学 ",
                 "听到 读 "
                 ]
    train_tags=[1,0,1,1,1,1,0,0,0,0]

    """
    ##就提取了词频CountVectorizer
    count_v1 = CountVectorizer(stop_words=None, max_df=0.5)
    counts_train = count_v1.fit_transform(train_words)
    ##卡方检验chi,配合selectkbest 对特征进行选择
    chi= SelectKBest(chi2,10)
    mychi2 = chi.fit(counts_train, train_tags)
    hi2_train = mychi2.transform(counts_train)
    clf = MultinomialNB(alpha=0.01)
    clf.fit(hi2_train, np.asarray(train_tags))
    priediced = cross_val_predict(clf, hi2_train, train_tags)
    print metrics.confusion_matrix(train_tags, priediced)
    """
    ##tf-idf
    Tfidf = TfidfVectorizer()
    tfidf_train = Tfidf.fit_transform(train_words)
    clf = MultinomialNB(alpha=0.01)
    clf.fit(tfidf_train, np.asarray(train_tags))
    priediced = cross_val_predict(clf, tfidf_train, train_tags)
    print metrics.confusion_matrix(train_tags, priediced)

    #print hi2_train

chi22()

  

时间: 2024-11-08 21:42:42

trate的相关文章

C++编程实践: 继承与多态

本实例及代码来自<C++ Primer Plus>(第六版) 第十三章 题目要求: 假如你是某银行首席程序员.银行要求你开发两个类,一个用于表示基本支票账户--Brass Account,另一个用于表示代表Brass Plus支票账户,它添加了透支保护的特性.也就是说,如果持有此卡的用户签出了一张超出其存款余额的支票--但是超出的数额并不是很大,银行将支付这张支票,对超出的部分收取额外的费用,并追加罚款. 下面是用于Brass Account支票账户的信息: 客户姓名 帐号 当前结余 下面是可

HDU 1217 Arbitrage(Bellman-Ford判断负环+Floyd)

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1217 题目大意:问你是否可以通过转换货币从中获利 如下面这组样例: USDollar 0.5 BritishPound BritishPound 10.0 FrenchFranc FrenchFranc 0.21 USDollar 可以通过US->Br->French->US这样转换,把1美元变成1*0.5*10*0.21=1.05美元赚取%5的利润. 解题思路:其实就相当于bellman-

ab压力测试工具-批量压测脚本

ab(Apache benchmark)是一款常用的压力测试工具.简单易用,ab的命令行一次只能支持一次测试.如果想要批量执行不同的测试方式,并自动对指标进行分析,那么单靠手工一条一条命令运行ab,估计会疯的.so,那么问题来了,批量模式怎么实现. 一.脚本说明                                                                                              本脚本支持ab大多常用参数,如果你需要更多参数,可

【MPI学习6】MPI并行程序设计模式:具有不连续数据发送的MPI程序设计

基于都志辉老师<MPI并行程序设计模式>第14章内容. 前面接触到的MPI发送的数据类型都是连续型的数据.非连续类型的数据,MPI也可以发送,但是需要预先处理,大概有两类方法: (1)用户自定义新的数据类型,又称派生类型(类似定义结构体类型,但是比结构体复杂,需要考虑<类型,偏移量>两方面的内容) (2)数据的打包和解包(将不连续的数据给压缩打包到连续的区域,然后再发送:接受到打包数据后,先解包再使用) 这样做的好处,我猜一个是可以有效减少通信的次数,提高程序效率:另一方面可以减轻

Akka FSM 源代码分析

Akka FSM 源代码分析 萧猛 <[email protected]> 啰嗦几句 有限状态机本身不是啥新奇东西,在GoF的设计模式一书中就有状态模式, 也给出了实现的建议.各种语言对状态机模式都有非常多种实现的方式.我自己以前用C++和java实现过,也以前把 apache mina 源代码中的一个状态机实现抠出来单独使用. 但Akka的状态机是我见过的最简洁美丽实现.充分利用了Scala的很多先进的语言机制让代码更加简洁清晰.利用了Akka Actor实现并发.用户基本不用考虑线程安全的

lammps中fix deform的理解

fix 5 all deform 1000x erate 0.002 units box   #设置沿x方向拉伸,应变率为0.002(1/ps) fix ID group-ID deform N parameter args ... keyword value ... N是每N步实施一次变形,如果这个数越大,那么每N步变形就越大,如果这个数较小,比如说是1,那么每跑一步就变形一次,这样模拟的更细,精度更高.总变形是由后面的参数确定的,N影响不了总变形. fix 1 all deform 100

Radiotap信息

在Linux系统中用wireshark或tcpdump抓无线网卡数据包,每一数据帧前面都有一个叫radiotap的协议头,它包含了信号强度.噪声强度.信道.时间戳等信息.radiotap比传统的Prism或AVS头更有灵活性,成为ieee802.11事实上的标准.支持radiotap的系统较多,如Linux.FreeBSD.NetBSD.OpenBSD,还有Windows(需使用AirPcap).它的头部定义如下: struct ieee80211_radiotap_header { u_int

vue 等比例截图组件,支持缩放和旋转

<template> <div class="crop-image" :style="wrapStyle"> <img :src="url" crossOrigin="anonymous" :style="imgStyle" v-if="url"> <canvas ref="canvas" @mousedown="o