python利用交集计算词类标签的分类

在词分类中经常有以下标签:
‘ab‘,‘ba‘,‘‘,‘13‘,‘1‘,‘3‘,‘bc3‘,‘ab24‘
那么,如何将这些标签归入各标签的子类中呢?

mystr=[‘ab‘,‘ba‘,‘‘,‘13‘,‘1‘,‘3‘,‘bc3‘,‘ab24‘]
myl=dict()
for k1 in mystr:
    for k2 in mystr:
        if len(set(k1).intersection(k2))==len(set(k1)) :
            myl.setdefault(k1,[])
            myl[k1].append(k2)
print(myl)

{‘ab‘: [‘ab‘, ‘ba‘, ‘ab24‘], ‘ba‘: [‘ab‘, ‘ba‘, ‘ab24‘], ‘‘: [‘ab‘, ‘ba‘, ‘‘, ‘13‘, ‘1‘, ‘3‘, ‘bc3‘, ‘ab24‘], ‘13‘: [‘13‘], ‘1‘: [‘13‘, ‘1‘], ‘3‘: [‘13‘, ‘3‘, ‘bc3‘], ‘bc3‘: [‘bc3‘], ‘ab24‘: [‘ab24‘]}

原文地址:http://blog.51cto.com/13959448/2316086

时间: 2024-10-31 18:57:00

python利用交集计算词类标签的分类的相关文章

在hexo静态博客中利用d3-cloud来展现标签云

效果: http://lucyhao.com/tags/ hexo自带的tag cloud的标签展现不太美观,想能够展现出“云”效果的标签.在网上找到了d3-cloud这个项目,github地址:https://github.com/jasondavies/d3-cloud demo地址:https://www.jasondavies.com/wordcloud/ hexo生成的是静态博客,所以最后在网上看到的都是静态的内容,也就是说,我们的看到的标签云也是静态的已经生成好的内容,并不会随着刷新

利用深度学习(Keras)进行癫痫分类-Python案例

目录 癫痫介绍 数据集 Keras深度学习案例 本分享为脑机学习者Rose整理发表于公众号:脑机接口社区(微信号:Brain_Computer).QQ交流群:903290195 癫痫介绍 癫痫,即俗称"羊癫风",是由多种病因引起的慢性脑功能障碍综合症,是仅次于脑血管病的第二大脑部疾病.癫痫发作的直接原因是脑部神经元反复地突发性过度放电所导致的间歇性中枢神经系统功能失调.临床上常表现为突然意识丧失.全身抽搐以及精神异常等.癫痫给患者带来巨大的痛苦和身心伤害,严重时甚至危及生命,儿童患者会

机器学习经典算法详解及Python实现---朴素贝叶斯分类及其在文本分类、垃圾邮件检测中的应用

摘要: 朴素贝叶斯分类是贝叶斯分类器的一种,贝叶斯分类算法是统计学的一种分类方法,利用概率统计知识进行分类,其分类原理就是利用贝叶斯公式根据某对象的先验概率计算出其后验概率(即该对象属于某一类的概率),然后选择具有最大后验概率的类作为该对象所属的类.总的来说:当样本特征个数较多或者特征之间相关性较大时,朴素贝叶斯分类效率比不上决策树模型:当各特征相关性较小时,朴素贝叶斯分类性能最为良好.另外朴素贝叶斯的计算过程类条件概率等计算彼此是独立的,因此特别适于分布式计算.本文详述了朴素贝叶斯分类的统计学

2017知乎看山杯总结(多标签文本分类)

http://blog.csdn.net/jerr__y/article/details/77751885 关于比赛详情,请戳:2017 知乎看山杯机器学习挑战赛 代码:https://github.com/yongyehuang/zhihu-text-classification 基于:python 2.7, TensorFlow 1.2.1 任务描述:参赛者需要根据知乎给出的问题及话题标签的绑定关系的训练数据,训练出对未标注数据自动标注的模型. 标注数据中包含 300 万个问题,每个问题有

利用sklearn计算文本相似性

利用sklearn计算文本相似性,并将文本之间的相似度矩阵保存到文件当中.这里提取文本TF-IDF特征值进行文本的相似性计算. #!/usr/bin/python # -*- coding: utf-8 -*- import numpy import os import sys from sklearn import feature_extraction from sklearn.feature_extraction.text import TfidfTransformer from sklea

windows下如何快速优雅的使用python的科学计算库?

Python是一种强大的编程语言,其提供了很多用于科学计算的模块,常见的包括numpy.scipy.pandas和matplotlib.要利用Python进行科学计算,就需要一一安装所需的模块,而这些模块可能又依赖于其它的软件包或库,因而安装和使用起来相对麻烦.幸好有人专门在做这一类事情,将科学计算所需要的模块都编译好,然后打包以发行版的形式供用户使用,Anaconda就是其中一个常用的科学计算发行版. 我们从网站(链接1)下载的默认的Anaconda版本已经内置了很多库(链接2),包括nump

python利用企业微信api来进行发送自定义报警的类实现

python利用企业微信api来进行发送自定义报警的类实现 企业微信注册 打开http://work.weixin.qq.com/企业微信主页: 点击企业注册: 填写相关信息,营业执照和注册号可以不用填,直接下一步,按照提示操作即可: 注册完成后,登陆,就显示如下界面: 点击我的企业标签: 看到如上界面,复制CorpID对应的值: 点击企业应用: 点击 创建应用: 填写对应内容,点击创建应用即可: 然后再点击企业应用,就可以在自建应用里看到自己创建的应用: 点击应用图标,看到如下图 复制Agen

杂项之python利用pycrypto实现RSA

杂项之python利用pycrypto实现RSA 本节内容 pycrypto模块简介 RSA的公私钥生成 RSA使用公钥加密数据 RSA使用私钥解密密文 破解博客园登陆 pycrypto模块简介 pycrypto模块是python中用来处理加密解密等信息安全相关的一个很重要模块. 该模块支持的加密方式: 对称加密方式: AES DES ARC4 散列值计算: MD5 SHA HMAC 公钥加密和签名: RSA DSA 基本上常见的关于信息安全类的算法都可以支持,所以,这是一个很强大的模块. 安装

利用MATLAB计算三维坐标序列距离误差程序

1.三维坐标储存在文件中,格式如下: 各坐标间的距离真值是一定值,计算相邻距离的标准差. 2.MATLAB程序如下: %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % 名称:caculateAccuracy.m % 功能:读取三维世界坐标,计算精度 % 作者:LYC % 单位:中科院苏州医工所 % 日期:2014.5.5 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%