关于考题和书籍上知识相似度匹配的想法实现

首先短文相似度的关键算法用百度AI里面提供的API
其实考题和书籍上知识是提前做出excel表的,用python的pandas库进行处理

说实话实际效果是有点,但并不好,所以不推荐

import  pandas  as pd
import codecs
import chardet
from aip import AipNlp

#百度API的短文相似度文本处理的关键代码
APP_ID = '18141823'
API_KEY = 'eEmvBrXfCdexVmjAyoPNBoxE'
SECRET_KEY = 'p10xZogTbVDe7PphkB9zIjyZ8QkRBAqu'
client = AipNlp(APP_ID,API_KEY,SECRET_KEY)
#client.simnet(txt1,txt2) txt1和txt2不能超过512个字节

df1=pd.read_excel('Article_guanli.xlsx')
df2=pd.read_excel('Topic_guanli.xlsx')
test_data=[]
height1,width1 = df1.shape
height2,width2 = df2.shape

for i in xrange(0,1):
    for j in xrange(0,height1):
        try:
            txt1 = df1.ix[j,0].encode('utf-8')
            txt2 = df2.ix[i,0].encode('utf-8')

            ret = client.simnet(str(txt1),str(txt2))
            while("error_code" in ret):
                ret = client.simnet(str(txt1),str(txt2))

            print ret

            f = codecs.open('xiangsidu.txt','a',encoding="utf-8")
            k = ret['texts']['text_1'] + "#" + ret['texts']['text_2'] + "#" + str(ret['score'])
            f.write(k + "\n")
        except:
            pass
        continue

原文地址:https://www.cnblogs.com/CQ-LQJ/p/12122259.html

时间: 2024-07-29 14:26:34

关于考题和书籍上知识相似度匹配的想法实现的相关文章

书籍装帧知识: 封面 封里 封底 书脊 书冠 书脚 扉页 插页 篇章页目录 版权页 索引 版式 版心 版口 超版口 直(竖)排本 横排本 刊头 破栏 天头 地脚 暗页码 页 另页起 另面起 表注 图注 背题

书籍装帧知识书籍装帧知识书籍分为: 一.封面(又称封一.前封面.封皮.书面) 封面印有书名.作者.译者姓名和出版社的名称.封面起着美化书刊和保护书芯的作 用. 二.封里(又称封二) 是指封面的背页.封里一般是空白的,但在期刊中常用它来印目录,或有关的图片. 三.封底里(又称封三) 是指封底的里面一页.封底里一般为空白页,但期刊中常用它来印正文或其他正文以 外的文字.图片. 四.封底(又称封四.底封) 图书在封底的右下方印统一书号和定价,期刊在封底印版权页,或用来印目录及其他 非正文部分的文字.图

库存管理上的正确度和工作效率

物联宇PDA和无线射频系统是仓库管理结合的一个技术互补,提供有效的支持.物流行业在配套网络设备进行评估中低估重要性,因为物流行业认为通过购买一套库存系统,两加上仓库人员管理就可以实施了.虽然可以提高一些库存管理上的正确度和工作效率,但缺乏了RF系统的有力支持,其仓储水平未必能有很大的提高,对企业投资来说,无疑得不偿失.其实,完善的WMS是离不开RF系统支持的.因为WMS的高效率运作,是以快速.准确.动态地获取货物处理数据作为其系统运行的基础.而RF系统使得WMS实时数据处理成为可能,从而大大简化

线上知识技能水平自测

高校俱乐部现正推出一系列线上自测活动,欢迎同学们进行自我水平测试. 参加"C语言if语句大考察"赢取下载分 想了解自己C语言if语句的掌握程度吗?快来参与大考察赢取CSDN下载分活动吧.10道题目,3次机会,单选和多选题两种题型.多次作答取最高分为排名依据,排名前10名每人赠送20个下载分:11-20名每人赠送15个下载分:21-30名每人赠送10个下载分.活动时间:2014.07.22-2014.08.15 计算机二级考试C语言基础知识测试 本试卷满分100分,为历年国家计算机二级考

[Guitar self-learning] 基本乐理知识1. 度,升降记号#/b

度:是音程上面的单位, 指每两个音程(音名)之前的音距.(就像我们说身高时的cm一样, 用来表明当时的音高.) 升记号:#   , 表明在当前的音高下, 升半个音高. 如 #3  ==  4 降记号:b   , 表明在当前的音高下, 降半个音高. 如 b4  ==  3 e.g  1 - 3  => 3度 1 - b3 =>3度 1 - #2 =>2 度, note:度是音程或者说音名之前的音距, 跟实际的音距无关, 所以虽然 b3 == #2, 但是跟 1 之间, 一个是3 度, 一个

使用java的Calendar对象获得当前日期的上几个度开始、结束时间

思路: 先获得当前季度的开始和结束日期,在当前日期的基础上往前推3个月即上个季度的开始和结束日期 /** * @param flag true:开始日期:false:结束日期 * @return */ public static String getLastQuarterTime(boolean flag){ SimpleDateFormat shortSdf = new SimpleDateFormat("yyyy-MM-dd"); SimpleDateFormat longSdf

文件上传和字段匹配

jsp页面中 <form action="${pageContext.request.contextPath}/servlet/ManagerServlet?operation=addBook" method="post" enctype="multipart/form-data"> FileItem的用法 http://blog.csdn.net/smallhorn/article/details/7864658 1.boolean

造人论坛上关于人工智能的一些科幻想法

理论太枯燥了,下面是十几年前在造人论坛上登的一些科幻构思, 全是与人工生命有关的.因本人文笔太差,仅仅能给出个草草的框架 (注:前三个构思曾发表在96年第二期的科幻世界上). ☆绑架 当生命可能以信息方式传递,队长带人在地底打算拦截敌方将领的中微子波.以实现绑架其之目的,但接收器坏了,最后队长决定用自已的大脑来接收这个信息,于是,当信号被拦截后.队长就变成了敌人的将领...... (自评:这算是生命复制的一个插曲吧."我"为什么不是"你"?,差别仅仅是脑细胞的排列方

关于模型复杂度的一个想法

我们直观理解,如果在训练中,我们画出训练error和valid error,当发现overfiting了,在样本 足够的情况下overfiting是不是可以说明模型复杂度大于样本空间,这样我们是不是可以减少模型 的参数量,或者feature map,是不是可以给模型压缩做一个参考.同样,如果训练迭代很多,模型 训练error一直很大,是不是有一种可能就是模型复杂度不够.

在别人客户端上修改,来匹配测试自己的服务端

1.修改GameManager类中的GameManager::m_serverIP = "192.168.1.225"; 2.SceneMain类中在点击房间类型时,发送自己游戏的类型ID,如我的游戏是3101,所以这里改成31,而不用正常情况下的GameTypeIndex_CD m_sceneData.m_GameIndex = 31;//GameTypeIndex_CD; m_sceneData.m_GameGrade =0; m_SceneRoom->onRun(true)