解析搜狗词库(python)

#!/usr/bin/python
# -*- coding: utf-8 -*-

import struct
import sys
import binascii
import pdb
#搜狗的scel词库就是保存的文本的unicode编码，每两个字节一个字符（中文汉字或者英文字母）
#找出其每部分的偏移位置即可
#主要两部分
#1.全局拼音表，貌似是所有的拼音组合，字典序
#       格式为(index,len,pinyin)的列表
#       index: 两个字节的整数 代表这个拼音的索引
#       len: 两个字节的整数 拼音的字节长度
#       pinyin: 当前的拼音，每个字符两个字节，总长len
#
#2.汉语词组表
#       格式为(same,py_table_len,py_table,{word_len,word,ext_len,ext})的一个列表
#       same: 两个字节 整数 同音词数量
#       py_table_len:  两个字节 整数
#       py_table: 整数列表，每个整数两个字节,每个整数代表一个拼音的索引
#
#       word_len:两个字节 整数 代表中文词组字节数长度
#       word: 中文词组,每个中文汉字两个字节，总长度word_len
#       ext_len: 两个字节 整数 代表扩展信息的长度，好像都是10
#       ext: 扩展信息 前两个字节是一个整数(不知道是不是词频) 后八个字节全是0
#
#      {word_len,word,ext_len,ext} 一共重复same次 同音词 相同拼音表

#拼音表偏移，
startPy = 0x1540;

#汉语词组表偏移
startChinese = 0x2628;

#全局拼音表

GPy_Table ={}

#解析结果
#元组(词频,拼音,中文词组)的列表
GTable = []

def byte2str(data):
    ‘‘‘将原始字节码转为字符串‘‘‘
    i = 0;
    length = len(data)
    ret = u‘‘
    while i < length:
        x = data[i] + data[i+1]
        t = unichr(struct.unpack(‘H‘,x)[0])
        if t == u‘\r‘:
            ret += u‘\n‘
        elif t != u‘ ‘:
            ret += t
        i += 2
    return ret
#获取拼音表
def getPyTable(data):

    if data[0:4] != "\x9D\x01\x00\x00":
        return None
    data = data[4:]
    pos = 0
    length = len(data)
    while pos < length:
        index = struct.unpack(‘H‘,data[pos]+data[pos+1])[0]
        #print index,
        pos += 2
        l = struct.unpack(‘H‘,data[pos]+data[pos+1])[0]
        #print l,
        pos += 2
        py = byte2str(data[pos:pos+l])
        #print py
        GPy_Table[index]=py
        pos += l

#获取一个词组的拼音
def getWordPy(data):
    pos = 0
    length = len(data)
    ret = u‘‘
    while pos < length:

        index = struct.unpack(‘H‘,data[pos]+data[pos+1])[0]
        ret += GPy_Table[index]
        pos += 2
    return ret

#获取一个词组
def getWord(data):
    pos = 0
    length = len(data)
    ret = u‘‘
    while pos < length:

        index = struct.unpack(‘H‘,data[pos]+data[pos+1])[0]
        ret += GPy_Table[index]
        pos += 2
    return ret

#读取中文表
def getChinese(data):
    #import pdb
    #pdb.set_trace()

    pos = 0
    length = len(data)
    while pos < length:
        #同音词数量
        same = struct.unpack(‘H‘,data[pos]+data[pos+1])[0]
        #print ‘[same]:‘,same,

        #拼音索引表长度
        pos += 2
        py_table_len = struct.unpack(‘H‘,data[pos]+data[pos+1])[0]
        #拼音索引表
        pos += 2
        py = getWordPy(data[pos: pos+py_table_len])

        #中文词组
        pos += py_table_len
        for i in xrange(same):
            #中文词组长度
            c_len = struct.unpack(‘H‘,data[pos]+data[pos+1])[0]
            #中文词组
            pos += 2
            word = byte2str(data[pos: pos + c_len])
            #扩展数据长度
            pos += c_len
            ext_len = struct.unpack(‘H‘,data[pos]+data[pos+1])[0]
            #词频
            pos += 2
            count  = struct.unpack(‘H‘,data[pos]+data[pos+1])[0]

            #保存
            GTable.append((count,py,word))

            #到下个词的偏移位置
            pos +=  ext_len

def deal(file_name):
    print ‘-‘*60
    f = open(file_name,‘rb‘)
    data = f.read()
    f.close()

    if data[0:12] !="\x40\x15\x00\x00\x44\x43\x53\x01\x01\x00\x00\x00":
        print "确认你选择的是搜狗(.scel)词库?"
        sys.exit(0)
    #pdb.set_trace()

    print "词库名：" ,byte2str(data[0x130:0x338])#.encode(‘GB18030‘)
    print "词库类型：" ,byte2str(data[0x338:0x540])#.encode(‘GB18030‘)
    print "描述信息：" ,byte2str(data[0x540:0xd40])#.encode(‘GB18030‘)
    print "词库示例：",byte2str(data[0xd40:startPy])#.encode(‘GB18030‘)

    getPyTable(data[startPy:startChinese])
    getChinese(data[startChinese:])

if __name__ == ‘__main__‘:

    #将要转换的词库添加在这里就可以了
    o = [‘计算机词汇大全【官方推荐】.scel‘,
    ‘IT计算机.scel‘,
    ‘计算机词汇大全【官方推荐】.scel‘,
    ‘北京市城市信息精选.scel‘,
    ‘常用餐饮词汇.scel‘,
    ‘成语.scel‘,
    ‘成语俗语【官方推荐】.scel‘,
    ‘法律词汇大全【官方推荐】.scel‘,
    ‘房地产词汇大全【官方推荐】.scel‘,
    ‘手机词汇大全【官方推荐】.scel‘,
    ‘网络流行新词【官方推荐】.scel‘,
    ‘歇后语集锦【官方推荐】.scel‘,
    ‘饮食大全【官方推荐】.scel‘,
    ]

    #for f in o:
    #    deal(f)

    print sys.argv[1]
    deal( sys.argv[1] )
    #保存结果
    f = open(‘sougou.txt‘,‘w‘)
    for count,py,word in GTable:
        #GTable保存着结果，是一个列表，每个元素是一个元组(词频,拼音,中文词组)，有需要的话可以保存成自己需要个格式
        #我没排序，所以结果是按照上面输入文件的顺序
        f.write( unicode(‘{%(count)s}‘ %{‘count‘:count}+py+‘ ‘+ word).encode(‘GB18030‘) )#最终保存文件的编码，可以自给改
        f.write(‘\n‘)
    f.close()

时间： 2024-12-30 02:35:45

解析搜狗词库(python)的相关文章

将搜狗词库.scel格式转化为.txt格式

由于项目中要用到词库,而下载的搜狗词库是.scel格式,所以就用python脚本将搜狗词库.scel格式文件转化为.txt格式文件. 1 #!/bin/python 2 # -*- coding: utf-8 -*- 3 4 5 import struct 6 import sys 7 import binascii 8 import pdb 9 10 try: 11 reload(sys) 12 sys.setdefaultencoding('utf-8') 13 except: 14 pas

ibus pinyin 搜狗词库

目前主流的 linux 发行版例如 fedora 和 ubuntu 默认的中文输入法都是 ibus-pinyin,但是非尝苦恼 ibus-pinyin 的词库太少,输入中文词组得一个一个的选汉字,很羡慕 windows 下用搜狗拼音的同学,于是网上有好事者提出了解决办法. 用法:先到搜狗拼音官方网站下载你认为比较常用的词库文件,注意这些词库文件通常是以 .scel 为后缀名,然后把下面的代码复制后保存为 python 脚本,保存到词库文件所在的文件夹中,运行脚本,得到 sougou.txt: 打

搜狗词库转txt

# 运行环境要求 python2 1 #!/usr/bin/python 2 # -*- coding: utf-8 -*- 3 4 import struct 5 import sys 6 import binascii 7 import pdb 8 #搜狗的scel词库就是保存的文本的unicode编码,每两个字节一个字符(中文汉字或者英文字母) 9 #找出其每部分的偏移位置即可 10 #主要两部分 11 #1.全局拼音表,貌似是所有的拼音组合,字典序 12 # 格式为(index,len,

中州韵输入法导入搜狗词库

rime是一个非常优秀的输入法,linux平台下的反应速度远超搜狗,也没有隐私风险.2012年开始接触它,到后来抛弃了它,因为rime自带的词库真的太弱了,也懒得折腾.最近发现一个词库转换软件叫imewlconverter,于是发现rime导入其他输入法(比如搜狗)的词库其实还挺方便的. 要导入词库需要两个文件: 1. luna_pinyin_simp.custom.yaml 是配置文件 rime在部署的时候会自动加载.因为我用的是明月简体schema,所以是这个名字.如果你用的是明月schem

深蓝词库转换2.4版发布，支持最新的搜狗用户词库备份bin格式

很高兴的告诉大家,感谢GitHub上的h4x3rotab提供python版的搜狗用户词库备份bin格式的解析算法,感谢tmxkn1提供了C#版的实现,深蓝词库转换终于迎来了一个重大更新,能够支持搜狗用户词库的bin格式备份的导出了.再也不用受到搜狗输入法的钳制,可以自由切换到其他输入法了.搜狗bin词库只解析到了用户词条和词频,没有拼音,所以如果要导出其他拼音输入法,中间转换工具会根据词条的内容重新生成拼音. 另外在2.4版中,增加了用户词频强制设置的功能,比如将搜狗用户词库bin格式备份转换为

和我一起开发Android应用（四）——拓词算法分析和“悦词”词库解析

今天我们要部分实现背单词功能,在开始正题之前,还是附上背单词软件的下载链接:http://apk.91.com/Soft/Android/com.carlos.yueci-4.html 最近实验室有了任务,时间会紧些,因此这个项目要加快进度了. 首先把我在系列二中的功能分析拷贝过来: 功能2.背单词. 实现方法:这里要用到第二个数据库,背单词的词库.我们需要一个存放单词的TXT文件,通过解析这个TXT文件,将要背的单词解析并存进数据库中,然后根据一定的规律弹出单词. 所用到的技术

解析prototxt文件的python库 prototxt-parser(使用parsy自定义文件格式解析)

解析prototxt文件的python库 prototxt-parser https://github.com/yogin16/prototxt_parser https://test.pypi.org/project/prototxt-parser1.yield让函数执行支持分段,让函数支持了记忆和状态,能够让一个函数变成状态机,这样一个状态机的执行流程可能直接表达在一个函数中,让整个处理流程更加顺畅.2.parsy的optional,Returns a parser that expects

coreseek/sphinx自定义词库

1.在一些专业领域中,全文搜索需要定义专业的名词,这里以化学为例来说明自定义词库国内只有搜狗提供公开词库网址是:http://pinyin.sogou.com/dict/ 有些可以直接下载TXT的,有些则需要自己处理成txt文件,如果能下载txt的则只需要更改一下就可以,如果不能下载,则用其他软件或者自己手写一个,我用的是深蓝提供的词库转换工具假设以上步骤已经完成,txt文件已经生成,则只需要下面的步骤就可以生成词库 mmseg词库的格式是中文词 \t 1 x:1 由于生成的txt文件的

mmseg自定义分词词库

下面给大家介绍一下如何打造自己的coreseek分词词库. coreseek自身带的词库不是很大,直接使用它分词可能会返回大量没用结果.要想搜索结果准确打造一个专门的分词词库必不可少. i. 首先到搜狗http://pinyin#sogou#com/dict/下载你要的词库 ii. 因为下载回来的词库不是文本文件我们不能直接使用,所以要先转换成文本文件.网上找一个搜狗转 google的小工具,用它把你下载的全部词库转成文本文件.合并为一个文件命名为words.txt.文件要用utf8编码保存