【Python】Python文本处理中用langid工具包来对文本进行语言检测与判别

1.问题的描述

用Python进行文本处理时,有时候处理的文本中包含中文、英文、日文等多个语系的文本,有时候不能同时进行处理,这个时候就需要判别当前文本是属于哪个语系的。Python中有个langid工具包提供了此功能,langid目前支持97种语言的检测,非常好用。

2.程序的代码

以下Python是调用langid工具包来对文本进行语言检测与判别的程序代码:

import langid                                                         #引入langid模块

def translate(inputFile, outputFile):
	fin = open(inputFile, 'r')                                    #以读的方式打开输入文件
	fout = open(outputFile, 'w')                                  #以写的方式打开输出文件

	for eachLine in fin:                                          #依次读入每一行
		line = eachLine.strip().decode('utf-8', 'ignore')     #去除每行的首位空格等,并统一转化成Unicode
		lineTuple = langid.classify(line)                     #调用langid来对该行进行语言检测
		if lineTuple[0] == "zh":                              #如果该行语言大部分为中文,则不进行任何处理
			continue

		outstr = line                                         #如果该行语言为非中文,则准备输出
		fout.write(outstr.strip().encode('utf-8') + '\n')     #输出非中文的行,从Unicode转化成utf-8输出

	fin.close()
	fout.close()

if __name__ == '__main__':                                            #相当于main函数
	translate("myInputFile.txt", "myOutputFile.txt")

以上代码是用来处理一个文本,将不属于中文的行依次输出到一个新的文件。

3.注意

第9、10行代码,langid.classify(line)的输出结果是一个二元组,二元组的第一项表示该文本所属的语系,如:zh表示中文、en表示英语、等等;二元组的第二项表示该文本中属于第一项中语系的所占比例。

希望对大家有所帮助。

时间: 2024-10-06 21:39:43

【Python】Python文本处理中用langid工具包来对文本进行语言检测与判别的相关文章

Python游戏引擎开发(四):TextField文本类

上一章我们主要介绍了显示对象和如何显示图片.本章来讲述显示文本. 以下是本系列教程前几章地址,在阅读本篇正文之前,请务必阅读前几章内容. Python游戏引擎开发(一):序 Python游戏引擎开发(二):创建窗口以及重绘界面 Python游戏引擎开发(三):显示图片 文本类TextField 使用过flash的朋友都知道,这个类其实不光是显示文本用的,还可以用于显示输入框.我这里就只实现一些基础实用的功能,以后有时间了慢慢拓展.和上一章一样,TextField是一个显示对象,继承自Displa

Python.python学习(1).学习规划

Python.python学习.学习规划 欢迎收看! 阅读此文表明你也是要学Python这门神奇的语言了.很好,来对地方了,先容我简单介绍一下这个博客系列. 这个系列的博客将会持续专注于Python这个语言的知识积累和开发经验. 编写这个系列,一方面是为了巩固我自己对Python的理解,另一方面也是希望能够分享我的经验,给初学者提供一定帮助.网上现有的各类教程已经汗牛充栋,在我学习的时候就曾参阅过许多教程与文章,它们讲解问题的思路各不相同,综合的阅读使得我最终能够整理起知识的碎片并正确地理解.所

[python] python单元测试经验总结

python写单元大多数都会用到unittest和mock,测试代码覆盖率都会用到coverage,最后再用nose把所有的东西都串起来,这样每次出版本,都能把整个项目的单元测试都运行一遍. Unittest unittest就不详细介绍了,注意几点: 测试类继承unittest.TestCase 测试类.测试方法名字最好以test开头,很多工具能根据名字来自动运行,很方便 测试类里面的setUp/tearDown会在每个case执行之前/之后执行,setUpClass/tearDownClas

[python] python 中的" "和' '都是完全转义

dict = {"a" : "apple", "b" : "banana", "g" : "grape", "o" : "orange"} for k in dict: print ("dict[$k] =",dict[k]) dict[$k] = grapedict[$k] = bananadict[$k] = appledi

[Python] python vs cplusplus

一些学习过程中的总结的两种语言的小对比,帮助理解OO programming. Continue... 字典 序列 --> 字典 Python: def get_counts(sequence): counts = {} for x in sequence: if x in counts: counts[x] += 1 else: counts[x] = 1 # 这是是硬伤,不优于c++,这里必须如此写 return counts c++:貌似没有这个问题. #include <iostrea

[Python] Python 调用 C 共享库

Linux/Unix 平台下共享库(Shared Library)文件后缀 .so:在 Windows 平台称为动态链接库(Dynamic Link Library),文件名后缀为 .dll. 利用 ctypes 模块调用 C 共享库 ctypes 是 Python 标准库提供的一个模块,Python 2.3 版本以上支持该模块.ctypes 是 Python 高级外部函数接口,Python 通过它可以调用 C 语言编译的静态链接库和动态链接库.ctypes 支持多个平台,包括 Windows,

[零基础学python]python中的四则运算

一提到计算机,当然现在更多人把她叫做电脑,这两个词都是指computer.不管什么,只要提到她,普遍都会想到她能够比较快地做加减乘除,甚至乘方开方等.乃至于,有的人在口语中区分不开计算机和计算器. 那么,做为零基础学习这,也就从计算小学数学题目开始吧.因为从这里开始,数学的基础知识列为肯定过关了. 复习 还是先来重温一下伟大时刻,打印hello world. 打开电脑,让python idle运行起来,然后输入: >>> print 'Hello, World' Hello, World

PostgreSQL PL/Python - Python Procedural Language 安装

PL/Python - Python Procedural Language 安装 查看系统提供plpython包(已经编译好的). [[email protected] ~]# dnf search python |grep postgresql python3-postgresql.x86_64 : Connect to PostgreSQL with Python 3 python-storm-postgresql.x86_64 : PostgreSQL backend for pytho

Python python __def__ Exception AttributeError: &quot;&#39;NoneType&#39; object has no attribute

class Person: '''Represents a person.''' population = 0 def __init__(self,name): '''Initializes the person's data.''' self.name = name print '(Initializing %s)' % self.name Person.population +=1 def __del__(self): '''I am dying.''' print '%s says bye