使用python进行数据转码

大数据最烦的就是数据质量差，为了把数据导入到sequoiadb中，需要要求文本是UTF-8模式的，使用enca查看文件编码是gb2312，然后是enca转utf-8报错。google了整个地球都不知道原因，尝试使用python进行转码

# -*- coding: utf-8 -*-
import codecs
import sys
print "文件名:", sys.argv[1]
filename = sys.argv[1]
if( filename == None ):
exit(1)
file = open(filename)
writefile = open(filename+"utf8","w+")
bom = file.read(3)
if( bom == codecs.BOM_UTF8 ):
file.seek(3)
for a in file:
writefile.write(a.decode("gb2312").encode("utf-8"))
file.close()
writefile.close()

这里说明两点：

1：for line in file 是python读取大文件比较快速的方法

2：上面代码转码时报错：UnicodeDecodeError: ‘gb2312’ codec can’t decode bytes in position 2-3: illegal multibyte sequence

第二个问题：writefile.write变成print没有这个问题，但是一write就有问题,很费解，后来网上找了一个文章说：处理的字符的确是gb2312的，但是其中夹杂的部分特殊字符在gb2312里面找不到相关的映射转成Unicode,可以使用GB18030,他是GB2312的超集，包含很多特殊字符是gb2312没有的，改成gb18030可以了。

但是依旧没有解决为什么print可以的原因。

时间： 2025-01-06 11:34:20

使用python进行数据转码的相关文章

Python：SQLMap源码精读—start函数

源代码 1 def start(): 2 """ 3 This function calls a function that performs checks on both URL 4 stability and all GET, POST, Cookie and User-Agent parameters to 5 check if they are dynamic and SQL injection affected 6 """ 7 if n

Python解析器源码加密系列之（二）：一次使用标准c的FILE*访问内存块的尝试

摘要:由于近期打算修改Python解释器以实现pyc文件的加密/解密,出于保密的要求,解密之后的数据只能放在内存中,不能写入到文件中.但是后续的解析pyc文件的代码又只能接受FILE*作为入参,所以就提出了一种把通过FILE*来访问内存的需求,下文是针对这个需求的几个方面的尝试及其结论. 以下尝试的前提是:Win7 + VS2010. 在vc中,FILE其实就是_iobuf,定义如下: struct _iobuf { char *_ptr; //文件输入的下一个位置 int _cnt; //当前

Python：SQLMap源码精读之基于时间的盲注（time-based blind）

基于时间的盲注(time-based blind) 测试应用是否存在SQL注入漏洞时,经常发现某一潜在的漏洞难以确认.这可能源于多种原因,但主要是因为Web应用未显示任何错误,因而无法检索任何数据. 对于这种情况,要想识别漏洞,向数据库注入时间延迟并检查服务器响应是否也已经延迟会很有帮助.时间延迟是一种很强大的技术,Web服务器虽然可以隐藏错误或数据,但必须等待数据库返回结果,因此可用它来确认是否存在SQL注入.该技术尤其适合盲注. 源码解释代码位置:在checkSqlInjection函数中

Python：SQLMap源码精读之基于错误的盲注（error-based blind）

目标网址 http://127.0.0.1/shentou/sqli-labs-master/Less-5/?id=1 Payload的生成 1 <test> 2 <title>MySQL >= 5.0 AND error-based - WHERE or HAVING clause</title> 3 <stype>2</stype> 4 <level>1</level> 5 <risk>0</r

谈谈Python实战数据可视化之pygal模块(实战篇)

前沿通过上一节谈谈Python实战数据可视化之pygal模块(基础篇)的学习,我们对pygal模块的使用有了初步的了解,本节将以实战项目来加深pygal模块的使用.从网上可以下载JSON格式的人口数据,并使用json模块来处理它们,pygal模块提供了一个适合初学者使用的地图创建工具,我们将使用它来对人口数据进行可视化,以探索全球人口的分布情况.针对JSON格式的人口数据文件,可以通过谈谈Python实战数据可视化之matplotlib模块(实战篇)章节的配套资源来下载.对于本人在学习和编码过

Spark2.x+Python大数据机器学习视频课程

Spark2.x+Python大数据机器学习视频课程下载地址:https://pan.baidu.com/s/1imjFFStyjbRqyMtnboPgpQ 提取码: 32pb 本课程系统讲解如何在Spark2.0上高效运用Python来处理数据并建立机器学习模型,帮助读者开发并部署高效可拓展的实时Spark解决方案. 第一章.搭建Spark 2.x+Python开发环境及基本开发入门 1.快速环境搭建:导入Windows7虚拟机至VMWARE及启动系统和远程桌面连接2.快速环境搭建:Windo

【Python】python链表应用源码示例

python链表应用源码示例,需要用到python os模块方法.函数和类的应用. 首先,先简单的来了解下什么是链表?链表是一种物理存储单元上非连续.非顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的. python链表应用源码示例如下: #-*-coding:utf8 -*- import os class Head_List: def __init__(self , id): self.id = id self.next = -1 self.length = 0 def s

Python模拟数据工具哪些比较好用

今天给大家推荐两款基本的Python模拟数据工具:mock和pytest monkeypatch. 为什么要模拟数据? 我们的应用中有一些部分需要依赖外部的库或对象.为了隔离开这部分,我们需要代替这些外部依赖,因而就用到了模拟数据.我们模拟外部的API来产生特定的行为,比如说返回符合之前定义的恰当的返回值. 模拟函数我们有一个function.py的模块: 然后我们来看下如何将其与Mock库结合使用的: 这里发生了什么?1-4行是为了兼容python 2和3来引入的代码,在python 3中m

Python学习——数据排序方法

Python对数据排序又两种方法: 1. 原地排序:采用sort()方法,按照指定的顺序排列数据后用排序后的数据替换原来的数据(原来的顺序丢失),如: >>> data1=[4,2,6,432,78,43,22,896,42,677,12] >>> data1.sort() >>> data1 #原来的顺序被替换 [2, 4, 6, 12, 22, 42, 43, 78, 432, 677, 896] 2. 复制排序:采用sorted()内置函数,按照

猜你喜欢

hdu 4497 GCD and LCM

GCD and LCM Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65535/65535 K (Java/Others)Total ...

python自动化之PDF

###################################处理PDF和Word文档################################### ''' PDF和Word文档是二进 ...

修改Tomcat7的用户密码

使用TomcatManager和TomcatHostManager时,提示输入密码,于是就修改了一下tomcat-users.xml: 1 <rolerolename="manager ...

第三章：初始化 OpenGL 4.0

原文地址: http://www.rastertek.com/gl40tut03.html Tutorial 3: Initializing OpenGL 4.0 This tutorial will ...

java基础之 TXT文件处理（感觉比c++好用一些）

一:c/c++ 处理文件的用法,详见博客 c++文件操作二:java与c++的方便之处: (1) java在读取文件时,可以对字符流进行处理,重新进行编码,如 InputStreamReader r ...

微信小程序购物商城系统开发系列-工具篇

微信小程序开放公测以来,一夜之间在各种技术社区中就火起来啦.对于它估计大家都不陌生了,对于它未来的价值就不再赘述,简单一句话:可以把小程序简单理解为一个新的操作系统.新的生态,未来大部分应用场景都将 ...

mysql 安装失败解决方法

在安装mysql的过程中,出现的最麻烦的问题和解决方法安装后,启动不成功,就卡了,程序就没有响应. 如何解决: 找到mysql安装目录下的 #Path to the database root da ...

Adapter的封装之路

原文:Adapter的封装之路一.几种常见列表效果: 假如要用RecyclerView实现下面的几种效果,你会如何实现呢? 效果1:单布局效果效果2:多布局效果有多种Item布局效果3:多布局 ...

我的javascript学习之路（一）对象之基础

做了2个多月的ajax项目,对js的学习觉得了深入了不少,把自己的一些学习的经验贴出来,希望对初学者有所帮助,也希望大家能指出我的错误之处或者不当之处. javascript 是基于对象的语言,为什么 ...

IOS 判读档当前网络状态

互联网的时代,一切都有网络的时代,没有网络啥也干不了,正如开发一个APP,关心用户,检测是否又网,都需要做出判断,最常用的就是下面这个 Reachability 支持ARC和GCD 定义一个方法,通过 ...

Ngrok让你的本地Web应用暴露在公网上

1. Ngrok介绍 Ngrok 是一个反向代理,通过在公共的端点和本地运行的 Web 服务器之间建立一个安全的通道.Ngrok 可捕获和分析所有通道上的流量,便于后期分析和重放.简单来说,利用 Ng ...

中途站

铃声缓缓拉开车门一群人涌动着比肩继踵从月台流入车厢另一群人涌动着比肩继踵从车厢浮上月台人们像是乘着水流的浮萍从一汪梦扎进了另一汪而后水中摇曳着向东.向西.向南.也向北水流涓涓 ...

方法（method）和函数（function）有什么区别？

函数是一段代码,通过名字来进行调用.它能将一些数据(参数)传递进去进行处理,然后返回一些数据(返回值),也可以没有返回值. 所有传递给函数的数据都是显式传递的. 方法也是一段代码,也通过名字来进行调用 ...

Matlab调用C程序

Matlab是矩阵语言,如果运算可以用矩阵实现,其运算速度非常快.但若运算中涉及到大量循环,Matlab的速度令人难以忍受的.当必须使用for循环且找不到对应的矩阵运算来等效时,可以将耗时长的函数用C ...

想成功，每天做一点折磨你的事——读书笔记（二）

第四章重塑自我--遇见更强大的自己 1. 如果我们不能学会放下这些消极的包袱,就不能轻松地面对生活.放下,就是忘记,就是为了更好地拿起. 2. 过去不等于未来.--凯特<攀越巅峰> 3. ...

SPSS基础教程：数据的输入和保存

例题: 某克山病区测得11例克山病患者与13名健康人的血磷值(mmol/L)如下, 问该地急性克山病患者与健康人的血磷值是否不同? 患者: 0.84 1.05 1.20 1.20 1.39 1.53 ...

.xyz域名总量TOP10：西部数码第四排名升1位

IDC评述网(idcps.com)10月16日报道:根据ntldstats.com发布的最新数据显示,截止至2015年10月15日17时,国内外.xyz域名总量十强排名情况,相比上期9月28日,有所变 ...

phonegap(cordova) 自己定义插件代码篇（六）----android ,iOS 微信支付工具整合

还是那句话,在使用插件代码篇的时候,请先了解插件机制(如整合原生插件先阅读原生插件文档.非常重要.非常重要!非常重要!),如未了解,请先阅读入门篇.这里就专贴关键代码必须先把官方sdk 依照要求一步 ...

linux 编译错误：undefined reference to `__gxx_personality_v0'

(1)编译 c++ 程序需要添加 -lstdc++ 如: gcc -lstdc++ -o test test.c 否则会报 "undefinedreference to '__gxx_per ...

快速设置UITableView不同section对应于不同种类的cell

本文主要是为了写明如何在UITableView中,一个section对应于一种类型的cell,写起来不凌乱. 在不封装任何类的前提下提供如下源码: 请自行创建出3种类型的cell,创建好了就行,你需要 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.016 s.