Python中读取文件输出时在头部输出\ufeff

问题出现:

在我测试python中的文本文件的读取与写入时,用到了字典对象来存储读出的数据。

1 std_data = dict()
2 with open(sys.argv[1], encoding=‘UTF-8‘) as fp:
3     alldata = fp.readlines()
4 for item in alldata:
5     no, name = item.rstrip(‘\n‘).split(‘、‘)
6     std_data[no] = name
7 print(std_data)

在命令行中运行时始终存在一个开头的\ufeff字符。

测试了几次都如此。

后来在网上查了一下有不少的接近答案但都没有回答我心中的问题,只查到了解决方案。

1 no, name = item.encode(‘utf-8‘).decode(‘utf-8-sig‘).rstrip(‘\n‘).split(‘、‘)

注:encode(‘utf-8‘)和decode(‘utf-8-sig‘)需要一起使用,否则会报错。

不过结果问题确实解决了。

可以清晰的看到开头的特殊字符确实不见了。

然后我在百度上终于查到了一个比较完整的解释:

在Windows下用文本编辑器创建的文本文件,如果选择以UTF-8等Unicode格式保存,会在文件头(第一个字符)加入一个BOM标识。

ok,到这一步算是有了一个原因让我信服。接着我又继续了解了一下BOM是什么鬼。

BOM = Byte Order MarkBOM是Unicode规范中推荐的标记字节顺序的方法。比如说对于UTF-16,如果接收者收到的BOM是FEFF,表明这个字节流是Big-Endian的;如果收到FFFE,就表明这个字节流是Little-Endian的。UTF-8不需要BOM来表明字节顺序,但可以用BOM来表明“我是UTF-8编码”。BOM的UTF-8编码是EF BB BF(用UltraEdit打开文本、切换到16进制可以看到)。所以如果接收者收到以EF BB BF开头的字节流,就知道这是UTF-8编码了。

好吧,虽然不太看的懂,但是也算知道了,这是一个utf-8文本的前置说明,表明这是一个utf-8文件嘛。同时BOM也是在编码方式中的标记字节顺序的方法。

接下来学习:BOM标识规范。

原文地址:https://www.cnblogs.com/tianqingzx/p/9955680.html

时间: 2024-11-08 20:14:06

Python中读取文件输出时在头部输出\ufeff的相关文章

Java中读取文件按照规则分割然后输出

import java.io.BufferedInputStream; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.InputStreamReader; import java.io.Reader; import java.util.ArrayList; import java.util.List; /** * @author 码农小江 * H

python中读取文件夹下的文件方法

#coding:utf-8 import os #利用os.walk()得到相应的文件名,并利用tuple()将之转换为tuple.zhuangzi_names=tuple(os.walk(top='D:\Alfred20151208\Alfred Thesis Preparation\莊子\莊子數據2', topdown=True, onerror=None, followlinks=False)) #得到文件名 passage_names=(zhuangzi_names[0])[2]

Python 中读取csv文件中有中文的情况

Python 中读取csv文件中有中文的情况,提示编码问题: 读取的时候: import sys reload(sys) #中文错误 sys.setdefaultencoding( "utf-8" ) save 存储的时候: dataframe可以使用to_csv方法方便地导出到csv文件中,如果数据中含有中文,一般encoding指定为"utf-8″,否则导出时程序会因为不能识别相应的字符串而抛出异常,index指定为False表示不用导出dataframe的index数据

【Python】解析Python中的文件操作

目录结构: contents structure [-] 简介 Python中的文件类型 内置函数的文件操作 open()函数 Mode 创建文本文件 读取文本文件 循环文件对象 关闭文件 With语句 os模块 fileinput模块 1.简介 在Python中无需引入额外的模块来进行文件操作,Python拥有内置的文件操作函数(除了内置文件操作函数,Python语言也提供了额外的文件操作模块,它们具有更加强大的功能). os模块提供了在操作系统上可移植的文件操作方法.如果只是想要读取和写入数

PHP中读取文件的几个方法

整理了一下PHP中读取文件的几个方法,方便以后查阅. 1.fread string fread ( int $handle , int $length ) fread() 从 handle 指向的文件中读取最多 length 个字节.该函数在读取完最多 length 个字节数,或到达 EOF 的时候,或(对于网络流)当一个包可用时,或(在打开用户空间流之后)已读取了 8192 个字节时就会停止读取文件,视乎先碰到哪种情况. fread() 返回所读取的字符串,如果出错返回 FALSE. <?ph

B.php中读取文件内容的几种方法

php中读取文件内容的几种方法 1.fread string fread ( int $handle , int $length ) fread() 从 handle 指向的文件中读取最多 length 个字节.该函数在读取完最多 length 个字节数,或到达 EOF 的时候,或(对于网络流)当一个包可用时,或(在打开用户空间流之后)已读取了 8192 个字节时就会停止读取文件,视乎先碰到哪种情况. fread() 返回所读取的字符串,如果出错返回 FALSE. <?php $filename

解决linux系统下python中的matplotlib模块内的pyplot输出图片不能显示中文的问题

问题: 我在ubuntu14.04下用python中的matplotlib模块内的pyplot输出图片不能显示中文,怎么解决呢? 解决: 1.指定默认编码为UTF-8: 在python代码开头加入如下代码 import sys reload(sys) sys.setdefaultencoding('utf-8') 2.确认你ubuntu系统环境下拥有的中文字体文件: 在终端运行命令"fc-list :lang=zh",得到自己系统的中文字体 命令输出如下: /usr/share/fon

R中读取文件,找不到路径问题 No such file or directory

  R中读取文件,找不到路径问题 No such file or directory 近日,读取文件时.出现例如以下问题 > passenger = read.csv('international-airline-passengers.csv',sep=',') Error in file(file, "rt") : 无法打开链结 此外: Warning message: In file(file, "rt") : 无法打开文件'international-a

解决 python 中读写文件的终极方案 UnicodeDecodeError: &#39;gbk&#39; codec can&#39;t decode byte 0x9d in position 1270: illega

UnicodeDecodeError: 'gbk' codec can't decode byte 0x9d in position 1270: illegal multibyte sequence 上面是遇到的错误,本来想完成读文件,再写入另一文件的.但是在 fp.read() 时,一直遇到上面的错误,经过各种百度,google, 还有神奇的 stackoverflow 才知道是字符流的问题. 知道问题所在,还是没有解决,又苦苦搜索,终于在 stackoverflow 上找到灵感,可以把 op