python读取文件编码格式

下载库

pip install chardet

执行

import chardet

f = open(‘a.doc‘,r)

data = f.read()

print chardet.detect(data)

结果

{‘confidence‘: 0.64465744, ‘encoding‘: ‘utf-8‘}

前面是相似度  后面是编码格式

时间: 2024-11-07 00:32:47

python读取文件编码格式的相关文章

解决Python读取文件时出现UnicodeDecodeError: 'gbk' codec can't decode byte...

用Python在读取某个html文件时会遇到下面问题: 出问题的代码: 1 if __name__ == '__main__': 2 fileHandler = open('../report.html', mode='r') 3 4 report_lines = fileHandler.readlines() 5 for line in report_lines: 6 print(line.rstrip()) 修改方式是在open方法指定参数encoding='UTF-8': if __nam

python读取文件小结

python读取文件小结 你想通过python从文件中读取文本或数据. 一.最方便的方法是一次性读取文件中的所有内容并放置到一个大字符串中: all_the_text = open('thefile.txt').read( )     # 文本文件中的所有文本 all_the_data = open('abinfile','rb').read( )    # 二进制文件中的所有数据 为了安全起见,最好还是给打开的文件对象指定一个名字,这样在完成操作之后可以迅速关闭文件,防止一些无用的文件对象占用

python 读取文件时报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multibyte sequence

python读写txt文件转化成excel文件 python读取文件时提示"UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multibyte sequence" 解决办法1. FILE_OBJECT= open('order.log','r', encoding='UTF-8') 解决办法2. FILE_OBJECT= open('order.log','rb') pyth

Python读取文件

1.在Python中如何操作文件 2.如何读取大文件 文件内建函数:open(file_name,access_mode='r',buffering=-1),file() 文件访问模式:     r:以读方式打开(默认)     w:写     a:追加     b:以二进制方式打开     r+ w+ a+:读写方式打开     rb:以二进制读模式打开     wb:以二进制写模式打开     ab:以二进制追加模式打开 输入,输出 read() 读取给定数目个字节 readline() 读

Python读取文件的最后一行(非空行)

利用Python读取文件(针对大文件和小文件两种)的首行(第一行)和末行(最后一行).脚本借鉴了前人的两种处理思路(在下面的脚本中有注释说明引用出处),并修正了原先两种处理方法中如果文件末尾含有多个空行而返回空行的问题. 脚本内容可以从GitHub上获取: https://github.com/DingGuodong/LinuxBashShellScriptForOps/blob/master/functions/file/getFileLastLine.py 脚本内容如下: #!/usr/bi

python 读取文件时报错: UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 127: illegal multibyte sequence

UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 127: illegal multibyte sequence python读取文件时提示UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 127: illegal multibyte sequence 解决办法: FILE_OBJECT= open('order.log','r'

python读取文件,如何去掉每一行末尾的换行符"\n"

参考文档:http://blog.csdn.net/jfkidear/article/details/7532293 #!/usr/bin/python # coding:utf-8 # 文件操作 with open('~/refer.txt', 'r') as f: print('文件正常打开,正在开始操作文件') for line in f.readlines(): # python按行读取文件,如何去掉换行符"\n" print line.strip('\n')

python读取文件的常用方法

#/usr/bin/env python #-*-coding:UTF-8-*- import sys """读取文件的常用方法""" def methodone(): fd = open("/home/userhome/hejoy/20170124.txt") try: for line in fd.readlines(): print line except IOError: print e finally: fd.clo

python 读取文件 并实现文件相关操作最后导出excel

今天做了一个使用python来提取日志内容,并导出excel的小脚本,代码写的不好,新手勿喷,下面进行一下总结. 需求如下: 1.读取文件行数,并作出excel表 2.读取文件中第7个字段,累加求和,求平均数.并找出其中最大的.做excel表. 3.找出文件中特定字符出现次数,统计,做excel表. 4.自动生成excel名称为实时时间. 读取文件行数第一想法就是 wc -l,虽然python中可以调用shell命令,但毕竟不太好,所以这里用python逐行读取文件并进行累加,算出文件行数...