使用chardet模块来判断数据的编码;输入参数为str类型。
#coding:utf-8 import cchardet f =open(‘hadoop.txt‘,‘r‘) #打开文本文件,只读 about=f.read() #读取文本内容 print cchardet.detect(about) #判断字符串编码 #将字符串的原编码先转成unicode编码,再转成utf-8编码 print about.decode(‘gbk‘).encode(‘utf-8‘)
pd.DataFrame数据类型转换
# -*- coding: UTF-8 -*- import pandas as pd df = pd.DataFrame([{‘col1‘:‘a‘, ‘col2‘:‘1‘}, {‘col1‘:‘b‘, ‘col2‘:‘2‘}]) print df print ‘查看df对象数据类型‘ print df.dtypes df[‘col2‘] = df[‘col2‘].astype(‘int‘) print ‘-------------------------------------------‘ print df[‘col2‘] .dtypes df[‘col2‘] = df[‘col2‘].astype(‘float64‘) print ‘-------------------------------------------‘ print df.dtypes
当然方法还有很多。。。
时间: 2024-08-19 01:34:54