EPG文件数据清洗

批量文件检查 
for id in `seq 0 9`
do
./check2.sh epg_201506270$id.dat
done
for id in `seq 10 23`
do
./check2.sh epg_20150627$id.dat
done
for id in `seq 0  9`
do
./filter.sh epg_20150627$id.dat
done
 
for id in `seq 10 23`
do
./filter.sh epg_20150627$id.dat
done

剔除过长的字段

cat epg_2015062712.dat|awk -F ‘|‘ ‘{if(length($4)<=32)print $0}‘>>epg_2015062712.tmp
mv epg_2015062712.tmp epg_2015062712.dat
时间: 2024-10-28 10:50:44

EPG文件数据清洗的相关文章

csv文件数据清洗

一.需求: 对爬取的csv文件进行数据清洗 运用内容:pandas.正则表达式 二.简单分析: 共176条数据 其中,分析目标以全职为准,但职位名称包含实习信息,需要删除掉. 数据方面:csv保存格式为str,运用正则表达式提取数值工作经验去平均值,工资按市场情况,取工资范围前25%. 三.代码: import pandas as pd df = pd.read_csv('lagou8.4jobs.csv',encoding='utf-8-sig') #print(df.describe())

比偶工作大事记

1.单个文件数据清洗 import ref=open("/Users/mingai/Downloads/4l8hA-1155-38.69.pdb","r")lines=f.readlines()f = open('/Users/mingai/Downloads/4l8hA-1155-38.69.txt','w')ans=[]patt = '-?\d+\.\d+'for raw in lines: list = [] while(re.search(patt,raw)

最佳vim技巧

最佳vim技巧----------------------------------------# 信息来源----------------------------------------www.vim.org         : 官方站点comp.editors        : 新闻组http://www.newriders.com/books/opl/ebooks/0735710015.html : Vim书籍http://vimdoc.sourceforge.net/cgi-bin/vim

数据清洗文件操作--csv txt文件读写、excel文件读写、数据库文件读写

数据清洗之文件操作 这是一个关于淘宝母婴产品的用户消费行为的数据集,然后基于这个数据集,做数据清洗 csv文件读写 In [ ]: import pandas as pd import numpy as np import os In [ ]: # 更改文件路劲 os.chdir('F:\CSDN\课程内容\代码和数据') In [ ]: #设置最大显示列数 pd.set_option('display.max_columns', 20) #设置最大显示行数 pd.set_option('dis

【数据清洗】2007-数据清洗研究综述

王曰芬 章成志 张蓓蓓 吴婷婷 定义:数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等.与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成. 目的:数据清洗的目的是为信息系统提供准确而有效的数据. 基本原理:利用有关技术,如统计方法.数据挖掘方法.模式规则方法等将脏数据转换为满足数据质量要求的数据.数据清洗按照实现方式与范围,可分为以下4种: Ⅰ  手工实现 Ⅱ  编写专门的应用程序 Ⅲ  解决某类特定应用域的问题 Ⅳ  与特定应用领

机器学习中的数据清洗与特征处理综述

背景 随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富.通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向.目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐.筛选排序.搜索排序.用户建模等等,为公司创造了巨大的价值.本文主要介绍在美团的推荐与个性化团队实践中的数据清洗与特征挖掘方法.主要内容已经在内部公开课"机器学习InAction系列"讲过,本博客的内容主要是

自制数据挖掘工具分析北京房价 (二) 数据清洗

上一节我们通过爬虫工具爬取了近七万条二手房数据,那么这一节就对这些数据进行预处理,也就是所谓的ETL(Extract-Transform-Load) 一.ETL工具的必要性 数据分析的前提是数据清洗.不论如何高大上的算法,遇到错误数据,一个异常抛出来,绝对尸横遍野.而你不能指望核心算法为你处理错误或者短缺的数据.所以,数据清洗(ETL)就变得必不可少了. 如果数据分析是炒菜阶段,那么清洗就是洗菜,绝对是非常重要的一环. 而实际上,ETL工具可以很简单,也可以很复杂.简单到只需要把字符串转换为数字

一文贯通python文件读取

p.p1 {margin: 0.0px 0.0px 0.0px 0.0px; -webkit-hyphens: auto; font: 24.0px 'Helvetica Neue'; color: #3e3e3e; -webkit-text-stroke: #3e3e3e} p.p2 {margin: 0.0px 0.0px 0.0px 0.0px; -webkit-hyphens: auto; font: 16.0px 'Helvetica Neue'; color: #8c8c8c; -w

收缩Oracle数据文件

最近有网友提到收缩Oracle数据文件的问题,这是DBA经常碰到的一个常见问题.通常我们需要收缩相应的数据文件以减少来自磁盘空间的压力以及提高数据库的整体性能.但这并非对于所有情形都是适用的,尤其是生产环境.因为生产环境数据清洗相当较少,因此空间浪费也比较小,而且一旦收缩之后又要重新自动扩展数据文件,浪费系统资源.对于UAT,DEV环境,多DB,磁盘空间压力大的情形,收缩一下非常有必要.勒紧裤带过日子也是常有的事情,哈哈.总之收缩数据文件会使得磁盘空间得以释放以及加快数据迁移,RMAN备份等.本