《懒人Shell脚本》之六——一键构造待采集批量sql语句

1、需求

采集任务构造入库。实现200多个网站的标题、时间、内容等信息的采集信息配置,并插入mysql中。

2、实现步骤

步骤1:人工实现Excel表格配置。

定义好唯一索引,如第一列的序号。好处:

1)序号可以成为mysql中的索引。

2)序号规定后,可以实现分布式,1个人4个小时。真正可以实现4个人1小时完成任务。(真正的分布式)

这点,非常重要。

关于索引,实践表明,对于每个网站入口唯一值的定义unique索引,能更进一步防止冲突,确保唯一。

步骤2:将表格存入到txt中。

在linux环境下,进行dos2unix格式转换,确保utf-8编码,确保没有乱码。

步骤3:脚本实现一键构造sql语句。

3、脚本源码

#!/bin/sh
P2P_CONFIG_FILE=./base_config.txt
ONE_LINE=./output/config_line.txt

#read line by line
cat $P2P_CONFIG_FILE | while read line
do
mkdir -p ./output
echo $line > $ONE_LINE;
#echo line=$line

id_01=`cat $ONE_LINE | awk -F " " ‘{ print $1 }‘`;
name_02=`cat $ONE_LINE | awk -F " " ‘{ print $2 }‘`;
url_03=`cat $ONE_LINE | awk -F " " ‘{ print $3 }‘`;
lstcharset_04=`cat $ONE_LINE | awk -F " " ‘{ print $4 }‘`;
concharset_05=`cat $ONE_LINE | awk -F " " ‘{ print $5 }‘`;
notice_url_06=`cat $ONE_LINE | awk -F " " ‘{ print $6 }‘`
titleXpath_07=`cat $ONE_LINE | awk -F " " ‘{ print $7 }‘`
timeXpath_08=`cat $ONE_LINE | awk -F " " ‘{ print $8 }‘`
contentXpath_09=`cat $ONE_LINE | awk -F " " ‘{ print $9 }‘`

touch ./tmp.txt
echo $titleXpath_07 >> ./tmp.txt
sed -i "s#\"#\\\‘#g" ./tmp.txt
titleXpath_07=`cat ./tmp.txt`

#echo $id_01
#echo $name_02
#echo $url_03

echo "INSERT INTO test.mdia_config (id, source_name, entry_url, list_charset, content_charset, channel_id, media_class, site_id, class_id, list_xpath, title_xpath, publish_time_xpath, content_xpath, click_count_xpath, comment_count_xpath, repost_count_xpath, list_js_enabled, content_js_enabled, last_deliver_time, deliver_period, weight, proxy_gather, delete_flag) VALUES (‘$id_01‘, ‘$name_02‘, ‘$notice_url_06‘, ‘$lstcharset_04‘, ‘$concharset_05‘, ‘1‘, ‘1‘, ‘$id_01‘, ‘1‘, ‘[\"$titleXpath_07\"]‘, ‘‘, ‘$timeXpath_08‘, ‘$contentXpath_09‘, ‘‘, ‘‘, ‘‘, ‘0‘, ‘0‘, ‘2016-11-19 05:02:11‘, ‘600‘, ‘0‘, ‘0‘, ‘0‘);"

rm -f $ONE_LINE
rm -f ./tmp.txt

done;

注意点:

1)、逐行读取;

2)、对于每一列的读取,采取了循环存储临时文件,然后循环删除的方法。(2年前跟同事学的,非常凑效)

3)、注意sql中对单引号、双引号的提前处理,确保sql语句合法。这点,可以去navicate里面去验证sql语句。

4、小结

能够脚本实现提高效率的,坚决不用手动敲入。

是的,就是简单的几行,也要写个循环。效率见于平时,效率见于细节。

作者:铭毅天下

转载请标明出处,原文地址:

http://blog.csdn.net/laoyang360/article/details/53236018

如果感觉本文对您有帮助,请点击‘顶’支持一下,您的支持是我坚持写作最大的动力,谢谢!

时间: 2024-10-04 15:14:32

《懒人Shell脚本》之六——一键构造待采集批量sql语句的相关文章

《懒人Shell脚本》之七——格式化处理数据存入数据库实现

0.引言 实际应用开发中遇到:将非格式化的文件数据存储到数据库中.对于传统的格式化的数据:ini/json/xml我们都有现成的类库去实现.而对于如下非格式化的数据呢?以下是我的思考与实现. 数据截取片段如下所示: [[email protected] 2017]# head -n 10 input.txt [url]http://epaper.tianjinwe.com/mrxb/mrxb/2013-02/21/content_7566593.htm 新报讯[记者王晶通讯员赵子强]对31.66

《懒人Shell脚本》之八——定期备份Mysql数据库表的实现

0.背景 实际开发环境中,前端程序需要在给定时间段内,将数据更新/插入到mysql指定的库表中.随着数据量的增多,基础库表基数的增长,每更新一次都会有5s左右的卡顿. 改进方案一:批量更新,累计数10条或者100条进行一次更新入库操作: 改进方案二:将当前日期前1个月之前的数据进行备份操作,并删除当前库表中1个月前的数据.经测定,该方法一定程度提高了访问效率.根因:基础表基数少,查询效率相对提高. 1.库表的定时备份总结 步骤1:备份Mysql指定数据库中的制定库表. 使用 mysqldump,

shell 脚本实战笔记(9)--linux自动批量添加用户

前言: 添加linux用户帐号,这个相对简单, 在面对集群, 许多机器的时候, 我们该如何去做和实现? 这篇短文, 简单讲解一些思路, 尽可能地涉及周边的一些知识点. 不光是运维人员会面临这个问题, 对一个基于linux平台的集群服务或软件(比如hadoop集群), 有时也会涉及到这块. 应用场景: 是以centos 6.4作为演示的系统, 其他的系统有类同, 也有差异, 且以实战演练, 一步步的讲述下流程. *) 实战演练 查阅useradd的使用和参数选项useradd --help -d,

编写shell脚本实现一键创建KVM虚拟机

shell脚本一键创建虚拟机 代码如下: #!/bin/bashname=$1 #把位置变量$1重新定义为name(创建虚拟机的名字)path1=/var/lib/libvirt/images/ #img存放路径path2=/etc/libvirt/qemu/ #xml文件存放路径function createkvm { #将创建虚拟机的命令定义为createkvm函数 qemu-img create -f qcow2 -b ${path1}jrjs.img ${path1}${name}.im

shell脚本:一键安装LAMP、LNMP脚本

历时三天边写边测试,终于完成目前最长代码的脚本,总共253行,在2台机器安装LAMP,LNMP都顺利通过,脚本可做为生产环境使用. 脚本需要注意的地方:1:脚本适用于centos系统6.5以上,干净系统:如安装过其他环境需要修改脚本内容:2:脚本适用于:apache 2.4.x 版本:mysql5.5.x以上版本:php5.5.x以上版本:3:mysql .php. apache. nginx 安装包事先要下载到/usr/local/src目录下,如名字不对需要更改脚本里的软件包名称: 脚本安装

100例SHELL脚本之六

[[email protected] ~]# cat selectmenu.sh #!/bin/bash ###menu select#########Dan Chen ######## ######2019-6-5####### PS3="Please input your choice: "while :doselect input in disk_patiton disk_use memory_use cpu_use ip_connection quitdocase $input

shell 脚本——第七节课 三剑客之sed语句

sed命令 Linux文本处理三剑客 之 sed sed stream EDite 作为行编辑器,对文本进行编辑(以行为单位进行编辑) 注意:sed编辑文件,却不改变原文件: sed的工作原理: 指定一个文本文件,依次读取文本文件中每行的内容,读取到模式空间中(PATTERN SPACE),在模式空间中进行文本匹配(正则表达式),对匹配后的内容进行修改(替换.删除.打印.修改.保存等) 用法: sed [OPTION]... {script-only-if-no-other-script} [i

shell脚本中怎样同时执行多个.sql文件,并把结束写入文件中(转)

第一版: #!/bin/bash USER="root" DATABASE="test" TABLE="user" mysql -u $USER $DATABASE --html --default-character-set=utf8 < one.sql > /tmp/check.html mysql -u $USER $DATABASE --html --default-character-set=utf8 < two.sq

数据库面试系列之六:会写基本的sql语句

面试让写的sql语句涉及到order by ,group by, having ,like ,limit  等 order by 排序 asc生序,desc降序 group by 分组,having用于分组筛选 like用于模糊匹配查询 limit控制返回的结果条数,以及从第几条返回 select sid,sum(score) as 总分数 where sid>1004 group by sid having 总分数>60 order by 总分数 desc; select * from st