Linux下Join命令

Linux下Join命令

最近新上线算法，打算分析起点书籍点击率的波动，原来已经有流程每天每本书籍的点击率数据（文件）。之前这种情况都是写代码对不同天的进行合并，后来发现linux下直接就有join命令，可以做类似的事情，而且功能也挺强大，速度也很快。

join [-i][-a<1或2>][-e<字符串>][-o<格式>][-t<字符>][-v<1或 2>][-1<栏位>][-2<栏位>][--help][--version][文件1][文件2]
常用参数说明：
-a<1或2>   除了显示原来的输出内容之外，还显示指令文件中没有相同栏位的行。
-e<字符串>   若[文件1]与[文件2]中找不到指定的栏位，则在输出中填入选项中的字符串。
-i或–igore-case   比较栏位内容时，忽略大小写的差异。
-o<格式>   按照指定的格式来显示结果。
-t<字符>   使用栏位的分隔字符。
-v<1或2>   跟-a相同，但是只显示文件中没有相同栏位的行。
-1<栏位>   连接[文件1]指定的栏位。
-2<栏位>   连接[文件2]指定的栏位。
–help   显示帮助。
–version   显示版本信息。

注意一下：

1、文件必须根据join的key进行排序。（join应该是通过多路归并，所以效率比较高）

2、各种join方式对应如下

内连接（inner join）格式：join <文件1> <文件2>

左连接（left join, 左外连接, left outer join）格式：join -a1 <文件1> <文件2>

右连接（right join, 右外连接,right outer join）格式：join -a2 <文件1> <文件2>

全连接（full join, 全外连接, full outer join）格式：join -a1 -a2 <文件1> <文件2>

我已有的每天的点击率文件格式是

Bookid PV CLICK CTR

以合并12月20号，和12月19号点击率为例，并且根据20号比19号点击率下降最多的排序，命令如下

join -t” “ -1 1 -2 1 -a 1 -a 2 -o 1.1 -o 2.1 -o 1.4 -o 2.4 -e “0″ ./ctr_1220 ./ctr1219 | awk -F” ” ‘{print $0″ “$4-$3}’ | sort -rn -k 5

时间： 2024-10-03 13:40:09

Linux下Join命令的相关文章

（转）Linux下PS命令详解

(转)Linux下PS命令详解整理自:http://blog.chinaunix.net/space.php?uid=20564848&do=blog&id=74654 要对系统中进程进行监测控制,查看状态,内存,CPU的使用情况,使用命令:/bin/ps (1) ps :是显示瞬间进程的状态,并不动态连续: (2) top:如果想对进程运行时间监控,应该用 top 命令: (3) kill 用于杀死进程或者给进程发送信号: (4) 查看文章最后的man手册,可以查看ps的每项输出的含义

Linux下more命令C语言实现实践

1. more第一版实现基础功能,显示每一页固定24行文本,"q Enter"退出, "Enter" 下一行, "space Enter"下一页. /************************************************************************* > File Name: more01.c > Author: qianlv > Mail: [email protected] &

Linux下chkconfig命令详解

Linux下chkconfig命令详解 chkconfig命令主要用来更新(启动或停止)和查询系统服务的运行级信息.谨记chkconfig不是立即自动禁止或激活一个服务,它只是简单的改变了符号连接. 使用语法:chkconfig [--add][--del][--list][系统服务] 或 chkconfig [--level <等级代号>][系统服务][on/off/reset] chkconfig在没有参数运行时,显示用法.如果加上服务名,那么就检查这个服务是否在当前运行级启动.如果是,返

转载的 Linux下chkconfig命令详解

Linux下chkconfig命令详解 chkconfig命令主要用来更新(启动或停止)和查询系统服务的运行级信息.谨记chkconfig不是立即自动禁止或激活一个服务,它只是简单的改变了符号连接. 使用语法: chkconfig [--add][--del][--list][系统服务] 或 chkconfig [--level <等级代号>][系统服务][on/off/reset] chkconfig 在没有参数运行时,显示用法.如果加上服务名,那么就检查这个服务是否在当前运行级启动.如果是

linux下常用命令备忘

转自:Linux 命令集锦 linux下查看监听端口对应的进程 # lsof -i:9000 # lsof -Pnl +M -i4 如果退格键变成了:"^h". 终端连接unix删除退格键,按住CTL键同时按delete Linux搜索 # find / -name "xxx.conf" 查看linux是32位还是64位的命令 #file /sbin/init #getconf LONG_BIT #getconf -a 在Linux和Windows下都可以用nslo

Linux 下 who 命令

命令: who: 常用选项意义 -a 显示所有用户的所有信息 -m 显示运行该程序的用户 -p 只显示用户的登陆帐号和登陆用户的数量,该选项优先级高于其他任何选项 -r 显示当前用户的运行级别,是在那个级别运行的 -u 在登陆用户后面显示该用户最后一次对系统进行操作距今的时间参数:注:格式有点乱, -a, --all : 系统引导 2014-05-30 00:32 运行级别 2 2014-05-30 00:32 登录 tty4 2014-05-30 00:32 932 id=4 登录 tty

linux下find命令的使用

find find命令是我们常用的查找文件的命令,它是一个非常强大的查找指令,但相对话费的时间会很长,并且非常消耗资源. 语法: find [路径] [参数] [表达式] [-exec -ok ...] 指令 {} \; {} 代表find找到的文件: \ 禁止转义: {} \; 之间是有空格的: ; 表示本指令结束 -exec find命令对匹配的文件执行该参数所给出的shell命令: -ok 和-exec的作用相同,只不过是一种更为安全的模式来执行该参数

Linux下ls命令显示符号链接权限为777的探索

Linux下ls命令显示符号链接权限为777的探索 --深入ls.链接.文件系统与权限一.摘要 ls是Linux和Unix下最常使用的命令之一,主要用来列举目录下的文件信息,-l参数允许查看当前目录下所有可见文件的详细属性,包括文件属性.所有者.文件大小等信息.但是,当其显示符号链接的属性时,无论其指向文件属性如何,都会显示777,即任何人可读可写可执行.本文从ls命令源码出发,由浅入深地分析该现象的原因,简略探究了Linux 4.10下的符号链接链接.文件系统与权限的源码实现. 关键词:Li

linux下scp命令详解

scp是 secure copy的缩写, scp是linux系统下基于ssh登陆进行安全的远程文件拷贝命令.linux的scp命令可以在linux服务器之间复制文件和目录. scp命令的用处: scp在网络上不同的主机之间复制文件,它使用ssh安全协议传输数据,具有和ssh一样的验证机制,从而安全的远程拷贝文件. scp命令基本格式: scp [-1246BCpqrv] [-c cipher] [-F ssh_config] [-i identity_file] [-l limit] [-o s

猜你喜欢

Yii源码阅读笔记（一）

今天开始阅读yii2的源码,想深入了解一下yii框架的工作原理,同时学习一下优秀的编码规范和风格.在此记录一下阅读中的小心得. 每个框架都有一个入口文件,首先从入口文件开始,yii2的入口文件位于we ...

POJ1789 Truck History 【最小生成树Prim】

Truck History Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 18981 Accepted: 7321 De ...

Collection的实现——学生选课（三）

通过addAll方法往list对象添加课程: Course []course={new Course("3","离散数学"),new Course(" ...

jquery-ui-bootstrap动态添加和删除标签页封装【效果更炫】

1.效果图 2.导入js和css <link rel="stylesheet" href="css/bootstrap/css/bootstrap.min.css& ...

iOS中利用 runtime 一键改变字体

http://www.cocoachina.com/ios/20160504/16109.html 本文为投稿文章,作者:HenryCheng(简书) 最近公司要在5月份举办个大型的发布会,所以在这之 ...

PHP 魔术方法 __sleep __wakeup(四)

串行化serialize可以把变量包括对象,转化成连续bytes数据. 你可以将串行化后的变量存在一个文件里或在网络上传输. 然后再反串行化还原为原来的数据. 你在反串行化类的对象之前定义的类,PHP ...

2017年第一篇博客--关于集成友盟和微信支付等遇到的坑

前几天刚完工的一个定制单,需要用到分享,第三方登录,微信支付功能.因为一直都是用友盟去集成分享和第三方登录,所以项目初期就使用cocopads导入了友盟库. 上个月开始做支付功能,支付宝支付没有什么问 ...

Maven在Eclipse中的实用小技巧

前言我们在开发的工程中很多都是Maven项目,这样更加便于我们jar包的管理.而我们一般使用的IDE都是Eclipse,由于我们在日常的开发过程中会经常要用到一些Maven的操作,所以我今天主要跟大 ...

Eclipse 日期和时间格式自定义

点击下载Eclipse插件 org.eclipse.text_3.5.300.v20130515-1451.jar 覆盖下图所示的jar文件. /************************* ...

Linux Block Driver 分析

前段时间看了Linux Block Layber的相关代码,主要看了Linux最简单的IO调度器NOOP的实现. 接下来总结下Linux BLOCK层work flow的机制. 继续把SCSI 探测设 ...

mysql 每天的统计 yyyy年MM月dd日 HH时mm分ss秒

select date_format(ok.CREATED_DT,'%Y-%m-%d'),count(*) from ord_rkd ok where ok.CREATED_DT BETWEEN '2 ...

构造函数与析构函数2

// 构造函数与析构函数2.cpp : 定义控制台应用程序的入口点.//学习动态内存单元的申请 #include "stdafx.h"#include<iostream> ...

[Java] switch-case 当中的变量定义

1 switch(c){ 2 case '+': 3 int res =d1+d2; 4 data.push(res); 5 break; 6 case '-': 7 res = d2-d1; 8 d ...

开启暑假新生活( ?? ω ?? )

终于如愿考上了某大学,然而距离上一次写代码已经过去了半年多…无论进什么系,程序设计都是必修课,而我终于再也没有借口继续依赖老爷车Pascal… 愉快地下载了Code::Blocks,翻开书本学起了C… ...

Unity shader学习之半兰伯特光照模型

半兰伯特光照模型,为Valve公司在开发游戏<半条命>时提出的一种技术,用于解决漫反射光无法到达区域无任凭明暗变化,丢失模型细节表现的问题. 其公式如下: Cdiffuse = Cligh ...

centos+usvn（基于lamp）

centos6.7+lamp+subversion+usvn安装配置安装环境 CentOS 6.7 X86_64 主要软件: subversion usvn yum install subversi ...

css的简介

昨天内容回顾 1.html的操作思想 ** 使用标签把要操作的数据包起来,通过修改标签的属性值来实现标签内数据样式的变化 *** <font size=&quo ...

linux系统查看外网IP

很简单的一个命令: [[email protected] /]# curl ifconfig.me 120.132.xxx.xxx 就完成了,很方便.

恶补c语言之strlen的实现

最近与同学交流c语言库函数的实现,发现自己所学的不能灵活运用,于是乎我就开启猛火力模式,先自己来实现下常见的库函数. strlen()函数说明返回指定字符串长度,不包括结束字符'/0' 实现原型: ...

前台分页

var dg = $(this); var opts = dg.datagrid('options'); var pager = dg.datagrid('getPager'); pager.pagi ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.