awk 正则匹配指定字段次数统计

1. 文本数据

head 12315_industry_business.csv
name,business,label,label_name
沧州光松房屋拆迁有限公司,旧房拆迁、改造;物业服务(依法须经批准的项目,经相关部门批准后方可开展经营活动),E4,建筑装饰和其他建筑业
上海托帕化工材料有限公司,"从事化工材料领域内的技术开发、技术转让、技术咨询、技术服务、化工原材料及产品(除危险化学品、监控化学品、烟花爆竹、易制毒化学品、民用爆炸物品)、机械设备、电子产品、橡塑制品、机电设备、五金建材、日用百货的销售,从事货物及技术的进出口业务。
【依法须经批准的项目,经相关部门批准后方可开展经营活动】",F2,零售业
上海利昂节能灯具有限公司,节能灯管,节能灯配件,电子镇流器,灯具,电子产品,生产,加工,C26,电气机械和器材制造业
裕福支付有限公司海南分公司,"企业管理咨询,计算机数据处理,应用软件技术服务,会议服务,经济信息咨询",L2,商务服务业
龙川县联生农贸市场管理中心,自建农贸市场管理服务,L2,商务服务业
安徽国茂机电设备有限公司,"风工业设备、水工业设备、机械式停车设备、环保设备、暖通空调设备、消防排烟风机、防火排烟阀门(防火阀、排烟防火阀、排烟阀)、消防设备、人防设备、电力设备、厨房设备、净化设备、化工设备、特种设备及交通(公共)设施标识、农业机械、工程机械、起重机械、通用机械及新能源、电子产品、计算机软(硬)件产品的开发、设计、制造、安装、维修和销售及机电成套系统工程控制应用的设计、施工、维修和安装;车用零部件的开发、生产和销售;日用百货、五金交电、钢材、建材、化工产品、保温制品销售;物流、仓储服务(危险品除外);废旧物资收购、销售(依法须经批准的项目,经相关部门批准后方可开展经营活动)",C23,专用设备制造业
如皋市中萃米业有限公司南门桥店,"预包装食品批发与零售(依法须经批准的项目,经相关部门批准后方可开展经营活动)",F1,批发业
新疆金沙漠能源有限公司策勒县分公司,"新能源技术开发及推广服务,能源业投资;销售机械设备,石油制品,化工产品,机电产品,仪器仪表,汽车配件,电子产品;商务信息咨询,电子过磅、停车场服务、货物与运输代理服务;销售壁挂炉、家用电器、煤炭、润滑油、防冻液、采油",F2,零售业

2. 结合cat, awk , sort, uniq 等小命令

cat 12315_industry_business.csv | awk -F ‘,‘ ‘{if(NF>2 && $(NF-1)~/^[A-Z][0-9]/) {print $(NF-1)}}‘ | sort | uniq -c | sort -n -r > 12315_label_distribution.txt

瑞士军刀,小巧精焊!

时间: 2024-10-06 07:28:17

awk 正则匹配指定字段次数统计的相关文章

php 正则匹配指定url的参数

function get_url_params($url, $arg_name) { $regx = '/.*[&|\?]'. $arg_name .'=([^&]*)(.*)/'; preg_match($regx, $url, $match); return $match[1]; } $str = $_SERVER['HTTP_HOST'].$_SERVER['PHP_SELF'].'?'.$_SERVER['QUERY_STRING']; var_dump($str); //preg

正则匹配指定字符之间的内容,并替换(多个匹配替换)

var str="是吗@Test1:我觉得你说的很对@Test:学无止境"; var r=str.match(/@.*?:/ig); for (var index = 0; index < r.length; index++) { str=str.replace(r[index],"<a>"+r[index]+"</a>"); } console.log(str); 原文地址:https://www.cnblogs.

awk结合正则匹配

利用awk分析data.csv中label列各取值的分布. 在终端执行head data.csv查看数据: 1 name,business,label,label_name 2 沧州光松房屋拆迁有限公司,旧房拆迁.改造:物业服务(依法须经批准的项目,经相关部门批准后方可开展经营活动),E4,建筑装饰和其他建筑业 3 上海托帕化工材料有限公司,"从事化工材料领域内的技术开发.技术转让.技术咨询.技术服务.化工原材料及产品(除危险化学品.监控化学品.烟花爆竹.易制毒化学品.民用爆炸物品).机械设备.

re模块 正则匹配

import re re.M 多行模式 位或的意思 parrterm就是正则表达式的字符串,flags是选项,表达式需要被编译,通过语法.策划.分析后卫其编译为一种格式,与字符串之间进行转换 re模块 主要为了提速,re的其他方法为了提高效率都调用了编译方法,就是为了提速 re的方法 单次匹配 re.compile 和 re.match def compile(pattern, flags=0): return _compile(pattern, flags) 可看到,re最后返回的是_comp

正则匹配模式汇总(一)

正则表达式提供另一种强大的文本搜索和处理方式,对于正则表达式,不同语言有着不同的实现,JavaScript采用的Perl5的语法.对于极少数匹配模式是简单的全字符文本的情况,我们往往会采用indexOf这样的方法,但是多数情况下,匹配模式往往都更为复杂. 1.语法 1)在JavaScript中我们可以采用内建构造器RegExp()来创建正则表达式的对象:  var re = new RegExp("j.*t") 2)当然除了使用RegExp对象,我们可以采用更为简便的正则文本标记法 v

Nginx 正则匹配配置

location表达式类型 ~ 表示执行一个正则匹配,区分大小写 ~* 表示执行一个正则匹配,不区分大小写 ^~ 表示普通字符匹配.使用前缀匹配.如果匹配成功,则不再匹配其他location. = 进行普通字符精确匹配.也就是完全匹配. @ 它定义一个命名的 location,使用在内部定向时,例如 error_page, try_files location优先级说明 在nginx的location和配置中location的顺序没有太大关系.正location表达式的类型有关.相同类型的表达式

scala实战之spark用户在线时长和登录次数统计实例

接触spark后就开始学习scala语言了,因为有一点python和java的基础学习起来还行,今天在这里把我工作中应用scala编程统计分析用户行为日志的实例和大家分析一下,我这里主要讲一下用户的在线时长统计和登录次数统计算法实现过程. 第一步 编程环境:首先你得有spark安装包 你可以先不用本地安装spark,但是可以通过import spark-assembly-1.6.2-hadoop2.6.0.jar包来完成程序调试 另外需要scala的运行环境,我用的版本:scala-sdk-2.

捧腹网短笑话正则匹配-如何剔除网页源码的制表符

以捧腹网的短笑话为例,我们可以通过requests方法提取出网页的源代码,然后通过正则匹配来得到相关的短笑话 第一步,得到网页源码,使用requests的get方法,需要注意的是,网页默认编码是utf-8,我们需要指定编码格式为utf-8,才能正确显示出网页的文本信息 #-*- coding:utf-8 -*-import requestsimport re respon=requests.get('https://www.pengfu.com/xiaohua_1.html?qq-pf-to=p

Python3正则匹配re.split,re.finditer及re.findall函数用法详解

这篇文章主要介绍了Python3正则匹配re.split,re.finditer及re.findall函数用法,结合实例形式详细分析了正则匹配re.split,re.finditer及re.findall函数的概念.参数.用法及操作注意事项,需要的朋友可以参考下 本文实例讲述了Python3正则匹配re.split,re.finditer及re.findall函数用法.分享给大家供大家参考,具体如下: re.split re.finditer re.findall @(python3) 官方 r