在百度nlp实习一个月时间里用到的shell操作

文本行中各列打乱:

awk ‘BEGIN{srand()}{for(i=1;i<=NF;i++) b[rand()NF]=$i}END{for(x in b)printf "%s ",b[x]}‘` data

文本行中各行打乱:

awk ‘BEGIN{srand()}{b[rand()NR]=$0}END{for(x in b)print b[x]}‘ data

shuf -n1000 data

以a.txt作为pattern查找b.txt,实际是求2者交集:

grep -F -x -f a.txt b.txt

以a.txt作为pattern查找b.txt,显示不在a.txt中的数据,实际是求差集b-a:

grep -F -v -x -f a.txt b.txt

编码转换:

iconv -f gb18030 -t utf8 filename

以_为分隔符,第二列为键值排序,稳定排序(默认不稳定):

sort -t_ -k1,2  -s  filename

对大文件进行外部排序并去重,以temp目录作为缓存:

sort -u -T temp filename

sort filename | uniq   -c计数唯一的排序的记录 -d仅仅显示重复的记录 -u仅仅显示没有重复的记录

在preview中打开awk的man文档:

man -t awk | open -a Preview -f

awk和cut简单用法:

awk -F: -v ‘OFS=\t‘ ‘{print "all users are:",$1,$2,$3,$4,$5,$6,$7}‘ /etc/passwd | cut -f 1,6

wc -l 行数 -c字节数 -w字数

在百度nlp实习一个月时间里用到的shell操作

时间: 2024-10-11 04:45:57

在百度nlp实习一个月时间里用到的shell操作的相关文章

百度2016实习 前端试题中的编程题2:Excel地址的相互转换 [2015南桥杯试题]

百度2016实习 前端试题中的编程题2:Excel地址的相互转换  Excel是最常用的办公软件.每个单元格都有唯一的地址表示.比如:第12行第4列表示为:"D12",第5行第255列表示为"IU5". 事实上,Excel提供了两种地址表示方法,还有一种表示法叫做RC格式地址. 第12行第4列表示为:"R12C4",第5行第255列表示为"R5C255". 要求:编写程序,对换两种不同的表示方法表示行列,即 如果输入是常规地址

Camera和百度地图在TabActivity里,互相切换导致显示紊乱问题解决

今天遇到一个奇葩问题,一个app的大框架是下面有四个Tab页,于是我用了TabActivity,其中两个tab页分别是扫一扫和百度地图的activity.问题来了,如果点击tab页进到Camera里,扫描正常,但是再点击地图进去,整个地图就显示不出来了.反之先进去百度地图,再进camera,也是同样问题,只有地图在上面盖着,Camera预览在下面显示不出来. 示例如下: 经过咋家分析,原因里Camera使用了Surfaceview作预览载体,Surfaceview具有抢占窗口的特性,他本质上不是

百度NLP预训练模型ERNIE2.0最强实操课程来袭!【附教程】

2019年3月,百度正式发布NLP模型ERNIE,其在中文任务中全面超越BERT一度引发业界广泛关注和探讨.经过短短几个月时间,百度ERNIE再升级,发布持续学习的语义理解框架ERNIE 2.0,及基于此框架的ERNIE 2.0预训练模型.继1.0后,ERNIE英文任务方面取得全新突破,在共计16个中英文任务上超越了BERT和XLNet, 取得了SOTA效果. 本篇内容可以说是史上最强实操课程,由浅入深完整带大家试跑ERNIE,大家可前往AI Studio fork代码 (https://ais

百度nlp实习生转岗 一面

大部分是问项目相关的.只记住了几个关键的问题. 1.手写快排 2.生成模型与判别模型的区别 分类问题:2种形式: F(x)=y p(y|x) 生成模型:由数据学习联合分布概率p(x,y),然后求出条件概率分布p(y|x) p(y|x) = p(x,y)/p(x) 例如,朴素贝叶斯. 判别模型: 直接学习p(y|x),不用联合分布概率. 3.svm 核函数作用? 解决线性不可分问题,减少计算量. 4.你的专业是通信工程,通信是做什么的? 5.通信工程中有哪些机器学习的知识? 6.聊比赛,360人机

百度PHP实习一面面试题-算法-二维有序矩阵的查找

题目描述 有一个二维矩阵,每一行的元素,从左到右保持严格递增,每一列的元素,从上到下保持严格递增.查找给定元素elem,返回NULL或元素位置. 1 3 7 15 16 2 5 8 17 19 3 6 9 18 20 7 18 20 22 24 9 23 24 28 33 思路 先从对角线进行一次鉴定,左上角为矩阵最小值,右下角为最大值,不在区间内,说明查找的值不在矩阵内,否则: 从左下角开始找,如果当前元素大于elem,则向上走:否则向右走.复杂度O(M+N).

获取百度贴吧的里QQ号

import urllib.request import re as gg import os,string,sys import easygui as g result = [] #urllib.urlopen(url)  获取网页源码函数 #urllib.urlretrieve(url,'存储名字')  将网页资源下载到本地函数 def getyuanma(_url): page = urllib.request.urlopen(_url).read() page1 = page.decod

vba中if判断条件里等号无法完成赋值操作

今天遇到一个问题,结果发现是因为vba中if的判断条件中等号("=")无法完成赋值操作造成的. 举个栗子: 故应该在if之前就完成必要的赋值操作: 所以,if判断条件里的等号("=")只能用于判断相等,不能用于赋值.

MVC里模型常用的一些操作

学习也是做买卖,归根到底还是学习成本的问题. 下面把微软集合类型的增删改查稍微罗列一下,大家看看它能带来的便利,和你要学的新东西,还有风险(纯粹的数据操作,不用框架,风险其实不大)相比,是否值得.来决定是跳过,还是了解,还是精研.(建议敲一遍了解一下,以后写的东西如果频繁遇到数据的小操作,可以回来翻翻,研究研究,多个选择) 1.增删改查 1 var a = new List<Person>(); 2 Person user; 3 a.Add(new Person() { Name = &quo

js反柯里化个人理解以及操作

学过js的都知道原型是js的灵魂,我刚接触原型的时候觉得还挺绕的,然后看了一系列的解释然后自己理了一下思路,总算是清晰了,今天我弄了一下柯里化和反柯里化,对反柯里化结合原型链有了一定的认识,一下是我所总结的. 反柯里化,个人解释就是通过添加对象或者函数的原型的方法,让原本使用范围具有局限性的一段代码能够适用范围更广,例如,数组的reduce,map,foreach这些函数都只能通过数组对象使用,如果字符串要使用其方法,必须通过call,bind,apply的方式去修改函数的调用主体,但是我们完全