wc命令中字节,字符的计算方式

wc命令输出的是行数字数和字节数,字节数是byte,是用于计量存储的一种单位,常见的计量单位包括Kb,Mb,Gb,字符和字节换算还要看是什么编码,常见的有ascii码,utf-8编码和unicode编码,编码不同,换算不同。

ASCII码:一个英文字母占一个字节的空间,一个中文汉字占两个字节的空间。

UTF-8编码:一个英文字符等于一个字节,一个中文等于三个字节。

Unicode编码:一个英文等于两个字节,一个中文(含繁体)等于两个字节。

符号:英文标点占一个字节,中文标点占两个字节。


[[email protected] ~]#echo $LANG
en_US.UTF-8
#显示当前用的什么语系和编码,英文UTF-8编码,1个英文字符等于1个字节,1个中文等于3个字节,注意空格是1个字符,每一行还有1个换行符

[[email protected] ~]#cat test1
你好 cn

[[email protected] ~]#wc test1
 1  2 10 test1
 #test1是1行,2个字,字节数是3(中文)+3(中文)+1(空格)+2(英文)+1(换行符)=10

[[email protected] ~]#cat test2
123456nihao
123456nihao

[[email protected] ~]#wc test2
 2  2 24 test2
 #test2是2行,2个字,字节数是11+1(换行符)+11+1(换行符)=24

原文地址:http://blog.51cto.com/13655621/2088351

时间: 2024-08-04 06:55:32

wc命令中字节,字符的计算方式的相关文章

linux中的wc命令

该命令用于统计给定文件中的字符数.行数.命令语法:wc 选项 文件名wc -l filename该语句用来统计名称为filename的文件中的行数wc -c filename该语句用来统计名称为filename的文件中的字节数wc -w filename该语句用来统计名称为filename的文件中的字数在网站日志的分析中,常用的是wc -l filename统计方式比如统计我的网站的某个链接的访问量,假设该链接的标记点为aboutme,那么我们通过查看日志文件,统计aboutme的出现次数即可.

Android——检测TXT文件中是否含有双字节字符

在读取双字节字符时,主要涉及到编码的选取: Java代码   public static boolean isRightfulTXT(File f) { // TODO Auto-generated method stub String regexp="[^\\x00-\\xff]";//双字节字符 Pattern p=Pattern.compile(regexp); try { FileInputStream fis=new FileInputStream(f); //"G

由“Java中一个字符占两个字节”引起

起因 Java中一个字符占两个字节,这和C/C++稍有区别.在C/C++中我们可以通过sizeof运算符方便地知道某个变量类型或对象的大小,那在Java中又如何? 问题出现 Java为什么没有提供sizeof运算符? 要回答这个问题,我们可以从另一个角度来看,那就是为什么C/C++中提供sizeof运算符.这就让人忍不住想到C/C++和Java在内存管理上的区别. 在C中,内存分配和释放的任务交给了程序员,当我们尝试用malloc为某个对象分配一块堆内存时,一个无法逃避的问题是,这个即将被创建的

计算字符串中每个字符出现次数

作者:zccst 思想原理:把字符串分割为数组,粒度为每一个字符.循环该数组,用正则替换原字符串对于字符,并计算替换前后字符串长度差值,即为该字符出现的次数. 另外,还可以对重复次数进行排序. 用到的知识点: 1,正则表达式.基本写法,RegExp,replace的用法. 2,数组中的sort.自定义函数排序.(sort默认按字符编码排序) function charCntInString (argument) { var str = argument,result = [],beforeLen

Linux shell中运行命令后加上字符“&”的作用

上午登录服务器编译运行服务端程序的时候,学到了在命令后加上字符“&”后,退出shell,运行的命令可以继续运行.不解原因,并到网上搜索了以下,明白了点! 以下是搜索到的片段: & 放在启动参数后面表示设置此进程为后台进程 默认情况下,进程是前台进程,这时就把Shell给占据了,我们无法进行其他操作,对于那些没有交互的进程,很多时候,我们希望将其在后台启动,可以在启动参数的时候加一个'&'实现这个目的. 如: tianfang > run &    [1] 11319t

Java中比较不同的MD5计算方式

在项目中经常需要使用计算文件的md5,用作一些用途,md5计算算法,通常在网络上查询时,一般给的算法是读取整个文件的字节流,然后计算文件的md5,这种方式当文件较大,且有很大并发量时,则可能导致内存打爆掉.所以如下代码提供了几种方式.并通过计算一个323M的文件的md5和大小给出了,GC的一些信息 代码 /* * Copyright (C) 2016. All Rights Reserved. */ package me.nabil.mixed; import org.apache.common

dx11 入门 Tutorial 04: DX、HLSL中矩阵的内存存储和数学计算方式 DirectXSampleBrowser(June 2010)

主要是两方面: 1.shader数据和dx的通信,使用constant Buffer 2.矩阵的数学计算方式和内存存储方式再DX和HLSL中的异同 先说第一个: dx中的常量数据matrix等传入shader中流程: The first thing that we need to do is declare three constant buffer variables. Constant buffers are used to store data that the application n

mysql中采用concat来拼接中文字符乱码解决方式(转)

mysql中采用concat来拼接中文字符乱码解决方式 - fuxuejun的专栏 - 博客频道 - CSDN.NET http://blog.csdn.net/fuxuejun/article/details/6284725 mysql concat乱码问题解决 concat(str1,str2) 当concat结果集出现乱码时,大都是由于连接的字段类型不同导致,如concat中的字段参数一个是varchar类型,一个是int类型或doule类型,就会出现乱码. 解决方法:利用mysql的字符

python文本联系--计算字符串中各个字符的数量

1 #!/usr/bin/python3 2 #-*- coding:utf-8 -*- 3 #计算字符串中,各个字符串的含量 4 str='adfadfafdfaafasdfasdcadf' 5 from collections import Counter 6 str1=Counter(str) 7 keys=sorted(str1) #可以返回str中的唯一值,且按照字母排序 8 #keys ['a', 'c', 'd', 'f', 's'] 9 values=str1.values()