HTTP编码
不仅仅URL需要编码,HTTP header也需要编码,HTTP body 无特殊要求
一般采用百分号编码;比如一个字节的ascii码值是 0x89 那使用百分号编码之后 输出是 %89这个字符串,也就是一个字节编码成3个字节了
本质
HTTP协议要求,在URL中,除了HTTP保留字,其他部分只能是 "非保留字符子集"(包括大写字母、小写字母、数字、-_.~ 等规定的ascii码字符),不能有其他字符,且HTTP保留字不能被编码,否则可能会导致HTTP解析错误,HTTP header的要求和URL类似;
所以构造HTTP报文时,除了HTTP关键字(不能编码,只能使用原值),对其他设置的值,都需要过滤,如果这些值中有保留字,那需要编码;如果这些值中有字符不属于"非保留字符子集",那也需要编码;
经过编码之后,HTTP报文(不包括报文体)中只有ascii码字符(HTTP保留字或者"非保留字符子集")
编程影响
如果参数值包括中文等不符合要HTTP要求的字符,需要先把值编码,再构造报文
原则:HTTP关键字不能被编码,比如abc/test.txt 中间的字符"/" 不能被编码,否则"/"会被当成数据的一部分了,本来这个"/"是代表路径
不能构造完URL,把整个URL进行编码,这样会导致URL中的保留字也会被编码了,会导致解析失败
也不能把整个HTTP报文进行编码,这样也会把HTTP中的保留字编码了,导致解析失败
是ascii字符,但不是http关键字,且属于HTTP规定能传输的那些字符(a,b,c ,1,2等等), 可以编码 也可以不编码,都能正常解析,比如abc这个值,可以直接传输abc 也可以编码后传输%61%62%63
非ascii字符的 必须要编码
是ascii字符,但不是http关键字 也不是HTTP规定能传输的那些字符(比如空格 回车 NULL等等),必须要编码
tomcat解析HTTP报文时,自动解码百分号编码,所以只要数据的字符集是一致(和客户端)的,就能正确解码