php -- PHP5中file_get_contents函数获取带BOM的utf-8文件内容

最近,在用file_get_contents函数来取得文本的内容的时候,出现了一个情况(如下),苦思冥想了n久,不得其解,最后,果然还是得靠百度啊.....

百度到一个解释,下面是原文:

PHP5中的file_get_contents函数获取文件内容,实际是按二进制来读取的,所以,当你用file_get_contents去获取一个带BOM的UTF-8文件时,它并不会把UTF-8的BOM去掉,当你把读取

的内容当作文本内容来进行一些操作时,可能会发生一些意想不到的结果。这并不能算作一个BUG,因为file_get_contents函数读取文件的时候,是按二进制来读取的,读取到的内容是包含

BOM的,而用户操作的时候,想当然的以为读取到的内容是不包含BOM的文本内容(如用记事本打开后看到的内容),因为BOM在编辑软件中是不可见的,只有在十六进制模式下才可以看

见,问题也就出在这,实际上是由于“操作不统一”造成的。

当对UTF-8编码的文件进行操作时,如果要把读取的内容当作文本内容来处理,最好先对BOM进行一些处理,这个问题在PHP6中得到了解决(可以设置文本/二进制读取模式),有兴趣的朋友

可以自己查找PHP6的手册。

一个较简单的解决方法:

1 <?php
2 $dataStr = file_get_contents(‘test.txt‘);
3 if (strpos($dataStr, "\xEF\xBB\xBF") === 0) {
4     $dataStr = substr($dataStr, 3);
5 }
6 // 对$dataStr进行操作
7 ?>

或者用正则来处理:

1 <?php
2 $dataStr = file_get_contents(‘test.txt‘);
3 if (preg_match(‘/^\xEF\xBB\xBF/‘, $dataStr)) {
4     $dataStr = substr($dataStr, 3);
5 }
6 // 对$dataStr进行操作
7 ?>

什么是BOM?

BOM是Byte Order Mark的缩写,即字节顺序标记,它是插入到UTF-8,UTF-16或UTF-32编码的Unicode文件开头的特殊标记,用来标识Unicode文件的编码类型。

几种编码对应的BOM:

EF BB BF        UTF-8
FE FF             UTF-16 (big-endian)
FF FE             UTF-16 (little-endian)
00 00 FE FF UTF-32 (big-endian)
FF FE 00 00 UTF-32 (little-endian)

对于UTF-8编码的文件而言,BOM标记是可有可无的,Windows自带的记事本文件在保存为UTF-8编码时,会自动加上BOM,现在一些编辑软件,可以在保存为UTF-8编码时可以选择是否带

BOM保存。

对于PHP文件,在使用UTF-8编码时,最好都不要BOM保存。因为当你使用include/require/include_once/require_once这些函数去包含一个带BOM的文件时,你得到的网页,在某些兼容性

不是很好的浏览器下,你会发现你的网页的实际显示效果跟预期的有细微的差别。

时间: 2024-12-21 01:17:19

php -- PHP5中file_get_contents函数获取带BOM的utf-8文件内容的相关文章

生成不带BOM头的UTF-8文件

UTF-8(带BOM):writer = New StreamWriter(FilePathName, True, System.Text.UTF8Encoding.UTF8) UTF-8(不带BOM):writer =New StreamWriter(FilePathName, True, New UTF8Encoding(False)) 生成不带BOM头的UTF-8文件,布布扣,bubuko.com

html css &lt;input&gt; javaScript .数据类型 JS中的函数编写方式 BOM总结 DOM总结

Day27  html css div 块标签. 特点: 独占一行,有高度和宽度 span 行元素. 特点:在同一行显示,当前行满了自动去下一行显示. 不识别高度和宽度 1.1.1.1 2.输入域标签 :<input> l <input> 标签用于获得用户输入信息,type属性值不同,搜集方式不同.最常用的标签. n type属性 u text:文本框,单行的输入字段,用户可在其中输入文本.默认宽度为 20 个字符 u password:密码框,密码字段.该字段中的字符以黑圆显示.

获取本地json或者yaml等文件内容,展示在编辑框

iview框架可以使用upload组件可以传文件,但是无法读取文件内容 目前后台不需要传文件,只需传文件内容以字符串形式,可以使用HTML5中的FileReader对象 <input type="file" class="file" @change="tirggerFile($event)"> <Button @click="readFile">上传</Button> 上传之后 tirgge

js中new函数后带括号和不带括号的区别

用new创建构造函数的实例时,通常情况下new 的构造函数后面需要带括号(譬如:new Parent()). 有些情况下new的构造函数后带括号和不带括号的情况一致,譬如: function Parent(){this.num = 1;}console.log(new Parent());//输出Parent对象:{num:1}console.log(new Parent);//输出Parent对象:{num:1} 1 1 function Parent(){ 2 2 this.num = 1;

PHP中date函数月和日带0问题

一.带零 echo date('Y-m-d'); 2012-08-08 二.不带零 echo date('Y-n-j'); 2012-8-8 以下为参数详解(转载): a - "am" 或是 "pm" A - "AM" 或是 "PM" d - 几日,二位数字,若不足二位则前面补零; 如: "01" 至 "31" D - 星期几,三个英文字母; 如: "Fri" F -

《APUE》中的函数整理

第1章 unix基础知识 1. char *strerror(int errnum) 该函数将errnum(就是errno值)映射为一个出错信息字符串,返回该字符串指针.声明在string.h文件中. 2.void perror(const char *s) 该函数基于当前的errno值,在标准出错文件中输出一条出错消息,然后返回.声明在stdio.h文件中.它首先输出由s指向的字符串,然后是一个冒号,一个空格,接着是errno值对应的出错信息,最后是一个换行符. 第2章 UNIX标准化及实现

Signal处理中的函数可重入问题

1. Signal信号简介 信号是软件层次上模拟的中断,它是一种异步通信的处理机制.信号的异步性意味着,应用程序不用等待事件的发生,当信号发生时应用程序自动陷入到对应的信号处理函数中.产生信号的事件对进程而言是随机出现的.信号的响应方式有忽略.捕捉.执行默认动作三种. 2. 线程安全 线程安全函数:在C语言中局部变量是在栈中分配的,任何未使用静态数据或其他共享资源的函数都是线程安全的.使用全局变量的函数是非线程安全的.使用静态数据或其他共享资源的函数,必须通过加锁的方式来使函数实现线程安全. 线

JS中的函数、Bom、DOM及JS事件

本期博主给大家带来JS的函数.Bom.DOM操作,以及JS各种常用的数据类型的相关知识,同时,这也是JavaScript极其重要的部分,博主将详细介绍各种属性的用法和方法. 一.JS中的函数 [函数的声明及调用] 1.函数声明的格式: function 函数名(参数1,参数2,参数3,--){//函数体 return 结果; } >>>函数的调用格式: 直接调用:函数调用的格式:函数名(参数一的值,参数二的值,--): 事件调用:事件名=函数名( ); 2.函数声明的几点强调: ①函数名

一篇文章带你了解JavaScript中的函数表达式,递归,闭包,变量,this对象,模块作用域

作者 | Jeskson 来源 | 达达前端小酒馆 定义函数的方式: 第一种为 函数声明: 第二种为 函数表达式. 语法: function functionName(arg0, arg1, arg2) { // 函数体 } 在Firefox,Safari,Chrome和Opera有效: 就是通过这个属性可以访问到这个函数指定的名字. console.log(functionName.name); // 'functionName' 函数声明: 它的一个重要特点就是:函数声明提升,就是在执行代码