现在的位置: 首页 > 综合 > 正文

PHP 生成 csv 文件时乱码解决

2013年06月06日 ⁄ 综合 ⁄ 共 1650字 ⁄ 字号 评论关闭

今天处理PHP导出数据时遇到了乱码问题,下载的程序文件为utf-8编码,下载下来的csv文件用编辑器打开也是utf-8编码,但直接用excel打开时确显示乱码。后来从网上找到一篇文章得以解决,在此保存。
原文章地址为:http://www.haoguoliang.com/blog/2009/07/linux-php-csv.html
解决php导出csv文件打开乱码郝国梁 (2009年7月28日 11:57) | 暂无评论 | 暂无引用通告
什么是CSV文件?Comma Separator Value(逗号分隔值)是也。常常用来数据转换的中间文件存在,比如:从Mysql中导出数据到CSV,导入CSV到SqlServer中。最近在用Epsilon的邮件服务做邮件营销,Epsilon的web前端接受csv格式的邮件列表,于是乎在Linux下用PHP脚本从Mysql数据库中将user表的数据按照条件导出成csv,以便导入到Epsilon的web前端发邮件,问题出现了,使用utf-8编码导出CSV文件,打开后里边的中文成了乱码(Windows下CSV文件默认与Microsoft Excel关联),用Notepad++或者Word打开正常,不过排版很乱,看着累呀。
百度一下,找到原因:BOM惹的祸,微软惹的祸。
什么是BOM?Byte Order Mark(比特序标记)是也。
为了识别 Unicode 文件,Microsoft 建议所有的 Unicode 文件应该以 ZERO WIDTH NOBREAK SPACE字符开头。这作为一个"特征符"或"字节顺序标记(byte-order mark,BOM)"来识别文件中使用的编码和字节顺序(big-endian或little-endian),具体的对应关系见下表。
BytesEncoding Form00 00 FE FFUTF-32, big-endianFF FE 00 00UTF-32, little-endianFE FFUTF-16, big-endianFF FEUTF-16, little-endianEF BB BFUTF-8
类Unix系统中并没有使用 BOM,因为它会破坏现有的 ASCII 文件的语法约定。
我的php源码文件是用NotePad++生成的,在Centos下执行,格式为:以UTF-8无BOM格式编码,因此要想导出Microsoft Excel可以正常显示的UTF-8的CSV文件,需要显式的输出BOM(EF BB BF,上表的最后一种类型),然后再输出Mysql中的有效数据。编写如下函数:
<?php
/**
* @param $file_name string 要导出的文件名,比如:mail-list.csv
* @param $content string 要输出csv格式的数据,用逗号分隔各字段
* @return null
*/
function output_csv($file_name,$content)
{
$content = "\xEF\xBB\xBF".$content; //添加BOM
if( empty( $file_name ) )
{
$file_name = date("Ymd")."csv";
}
header( "Cache-Control: public" );
header( "Pragma: public" );
header( "Content-type: text/csv" ) ;
header( "Content-Dis; filename={$file_name}" ) ;
header( "Content-Length: ". strlen( $content ) );
echo $content;
exit;
}
?>
问题解决。
PS1:output_csv函数使用前,确保php源码是utf-8,并且无BOM,并且没有输出任何内容。
PS2:BOM实际上挺烦人,如果你的网页(*.html)有BOM,在IE6.x下面打开会发现一神奇的空行,Firefox下却没有,遇到过没?
PS3:参考文章UTF-8,UTF-16,UTF-32,BOM
相关php图书:

【上篇】
【下篇】

抱歉!评论已关闭.