linux下php中文UTF-8转换Unicode方法和注意事项

先说下遇到问题:1.php没有内置unicode_ecode函数可以直接使用

2.网上很多资料都是用$str = iconv($encoding'UCS-2'$str);

window下转换出来的是正常的,但在Linux下转换出来的两个字符是相反的,用在线unicode转换工具出来的结果是乱码。

UCS-2的编码规则: 
windows下默认是UCS-2LE。
linux下默认是UCS-2BE。用iconv(指定UCS-2)来转换生成的是UCS-2BE的unicode,但可能php环境配置会导致不是UCS-2BE。
windows和linux等多个平台对 UCS-2 的理解不同(UCS-2LE,UCS-2BE),所以为了统一需要直接指定为UCS-2BE。

即把:$str = iconv($encoding'UCS-2'$str); 改为$str = iconv($encoding, 'UCS-2BE', $str);

亲测转换出来的unicode可以正常转换的

下面是本人亲测可以使用的函数

function unicode_decode($name)

{

// 转换编码,将Unicode编码转换成可以浏览的utf-8编码

//$pattern = ‘/([\w]+)|(\\\u([\w]{4}))/i’;

$pattern = ‘/(\\\u([\w]{4}))|([\w]+)|(“)|(:)|(,)|(\\\n)|(-)|({)|(})|( )/i’;  //这个位置比上面的多了几个,是因为不这样,那些字符就被替换掉了

preg_match_all($pattern, $name, $matches);

if (!empty($matches))

{

$name = ”;

for ($j = 0; $j < count($matches[0]); $j++)

{

$str = $matches[0][$j];

if (strpos($str, ‘\\u’) === 0)

{

$code = base_convert(substr($str, 2, 2), 16, 10);

$code2 = base_convert(substr($str, 4), 16, 10);

$c = chr($code).chr($code2);

$c = iconv(‘UCS-2BE’, ‘UTF-8’, $c);

$name .= $c;

}

else

{

$name .= $str;

}

}

}

return $name;

}

下方是调用的

$datareule = unicode_decode($data);

//下方替换,是因为转换的时候,被过滤掉了,需要替换回来

$datareule = str_replace(“br”, “<br \/>”, “$datareule”);

$datareule = str_replace(“nbsp”, “&nbsp;”, “$datareule”);

$datareule = str_replace(“middotmiddotmiddot”, “…”, “$datareule”);

$datareule = str_replace(“\\n”, “”, “$datareule”);

发布者:梧桐细雨,转转请注明出处:https://www.binbinbiji.com/php/2141.html

发表评论

邮箱地址不会被公开。 必填项已用*标注

蜀ICP备14017386号-13