特殊字符,空格无法替换

   
三次坑爹的小bug。读取一段文字(编码utf-8),想替换掉空格,str_replace(”
“..)、preg_replace(“/s/”..)都不起成效。

十六进制值 1. + UCRUISERL 中+号表示空格 %2B

<?php

// 替换<p>后4个空格
$str = file_get_contents("http://m.ts.cn/new/99cms_ts/api.php?s=/News/getNewsInfoTmp/Nid/51089");
$str = str_replace(" ", "-", $str);
$str = preg_replace("/s/", "-", $str);
echo $str;  // 不起作用
  1. 空格 UOdysseyL中的空格能够用+号大概编码 %20
  2. / 分隔目录和子目录 %2F
  3. ? 分隔实际的 U奥迪Q7L 和参数 %3F
  4. % 钦命极其字符 %25
  5. # 表示书签 %23
  6. & U锐界L 中钦赐的参数间的相间符 %26
  7. = UENCOREL 中钦赐参数的值 %3D

  无法,将替换不了的空格ord()下才来看,那个utf-8空格相比卓绝。ASCII
194 + 160出去的。

缓慢解决的措施:
replace() 方法如果直白用str.replace(“-“,”!”) 只会交替第叁个门道非常的字符.
而str.replace(/-/g,”!”)则能够轮换掉全部合营的字符(g为大局标识)。
replace()
js中替换字符变量如下:

<?php

// 替换<p>后4个空格
$str = file_get_contents("http://m.ts.cn/new/99cms_ts/api.php?s=/News/getNewsInfoTmp/Nid/51089");
$str = str_replace(chr(194) . chr(160), "-", $str);  // 解决方法
echo $str;  // OK

 data2=data2.replace(/%/g,”%25″);
 data2=data2.replace(/#/g,”%23″);
 data2=data2.replace(/&/g,”%26″);

  实验下那么些空格。

此外部分材质。。。仅供参照他事他说加以考察。。。

<?php

// utf-8无bom文件下,四个空格
$s1 = chr(194) . chr(160);
$s2 = chr(32);
$s3 = " ";
$s4 = " ";  // 全角空格
$s = $s1 . $s2 . $s3 . $s4;

// 判断
$r  = '';
if ($s1 == $s2) $r .= 1;
if ($s1 == $s3) $r .= 2;
if ($s1 == $s4) $r .= 3;
if ($s2 == $s3) $r .= 4;
if ($s2 == $s4) $r .= 5;
if ($s3 == $s4) $r .= 6;

// 结果
echo $s, "#####", $r, "####", str_replace(" ", "-", $s), "####", preg_replace("/s/", "-", $s);

在行使url进行参数字传送递时,平日会传递一些国语名(或含有特殊字符)的参数或UKugaL地址,在后台管理时会发生调换错误。在稍微传递页面使用GB2312,而在收取页面使用UTF8,那样接收到的参数就可能会与原本产生不一样。使用服务器端的urlEncode函数编码的UPRADOL,与运用客户端java的encodeU劲客I函数编码的U福特ExplorerL,结果就分裂等。

  结果:为方便书写,|代表空格,|意味着全角空格。

java对文字进行编码涉及3个函数:escape,encodeUGL450I,encodeUEvoqueIComponent,相应3个解码函数:unescape,decodeUPAJEROI,decodeUENCOREIComponent

  ||||####4####|–|####|–|

java中的编码方法:
escape() 方法:采取ISO
Latin字符集对点名的字符串实行编码。全体的空格符、标点符号、特殊字符乃至别的非ASCII字符都将被转化成%xx格式的字符编码(xx等于该字符在字符集表里面的编码的16进制数字)。举例,空格符对应的编码是%20。unescape方法与此相反。不会被此方法编码的字符:
@ * / +

  改下浏览器编码为gbk,结果:聽
銆€#####4####聽–銆€####聽–銆€

encodeUEnclaveI()方法:把U陆风X8I字符串选取UTF-8编码格式转化成escape格式的字符串。不会被此方法编码的字符:!
@ # $& * ( ) = : / ; ? + ‘

 

encodeUPAJEROIComponent
()方法:把U大切诺基I字符串采取UTF-8编码格式转化成escape格式的字符串。与encodeUENCOREI()比较,那几个点子将对更加多的字符举行编码,比方/
等字符。所以假设字符串里面包括了UPRADOI的多少个部分的话,不可能用这一个艺术来进展编码,不然/ 字符被编码之后UENCOREL将显得错误。不会被此措施编码的字符:! * ( )

  难点的源于,在于UTF-8这种编码里面,存在一个非常的字符,其编码是“0xC2
0xA0”(194
160),转变到字符的时候,表现为三个空格,跟常常的半角空格(ASCII
0x20)同样,独一的两样是它的升幅不会被削减,因而非常多的被用来网页排版(如首行缩进之类)。而其余的编码情势如GB2312、Unicode之类并从未如此的字符。

故此,对于华语字符串来讲,假设不期待把字符串编码格式转化成UTF-8格式的(举例原页面和指标页面包车型客车charset是同一的时候),只须要采用escape。要是您的页面是GB2312可能别的的编码,而接受参数的页面是UTF-8编码的,就要选取encodeU翼虎I或然encodeU卡宴IComponent。

发表评论

电子邮件地址不会被公开。 必填项已用*标注