2012-07-06 174 views
2

我试图用正常字符替换PHP字符串中的特殊字符(如替换ó用o和á用a)。我尝试使用PHP正规化::正常化的功能,如下面的代码:替换PHP字符串中的特殊字符的问题

if (!Normalizer::isNormalized($word, Normalizer::FORM_C)) 
{ 
    echo "original: ".$word; 
    $word = Normalizer::normalize($word, Normalizer::FORM_C); 

    echo "\tnormalized: ".$word."<br />"; 
    exit; // see if it worked without having to go through every file 
} 

然而,正规化::正常化返回null,并从该代码的输出是:

original: adiós normalized:

由于这方法似乎没有工作,我去了,并找到了一个应该删除特殊字符的函数。下面是函数:

function normalize ($string) { 
    $table = array(
     'Š'=>'S', 'š'=>'s', 'Đ'=>'Dj', 'đ'=>'dj', 'Ž'=>'Z', 'ž'=>'z', 'Č'=>'C', 'č'=>'c', 'Ć'=>'C', 'ć'=>'c', 
     'À'=>'A', 'Á'=>'A', 'Â'=>'A', 'Ã'=>'A', 'Ä'=>'A', 'Å'=>'A', 'Æ'=>'A', 'Ç'=>'C', 'È'=>'E', 'É'=>'E', 
     'Ê'=>'E', 'Ë'=>'E', 'Ì'=>'I', 'Í'=>'I', 'Î'=>'I', 'Ï'=>'I', 'Ñ'=>'N', 'Ò'=>'O', 'Ó'=>'O', 'Ô'=>'O', 
     'Õ'=>'O', 'Ö'=>'O', 'Ø'=>'O', 'Ù'=>'U', 'Ú'=>'U', 'Û'=>'U', 'Ü'=>'U', 'Ý'=>'Y', 'Þ'=>'B', 'ß'=>'Ss', 
     'à'=>'a', 'á'=>'a', 'â'=>'a', 'ã'=>'a', 'ä'=>'a', 'å'=>'a', 'æ'=>'a', 'ç'=>'c', 'è'=>'e', 'é'=>'e', 
     'ê'=>'e', 'ë'=>'e', 'ì'=>'i', 'í'=>'i', 'î'=>'i', 'ï'=>'i', 'ð'=>'o', 'ñ'=>'n', 'ò'=>'o', 'ó'=>'o', 
     'ô'=>'o', 'õ'=>'o', 'ö'=>'o', 'ø'=>'o', 'ù'=>'u', 'ú'=>'u', 'û'=>'u', 'ý'=>'y', 'ý'=>'y', 'þ'=>'b', 
     'ÿ'=>'y', 'Ŕ'=>'R', 'ŕ'=>'r', 
    ); 

    return strtr($string, $table); 
} 

此代码没有明显的效果,但是,并返回中传递相同的字符串

我获得在Windows 7从* .txt文件我的琴弦。我从来没有很好的编码,并希望在这个问题上的任何帮助。

+0

normalize?你从一个字母转换到另一个字母(也可能与K交换F),这可能会使合法的单词变成垃圾。 – 2012-07-06 00:11:34

+0

我猜正常化不是正确的词,但那是我想要的结果 - 交换字符。 – jeff 2012-07-06 00:15:20

+0

为什么? **adiós**是正确的拼写* adios *不是 – 2012-07-06 00:25:26

回答

3

我复制并粘贴了你的代码到我的编辑器中,发生了一些有趣的事情。而不是得到adios我得到adjiós。注意d后的中间的j。这是来自表格地图第一行的'đ'=>'dj',。显然,我的编辑将đ更改为普通d,然后它不会转换ó。我删除了这个键/值对,突然它为我工作。你确定所有的按键都在编辑器中正确的是(难道你编辑接受替代字符集?)这是我的测试文件(与đ删除:

<html> 
<head> 
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=ISO-8859-1"> 
</head> 
<body> 
<?php 

function normalize ($string) { 
    $table = array(
     'Š'=>'S', 'š'=>'s', 'Ð'=>'Dj', 'Ž'=>'Z', 'ž'=>'z', 'C'=>'C', 'c'=>'c', 'C'=>'C', 'c'=>'c', 
     'À'=>'A', 'Á'=>'A', 'Â'=>'A', 'Ã'=>'A', 'Ä'=>'A', 'Å'=>'A', 'Æ'=>'A', 'Ç'=>'C', 'È'=>'E', 'É'=>'E', 
     'Ê'=>'E', 'Ë'=>'E', 'Ì'=>'I', 'Í'=>'I', 'Î'=>'I', 'Ï'=>'I', 'Ñ'=>'N', 'Ò'=>'O', 'Ó'=>'O', 'Ô'=>'O', 
     'Õ'=>'O', 'Ö'=>'O', 'Ø'=>'O', 'Ù'=>'U', 'Ú'=>'U', 'Û'=>'U', 'Ü'=>'U', 'Ý'=>'Y', 'Þ'=>'B', 'ß'=>'Ss', 
     'à'=>'a', 'á'=>'a', 'â'=>'a', 'ã'=>'a', 'ä'=>'a', 'å'=>'a', 'æ'=>'a', 'ç'=>'c', 'è'=>'e', 'é'=>'e', 
     'ê'=>'e', 'ë'=>'e', 'ì'=>'i', 'í'=>'i', 'î'=>'i', 'ï'=>'i', 'ð'=>'o', 'ñ'=>'n', 'ò'=>'o', 'ó'=>'o', 
     'ô'=>'o', 'õ'=>'o', 'ö'=>'o', 'ø'=>'o', 'ù'=>'u', 'ú'=>'u', 'û'=>'u', 'ý'=>'y', 'ý'=>'y', 'þ'=>'b', 
     'ÿ'=>'y', 'R'=>'R', 'r'=>'r', 
    ); 

    return strtr($string, $table); 
} 

$word = 'adiós'; 
$length = strlen($word); 

echo 'original: '. $word; 
echo '<br />'; 
echo 'normalized: '. normalize($word); 
echo '<br />'; 
echo 'loop: '; 

for($i = 0; $i < $length; $i++) { 
    echo normalize($word[$i]); 
} 

?> 

</body> 
</html> 

当我遍历每个字符与'd' => 'dj'在阵图,然后我得到正确adjios

+0

显然Sublime Text 2不支持替代字符集。在Notepad ++中粘贴相同的代码,并且完美运行。谢谢! – jeff 2012-07-06 01:14:43

4

有来自该网页的伟大提示:How to remove diacritics from text?这里是我的版本是:

/** Normalize a string so that it can be compared with others without being too fussy. 
* e.g. "Ádrèñålînë" would return "adrenaline" 
* Note: Some letters are converted into more than one letter, 
* e.g. "ß" becomes "sz", or "æ" becomes "ae" 
*/ 
function normalize_string($string) { 
    // remove whitespace, leaving only a single space between words. 
    $string = preg_replace('/\s+/', ' ', $string); 
    // flick diacritics off of their letters 
    $string = preg_replace('~&([a-z]{1,2})(?:acute|cedil|circ|grave|lig|orn|ring|slash|th|tilde|uml|caron);~i', '$1', htmlentities($string, ENT_COMPAT, 'UTF-8')); 
    // lower case 
    $string = strtolower($string); 
    return $string; 
} 

这是很好的,因为不像的iconv方法换货在上面说过,字符集之间没有转换(他们是雷区)。