Q
à ©和其他代码
7
A
回答
16
看起来你最初有一个被解释为8位编码(例如ISO-8859-15)和实体编码的UTF-8文件。我这样说是因为序列C3A9看起来像一个相当可信的UTF-8 encoding sequence。
您需要先对其进行实体解码,然后再次使用UTF-8编码。然后你可以使用类似iconv的东西来转换为你选择的编码。
要通过你的工作,例如:
- Ã ©将被解码为字节序列0xC3A9
- 0xC3A9 = 11000011 10101001二进制
- 在第一个八位字节中的前导110告诉我们这可能被解释为一个UTF-8两字节序列。由于第二个八位字节以10开头,我们正在寻找一些我们可以解释为UTF-8的东西。要做到这一点,我们采取的第一个字节的最后5位,第二个字节的最后6位...
- 因此,解释为UTF8这是00011101001 = E9 = E(LATIN SMALL LETTER E WITH ACUTE)
你提到想用PHP来处理这个问题,像这样的东西可能会为你做:
//to load from a file, use
//$file=file_get_contents("/path/to/filename.txt");
//example below uses a literal string to demonstrate technique...
$file="&Précédent is a French word";
$utf8=html_entity_decode($file);
$iso8859=utf8_decode($utf8);
//$utf8 contains "Précédent is a French word" in UTF-8
//$iso8859 contains "Précédent is a French word" in ISO-8859
相关问题
- 1. PHP短代码功能添加其他短代码其他总和
- 2. 如何解码乱码字符编码:èas \ xc3 \ x83 \ xc2 \ x85 \ xc3 \ x82 \ xc2 \ xa0
- 3. sun.awt.AppContext和其他的源代码?
- 4. HTML和其他代码集成
- 5. ReliabilityContract和IComparer(或其他注入代码)
- 6. PHP代码analayzer和其他工具
- 7. jQuery代码打破其他代码
- 8. Python代码跳到其他
- 9. C#使用其他代码
- 10. 优化熊猫代码:取代'iterrows'和其他想法
- 11. 如何将其他代码转换为json(或其他)格式?
- 12. 使用GZIP,我可以编写'Sloppy'CSS(和其他类型的代码)代码吗?
- 13. 在Netbeans IDE或其他代码完成
- 14. jQuery captify冲突其他jQuery代码
- 15. 代码防盗 - Chaperon或其他类似
- 16. WaitDialogForm.ShowDialog()不处理其他代码
- 17. HTTP状态代码406,没有其他
- 18. Twilio - 如果机器的其他代码
- 19. '其他'(T_ELSE)在你的代码行21
- 20. 代码重复运行其他语句
- 21. 延迟不运行其他代码行
- 22. 如何逃避其他代码 - PHP
- 23. 代码审查 - 如果其他功能
- 24. Ajax呼叫阻止其他javascript代码
- 25. Node.js:从其他文件调用代码
- 26. python代码不返回其他语句?
- 27. 只确认其他部分代码
- 28. 访问DetectIdleTime AutoExec打破其他代码
- 29. Eclipse插件或其他代码脚注
- 30. 如何开始阅读其他代码?
你究竟是什么意思?你在十六进制编辑器中打开文件时看到了什么? – 2010-11-14 14:02:07
对不起,我的不好解释。我的意思是,使用PHP的utf8_decode()函数可以显示实际值,但我需要将其更改为整个文件。怎么做? – Matts 2010-11-14 14:03:10