2010-09-21 59 views
5

我有一长串需要生成报告的域名。该列表包含了一些IDN域名,虽然我知道如何将它们转换在python在命令行:在python中将域名转换为idn

>>> domain = u"pfarmerü.com" 
>>> domain 
u'pfarmer\xfc.com' 
>>> domain.encode("idna") 
'xn--pfarmer-t2a.com' 
>>> 

我挣扎得到它从文本文件中的小脚本读取数据的工作。

#!/usr/bin/python 

import sys 

infile = open(sys.argv[1]) 

for line in infile: 
    print line, 
    domain = unicode(line.strip()) 
    print type(domain) 
    print "IDN:", domain.encode("idna") 
    print 

我得到以下输出:

$ ./idn.py ./test 
pfarmer.com 
<type 'unicode'> 
IDN: pfarmer.com 

pfarmerü.com 
Traceback (most recent call last): 
    File "./idn.py", line 9, in <module> 
    domain = unicode(line.strip()) 
UnicodeDecodeError: 'ascii' codec can't decode byte 0xfc in position 7: ordinal not in range(128) 

我也有尝试:

#!/usr/bin/python 

import sys 
import codecs 

infile = codecs.open(sys.argv[1], "r", "utf8") 

for line in infile: 
    print line, 
    domain = line.strip() 
    print type(domain) 
    print "IDN:", domain.encode("idna") 
    print 

这给了我:

$ ./idn.py ./test  
Traceback (most recent call last): 
    File "./idn.py", line 8, in <module> 
    for line in infile: 
    File "/usr/lib/python2.6/codecs.py", line 679, in next 
    return self.reader.next() 
    File "/usr/lib/python2.6/codecs.py", line 610, in next 
    line = self.readline() 
    File "/usr/lib/python2.6/codecs.py", line 525, in readline 
    data = self.read(readsize, firstline=True) 
    File "/usr/lib/python2.6/codecs.py", line 472, in read 
    newchars, decodedbytes = self.decode(data, self.errors) 
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-5: unsupported Unicode code range 

这里是我的测试数据文件:

pfarmer.com 
pfarmerü.com 

我很清楚我现在需要了解unicode。

感谢,

彼得

回答

13

你需要知道在你的编码文件保存。这将是'utf-8'(不是Unicode)或'iso-8859-1'或'cp1252'或类似的东西。

然后你可以做(​​假设 'utf-8'):


infile = open(sys.argv[1]) 

for line in infile: 
    print line, 
    domain = line.strip().decode('utf-8') 
    print type(domain) 
    print "IDN:", domain.encode("idna") 
    print 

转换编码字符串与decode为Unicode。将unicode转换为与encode的字符串。如果你尝试对已经编码的东西进行编码,python首先尝试解码,使用默认编解码器“ascii”,该编解码器对非ASCII值失败。

2

你的第一个例子是好的,但是:

domain = unicode(line.strip()) 

,你必须在这里指定一个特定的编码:unicode(line.strip(), 'utf-8')。否则,你会得到默认编码,这对于安全性来说是7位ASCII,因此是错误。或者,你可以像knitti的例子那样拼写它line.strip().decode('utf-8');这两种语法之间的行为没有区别。

但是,通过错误判断“无法解码字节0xfc”,我认为你实际上并没有将你的test文件保存为UTF-8。大概这就是为什么第二个例子,原则上看起来不错的原因,失败了。

取而代之的是ISO-8859-1或非常类似的Windows代码页1252.如果它来自Western Windows盒子上的文本编辑器,它肯定会是后者;现在Linux机器默认使用UTF-8。请确保将文件保存为UTF-8,或者使用编码'cp1252'来读取文件。