2013-12-12 64 views
0

我用perl get()方法来刮一个URL。我得到了HTML代码,但是当我从网站提取泰米尔内容时,它给了我奇怪的文字而不是泰米尔语文本。我使用Firefox Inspector工具来查看它包含泰米尔内容的HTML代码。但是当我从菜单中查看源代码时,它显示编码的字符串我使用下面的代码来获取HTML代码,并将HTML代码存储在foo中。当我用Libreoffice作家打开它时,它会显示泰米尔语的网页。但是当我查看源代码时,它给了我编码。在Firefox督察和HTML代码的等效代码为folloes:在HTML代码中的编码差异

<span class = "biblecontent"> தொடக்கத்தில் கடவுள் விண்ணுலகையும், மண்ணுலகையும் படைத்த பொழுது, <span style="color:#D26900;font-size:16px"></span></span> 

刮相当于HTML代码:

<span class="biblecontent"> &#2980;&#3018;&#2975;&#2965;&#3021;&#2965;&#2980;&#3021;&#2980;&#3007;&#2994;&#3021; &#2965;&#2975;&#2997;&#3009;&#2995;&#3021; &#2997;&#3007;&#2979;&#3021;&#2979;&#3009;&#2994;&#2965;&#3016;&#2991;&#3009;&#2990;&#3021;, &#2990;&#2979;&#3021;&#2979;&#3009;&#2994;&#2965;&#3016;&#2991;&#3009;&#2990;&#3021; &#2986;&#2975;&#3016;&#2980;&#3021;&#2980; &#2986;&#3018;&#2996;&#3009;&#2980;&#3009;, <span style='color:#D26900;font-size:16px'></span></span> 

我如何能获得泰米尔内容或我怎么能转换成HTML内容返回给泰米尔。任何其他获取泰米尔语或其他语言内容的方法HTML代码对我很有帮助。

回答

1

使用HTML :: entites的模块:

#!/usr/bin/perl 

use strict; 
use warnings; 
use HTML::Entities; 
use utf8; 

my $str = '&#3018;&#2975;&#2965;&#3021;&#2965;&#2980;&#3021;&#2980;&#3007;&#2994;&#3021; &#2965;&#2975;&#2997;&#3009;&#2995;'; 

print decode_entities($str); 

输出:

ொடக்கத்தில் கடவுள 
+0

感谢@ user4035我已经找到它的答案@ http://mothereff.in/html-entities解码。它给出了正确的文字。但我仍然需要复制粘贴文本。我有1000行文字。 – xtreak

+0

@xtreak无需使用外部网站。你可以直接用Perl解码。只要把'$ content = decode_entities($ content);'print'$ content;' – user4035

+0

再次感谢我检查了它。将其标记为答案@ user4035 – xtreak