我有以下代码来访问HTML表格。网络爬虫文本格式
my $table = $tree->look_down(_tag => "table", id => "moduleDetail");
但是由于网页使用表格边界来划分某些文本段,因此文本未下达格式。所以它就像这样下来,“计算乔丹斯敦的数学”和jordanstown是我在下一个单元格中假设的。这里是我使用的代码,
my @array;
my $tree = HTML::TreeBuilder->new_from_content($mech->content);
my $table = $tree->look_down(_tag => "table", id => "moduleDetail");
for ($table ->look_down(_tag => 'tr')) {
push(@array,$_->as_text());
}
foreach(@array){
print $_, " ";
}
$tree->delete();
请注意我试图分开文本使用和数组,但没有运气?任何指针。由于
你能告诉我们一些输入文字吗? – 2012-04-06 21:22:13