2015-01-14 76 views
2

我需要使用perl对散列键进行排序,我还需要允许key中的重复。所以我打算检查exists方法perl
如果它存在然后我增加最后一位数然后我将存储到哈希。 我尝试下面的代码:使用perl进行散列键排序?

use strict; 
use warnings; 
use iPerl::Basic qw(_save_file _open_file); 
my $xml = $ARGV[0]; 
my ($xmlcnt,$backcnt,$refcnt,$name,$year) = ""; 
my %sort =(); 
if(($#ARGV != 0) or(not -f "$xml") or($xml!~ m{\.xml$}i)){ 
    print_exit("\t\tSYSTAX ERROR: <EXE> <xml File>\n\n") 
}; 
$xmlcnt=_open_file($xml); 
$xmlcnt =~ s{<back(?: [^>]+)?>(?:(?!</?back[ >]).)*</back>}{ 
    $backcnt = $&; 

    while($backcnt =~ m{<ref(?: [^>]+)?>(?:(?!<ref[ >]).)*</ref>}igs){ 
     $refcnt = $&; 
     $name = $1 if($refcnt =~ m{<person-group(?: [^>]+)?>((?:(?!</?person-group[ >]).)*)</person-group>}is); 
     $year = $1 if($refcnt =~ m{<year>((?:(?!</?year[ >]).)*)</year>}is); 
     $name =~ s{</?(?:string-name|surname|given-names)>}{}ig; 
     my $count = 1; 
     my $keys="$name $year\E$count"; 

     if(exists ($sort{$keys})){ 

      $keys =~ s{(\d)$}{my $icr=$1;$icr++;qq($icr)}e; 

      #print"$keys\n"; 
      $sort{$keys}="$refcnt"; 

     } 
     else 
     { 
      $sort{$keys}="$refcnt"; 
     } 


print join("\n",keys %sort); 
    } 
qq($backcnt) 
}igse; 

    my @keys = sort { 
$sort{$a} <=> $sort{$b} 
# or 
# "\L$a" cmp "\L$b" 
} keys %sort; 
# print join("\n",@keys); 
sub print_exit { 
    my $msg = shift; 
    #print "\n$msg"; 
    exit; 
} 

请谁能告诉我出了什么错在这里?
输入:

thieooieroh 
apple 
apple 
highefhfe 
bufghifeh 

输出:

apple 
apple 
bufghifeh 
highefhfe 
thieooieroh 

预先感谢。

+3

哎唷!我的眼睛!替换命令替换部分中的25行块可执行代码残酷地可怕!我甚至不想看它;真是太可怕了。如果您必须执行代码,请将其放入函数中,并使用substitute命令调用该函数。 –

+0

这里他们使用替代,希望在散列键中存储文本。问题是如果文本已经存在于文本末尾,则为重复值添加整数,然后最后对键进行排序。 – depsai

+1

请勿使用正则表达式来分析xml。永远。看看'死亡'。这是你的'print_exit'的正确替代。出于性能原因,你应该避免'$&'(你可以,如果你引入一个匹配组并使用'$ 1')。简单的散列可能是错误的数据结构。你可以使用数组的散列。 –

回答

2

从您的代码的简要介绍看来,您希望将refcounts存储为散列中的值,并且能够对单个键进行多次计数。这很容易通过使用数组的散列(通常缩写为HoA)来实现。按照定义,每个键必须是唯一的,但相关联的值可以是引用,允许您在该键下存储多个项目,或者构建更复杂的数据结构。

#!/usr/bin/env perl  

use strict; 
use warnings; 
use 5.010; 

my %hash; 

while (my $line = <DATA>) { 
    chomp $line; 
    my ($key, $count) = split ',', $line; 
    push @{$hash{$key}}, $count; 
} 

for my $key (sort keys %hash) { 
    my $values = $hash{$key}; 
    for (@$values) { 
    say "$key ($_)"; 
    } 
} 

__DATA__ 
thieooieroh,1 
apple,2 
apple,3 
highefhfe,4 
bufghifeh,5 

输出:

apple (2) 
apple (3) 
bufghifeh (5) 
highefhfe (4) 
thieooieroh (1) 

如果你没有真正关心存储与每个键多个数据项,但只有随着时代出现的每个按键的数量,这是更简单。改变两个环路在上面的代码:

while (my $line = <DATA>) { 
    chomp $line; 
    $hash{$line}++; 
} 

for my $key (sort keys %hash) { 
    say $key for 1 .. $hash{$key}; 
} 

,你得到的输出

apple 
apple 
bufghifeh 
highefhfe 
thieooieroh 

至于你贴的代码休息,不要试图用正则表达式解析XML。任意XML 不能被表达式解析超出非常粗略的第一近似值常规表达式,因为XML在结构上不是“常规”的。 CPAN上有很多很好的XML解析模块,它们会为你正确解析你的XML,同时也比你试图编写你自己的解析器需要更少的努力。使用其中之一。不是正则表达式。

相关问题