2016-02-08 30 views
0

只是寻求一点从Perl到PHP的转换帮助。我利用哈希来映射值作为从两个文件读入的两个数组的键。我使用的文件不是很大,一个大概有150,000行,另一个大约是50,000个。在Perl中,这个过程大概需要10秒钟,但是在PHP中,我将读入文件从150,000行减少到大约20000行,并且需要将近3分钟。我想知道这是否是语言的限制,或者我的设计本身是否有缺陷。阵列的提高阵列的速度交叉映射阵列

两个现有的阵列是$ ao_hash和$ string_hash,内置如下:

// Load file contents 
$file_contents = str_replace("\t","|",file_get_contents($_FILES['file']['tmp_name'])); 
$file_array = explode("\n",$file_contents); 

// Pass client dictionary into an array of arrays 
foreach ($file_array as $line) { 
    $line_array = explode("|",$line); 
    if (stripos($line_array[0], 'mnemonic') !== false) { 
     continue; 
    } 

    if (!isset($line_array[1])) { 
     continue; 
    } 

    if (stripos($line_array[1], 'n') !== false) { 
     continue; 
    } 

    if (!isset($line_array[10])) { 
     continue; 
    } 

    $ao_hash[$line_array[10]] = $line; 
} 

两个散列被使用这种方法构建,并且都工作良好(预期的结果,快速执行)。它看起来像这样:

$array1[NDC] = some|delimited|file|output 
$array2[NDC] = another|file|with|delimited|output 

我使用NDC作为交叉映射这两个数组的主键。

// Compare the client's drug report against the cut-down file 
while (list ($key, $value) = each ($ao_hash)) { 

    // Use the NDC to match across array of arrays 
    if (isset($string_hash[substr($key,0,11)])) { 
     $string_selector = $string_hash[substr($key,0,11)]; 
    } 

    // Check if the client NDC entry exists in cut-down file 
    if (!isset($string_selector)) { 

     // No direct NDC match, reserve for an FSV look-up 
     $ao_array = explode("|", $value); 
     if (isset($ao_array[2]) && isset($ao_array[16])) { 
      $no_matches[$ao_array[2].'|'.$ao_array[16]]['NDC'] = $ao_array[10]; 
      $no_matches[$ao_array[2].'|'.$ao_array[16]]['MNEMONIC'] = $ao_array[0]; 
     } 
    } else { 

     // Direct match found 
     $ao_array = explode("|", $value); 
     $cutdown_array = explode("|", $value); 
     foreach ($cutdown_array as $cutdown_col) { 
      if ($cutdown_col == "") { 
       $cutdown_col = "0"; 
      } 
      $cutdown_verified[] = $cutdown_col; 
     } 

     // Drop the last column 
     array_pop($cutdown_verified); 

     // Merge into a single string 
     $final_string = implode("|", $cutdown_verified); 

     // Prepare data for FSV match 
     if (isset($ao_array[2]) && isset($ao_array[16])) { 
      $yes_matches[$ao_array[2].'|'.$ao_array[16]]['DRUG_STRING'] = $final_string; 
     } 

     // Add the mnemonic to the end 
     $final_string .= '|'.$ao_array[0]; 
     $drug_map[$ao_array[0]] = $final_string; 
    } 
} 

任何帮助将是真棒,只是想这样跑得更快。

+0

我还没有做过任何测试,但有几件事对我来说是微观优化和我的一般问题。上传的文件显示为CSV或选项卡分隔列表。你尝试过使用'fgetcsv'还是'str_getcsv'?接下来,您只能匹配钥匙中的前10个字符。而不是存储整个密钥,只需存储前10个字符,这将节省2个substr(不多)。为什么不存储数组,而不是将字符串存储在地图中。这将减少爆炸电话。 –

+0

这是一个管道分隔的文本文件,但我想要捕获制表符分隔的文件(从Excel导出的用户并不总是知道切换到管道)。 我不能substr来存储密钥,因为NDC可能有第12个值(如A或B),我需要稍后区分它。我会看看是否可以减少微编辑。 我会看看我是否可以减少爆炸电话。在Perl中,split/join调用很容易被滥用,因为它们相对较快。 – Ryan

回答

1

Redditor https://www.reddit.com/user/the_alias_of_andrea解决了这个问题:

而不是使用:

while (list($key, $value) = each($ao_hash)) 

这将是更有效地使用

foreach ($ao_hash as $key => $value) 

现在一个13MB的文件,立即执行,我得到预期的结果。