2014-03-07 38 views
0

我正在使用快速矿工对特定电影的评论进行分析。我使用“getpages”从IMDB中提取评论。网站上列出了大约94条评论,但在提取后我只得到21条评论。该xml代码是:使用rapidminer进行imdb电影评论的文本分析

<?xml version="1.0" encoding="UTF-8" standalone="no"?> 
<process version="5.3.015"> 
    <context> 
    <input/> 
    <output/> 
    <macros/> 
    </context> 
    <operator activated="true" class="process" compatibility="5.3.015" expanded="true" name="Process"> 
    <process expanded="true"> 
     <operator activated="true" class="read_excel" compatibility="5.3.015" expanded="true" height="60" name="Read Excel" width="90" x="45" y="30"> 
     <parameter key="excel_file" value="C:\Users\Arbind\Desktop\review\rev.xlsx"/> 
     <parameter key="imported_cell_range" value="A1:A5"/> 
     <parameter key="first_row_as_names" value="false"/> 
     <list key="annotations"> 
      <parameter key="0" value="Name"/> 
     </list> 
     <list key="data_set_meta_data_information"> 
      <parameter key="0" value="Link.true.text.attribute"/> 
     </list> 
     </operator> 
     <operator activated="true" class="web:retrieve_webpages" compatibility="5.3.001" expanded="true" height="60" name="Get Pages" width="90" x="179" y="30"> 
     <parameter key="link_attribute" value="Link"/> 
     </operator> 
     <operator activated="true" class="select_attributes" compatibility="5.3.015" expanded="true" height="76" name="Select Attributes" width="90" x="313" y="30"> 
     <parameter key="attribute_filter_type" value="single"/> 
     <parameter key="attribute" value="gensym1"/> 
     </operator> 
     <operator activated="true" class="text:process_document_from_data" compatibility="5.3.002" expanded="true" height="76" name="Process Documents from Data" width="90" x="447" y="30"> 
     <parameter key="prune_method" value="percentual"/> 
     <parameter key="prune_above_percent" value="90.0"/> 
     <list key="specify_weights"/> 
     <process expanded="true"> 
      <operator activated="true" class="text:cut_document" compatibility="5.3.002" expanded="true" height="60" name="Cut Document" width="90" x="112" y="30"> 
      <parameter key="query_type" value="Regular Region"/> 
      <list key="string_machting_queries"/> 
      <list key="regular_expression_queries"/> 
      <list key="regular_region_queries"> 
       <parameter key="extract" value="&lt;hr[^&gt;]\.*align=&quot;center&quot;&gt;.&lt;hr[^&gt;]\.*align=&quot;center&quot;&gt;"/> 
      </list> 
      <list key="xpath_queries"/> 
      <list key="namespaces"/> 
      <list key="index_queries"/> 
      <process expanded="true"> 
       <operator activated="true" class="text:extract_information" compatibility="5.3.002" expanded="true" height="60" name="Extract Information" width="90" x="112" y="30"> 
       <parameter key="query_type" value="XPath"/> 
       <list key="string_machting_queries"/> 
       <list key="regular_expression_queries"/> 
       <list key="regular_region_queries"/> 
       <list key="xpath_queries"> 
        <parameter key="review" value="//h:p/text()"/> 
        <parameter key="rating" value="//h:img/@alt"/> 
       </list> 
       <list key="namespaces"/> 
       <list key="index_queries"/> 
       </operator> 
       <connect from_port="segment" to_op="Extract Information" to_port="document"/> 
       <connect from_op="Extract Information" from_port="document" to_port="document 1"/> 
       <portSpacing port="source_segment" spacing="0"/> 
       <portSpacing port="sink_document 1" spacing="0"/> 
       <portSpacing port="sink_document 2" spacing="0"/> 
      </process> 
      </operator> 
      <connect from_port="document" to_op="Cut Document" to_port="document"/> 
      <connect from_op="Cut Document" from_port="documents" to_port="document 1"/> 
      <portSpacing port="source_document" spacing="0"/> 
      <portSpacing port="sink_document 1" spacing="0"/> 
      <portSpacing port="sink_document 2" spacing="0"/> 
     </process> 
     </operator> 
     <operator activated="true" class="write_excel" compatibility="5.3.015" expanded="true" height="76" name="Write Excel" width="90" x="514" y="210"> 
     <parameter key="excel_file" value="C:\Users\Arbind\Desktop\review\imdb rev2.xlsx"/> 
     </operator> 
     <connect from_op="Read Excel" from_port="output" to_op="Get Pages" to_port="Example Set"/> 
     <connect from_op="Get Pages" from_port="Example Set" to_op="Select Attributes" to_port="example set input"/> 
     <connect from_op="Select Attributes" from_port="example set output" to_op="Process Documents from Data" to_port="example set"/> 
     <connect from_op="Process Documents from Data" from_port="example set" to_op="Write Excel" to_port="input"/> 
     <connect from_op="Process Documents from Data" from_port="word list" to_port="result 1"/> 
     <connect from_op="Write Excel" from_port="through" to_port="result 2"/> 
     <portSpacing port="source_input 1" spacing="0"/> 
     <portSpacing port="sink_result 1" spacing="0"/> 
     <portSpacing port="sink_result 2" spacing="0"/> 
     <portSpacing port="sink_result 3" spacing="0"/> 
    </process> 
    </operator> 
</process> 

在excel文件中,我一个接一个地看了评论链接。 另外我需要用户给出的“评级”。

+0

也许rapidminer *用户论坛*是一个比*编程*社区更好的关于快速使用问题的社区。 –

+0

谢谢Anony ......但是你能否提一些很好的论坛来处理? – user3393196

+0

*官方* rapidminer论坛如何? http://forum.rapid-i.com/ –

回答

0

常规区域设置是查找其他评论。这是因为区域开始的正则表达式与末尾的正则表达式相同。一旦发现结束,直到下一次审查结束才会发现开始。

+0

但我想知道分析的一部分....如果你能给出总结的想法,应该是完美的程序来挖掘评论...我有点困惑......! ! :-) – user3393196

+0

这是一个新问题。你可能会开始一个新的主题,也许会投票给出迄今为止给出的答案,以鼓励人们提供反馈。 – awchisholm

+0

请您将您的编辑修改为回复,以便他人可以更容易地看到其他人受益。 – awchisholm

0

imported cell range是电子表格导入中的A1:A5。这意味着有一个隐含的for循环来获取这5个URL。这反过来导致Get Pages可能跟随重定向导致更多可能的提取。在不知道URL的情况下无法知道。

你能发表一个电子表格的片段吗?

+0

是的...我认为概率是存在的..“A1:A5”....但我再次尝试将它改为“A1:A11”...现在获得47条评论..仍然有一些剩余.. ! :-) – user3393196