2011-06-20 25 views
0

我有关于提取单词之间的类别的问题。 我有一个集群中的几个词(“苹果”,“iMac”,“snowleopard”) ,我想检索该词中的类别。如何在wikipedia中获取单词之间的类别?

( “苹果”, “iMac电脑”, “雪豹”) - > “的Mac OS X”

我一直在使用词汇数据库,如WordNet的尝试,但它不会工作。我一直在寻找其他方法,发现维基百科可能会有所帮助。 任何Java库的维基百科?以及如何做我上面提到的这样的任务? 谢谢

+0

将单词集合映射到类别的算法是什么?对此没有任何明显的(对我来说)方法,并且您想采取的方法将强烈影响数据结构/库的选择。 –

+0

我使用GLSD(谷歌潜在语义距离)算法来分组语言相关的单词。但我有问题来确定群集中单词之间的类别。我尝试过使用WordNet提取每个单词hypernymy,但它不起作用,因为并非群集中的每个单词都具有相同的超类型。 – kyo21

回答

0

您可以尝试使用维基百科来从这些术语中提取一些含义。例如,对维基百科的API以下查询:

http://en.wikipedia.org/w/api.php?action=query&prop=categories&format=json&clshow=!hidden&cllimit=10&generator=search&gsrsearch=apple%20iMac%20snowleopard%22&gsrnamespace=0&gsrprop=titlesnippet&gsrredirects=&gsrlimit=10

产生以下结果:

{ 
     "query": { 
      "searchinfo": { 
       "totalhits": 3, 
       "suggestion": "apple iMac snow leopard\"\"" 
      }, 
      "pages": { 
       "2020710": { 
        "pageid": 2020710, 
        "ns": 0, 
        "title": "Apple's transition to Intel processors", 
        "categories": [ 
         { 
          "ns": 14, 
          "title": "Category:Apple Inc." 
         }, 
         { 
          "ns": 14, 
          "title": "Category:Intel Corporation" 
         }, 
         { 
          "ns": 14, 
          "title": "Category:Mac OS X" 
         } 
        ] 
       }, 
       "14059031": { 
        "pageid": 14059031, 
        "ns": 0, 
        "title": "Mac OS X Snow Leopard", 
        "categories": [ 
         { 
          "ns": 14, 
          "title": "Category:2009 software" 
         }, 
         { 
          "ns": 14, 
          "title": "Category:Mac OS X" 
         } 
        ] 
       }, 
       "20640": { 
        "pageid": 20640, 
        "ns": 0, 
        "title": "OS X", 
        "categories": [ 
         { 
          "ns": 14, 
          "title": "Category:1999 software" 
         }, 
         { 
          "ns": 14, 
          "title": "Category:Apple Inc. operating systems" 
         }, 
         { 
          "ns": 14, 
          "title": "Category:Apple Inc. software" 
         }, 
         { 
          "ns": 14, 
          "title": "Category:Mac OS X" 
         }, 
         { 
          "ns": 14, 
          "title": "Category:Mach" 
         } 
        ] 
       } 
      } 
     }, 
     "query-continue": { 
      "categories": { 
       "clcontinue": "14059031|X86-64 operating systems" 
      } 
     } 
    } 

可能不容易从这个数据什么是“正确的”类别来确定,但这是一个开始。

相关问题