我有关于提取单词之间的类别的问题。 我有一个集群中的几个词(“苹果”,“iMac”,“snowleopard”) ,我想检索该词中的类别。如何在wikipedia中获取单词之间的类别?
( “苹果”, “iMac电脑”, “雪豹”) - > “的Mac OS X”
我一直在使用词汇数据库,如WordNet的尝试,但它不会工作。我一直在寻找其他方法,发现维基百科可能会有所帮助。 任何Java库的维基百科?以及如何做我上面提到的这样的任务? 谢谢
我有关于提取单词之间的类别的问题。 我有一个集群中的几个词(“苹果”,“iMac”,“snowleopard”) ,我想检索该词中的类别。如何在wikipedia中获取单词之间的类别?
( “苹果”, “iMac电脑”, “雪豹”) - > “的Mac OS X”
我一直在使用词汇数据库,如WordNet的尝试,但它不会工作。我一直在寻找其他方法,发现维基百科可能会有所帮助。 任何Java库的维基百科?以及如何做我上面提到的这样的任务? 谢谢
您可以尝试使用维基百科来从这些术语中提取一些含义。例如,对维基百科的API以下查询:
产生以下结果:
{
"query": {
"searchinfo": {
"totalhits": 3,
"suggestion": "apple iMac snow leopard\"\""
},
"pages": {
"2020710": {
"pageid": 2020710,
"ns": 0,
"title": "Apple's transition to Intel processors",
"categories": [
{
"ns": 14,
"title": "Category:Apple Inc."
},
{
"ns": 14,
"title": "Category:Intel Corporation"
},
{
"ns": 14,
"title": "Category:Mac OS X"
}
]
},
"14059031": {
"pageid": 14059031,
"ns": 0,
"title": "Mac OS X Snow Leopard",
"categories": [
{
"ns": 14,
"title": "Category:2009 software"
},
{
"ns": 14,
"title": "Category:Mac OS X"
}
]
},
"20640": {
"pageid": 20640,
"ns": 0,
"title": "OS X",
"categories": [
{
"ns": 14,
"title": "Category:1999 software"
},
{
"ns": 14,
"title": "Category:Apple Inc. operating systems"
},
{
"ns": 14,
"title": "Category:Apple Inc. software"
},
{
"ns": 14,
"title": "Category:Mac OS X"
},
{
"ns": 14,
"title": "Category:Mach"
}
]
}
}
},
"query-continue": {
"categories": {
"clcontinue": "14059031|X86-64 operating systems"
}
}
}
可能不容易从这个数据什么是“正确的”类别来确定,但这是一个开始。
将单词集合映射到类别的算法是什么?对此没有任何明显的(对我来说)方法,并且您想采取的方法将强烈影响数据结构/库的选择。 –
我使用GLSD(谷歌潜在语义距离)算法来分组语言相关的单词。但我有问题来确定群集中单词之间的类别。我尝试过使用WordNet提取每个单词hypernymy,但它不起作用,因为并非群集中的每个单词都具有相同的超类型。 – kyo21