2017-05-07 38 views
0

我正在进行句子分析,在此处理解句子并将信息解密为键值对。 像如按含义规范化单词

{ "product" : "milk" , "money": "200 usd" } 

{ "product" : "chair" , "cost": "200 usd" } 

{ "product" : "chair" , "price": "200 usd" } 

现在这个JSON放出来不容易使用,除非我正常化了。 我想正常化所有意味着金钱的词语,就像金钱一样。

{ "product" : "milk" , "money": "200 usd" } 

{ "product" : "chair" , "money": "200 usd" } 

{ "product" : "chair" , "money": "200 usd" } 

所以现在都意味着

资金,成本,价格都实际上意味着金钱。

有没有办法像这样规范化? 我在nltk搜索的是stemmer和lemmatizer。但它似乎并没有达到我的意思。有人可以指导吗?

回答

1

您可以使用NLTK并查看WordNet synonym set中的每个关键字,并为每个关键字输入一个规范条目,比如第一个关键词。

如果您的语料库相当普遍,那么这可能会有效,但是如果您期望很多技术语言,您可能必须生成自己的文字嵌入或群集来解决此问题。

+1

好的建议。 OP可能在特定的域中工作,所以他们可能已经有了一个“规范条目”列表来定位。 – alexis