在使用R进行文本挖掘时,在重新处理文本数据之后,我们需要创建文档项矩阵以供进一步探索。但是与中国人相似,英语也有一些特定的阶段,比如“语义距离”,“机器学习”,如果将它们分成单词,它们有完全不同的含义,我想知道如何匹配预定义的词典值由空白分隔的项组成,例如包含“语义距离”,“机器学习”。如果一个文档是“我们可以使用机器学习方法来计算词语的语义距离”,那么当将这个文档应用于词典[“语义距离”,“机器学习”]时,它会返回一个1x2矩阵:[语义距离,1 ;机器学习,1]R构造文档术语矩阵如何匹配其值由空格分隔的短语组成的词典
1
A
回答
2
虽然它需要为每个短语构造一个字典,然后预处理文本以将短语转换为标记,但可以用quanteda做到这一点。要成为“标记”,短语需要加上除空白之外的东西 - 这里是“_
”字符。
以下是一些示例文本,包括OP中的短语。我为示例添加了两个额外的文本 - 下面,文档特征矩阵的第一行生成请求的答案。
txt <- c("We could use machine learning method to calculate the words semantic distance.",
"Machine learning is the best sort of learning.",
"The distance between semantic distance and machine learning is machine driven.")
词组令牌的电流签名要求phrases
参数是字典或搭配对象。在这里,我们将使它的字典:
mydict <- dictionary(list(machine_learning = "machine learning",
semantic_distance = "semantic distance"))
然后我们预处理到词典的短语转换成自己的钥匙文:
toks <- tokens(txt) %>%
tokens_compound(mydict)
toks
# tokens from 3 documents.
# text1 :
# [1] "We" "could" "use" "machine_learning"
# [5] "method" "to" "calculate" "the"
# [9] "words" "semantic_distance" "."
#
# text2 :
# [1] "Machine_learning" "is" "the" "best"
# [5] "sort" "of" "learning" "."
#
# text3 :
# [1] "The" "distance" "between" "semantic_distance"
# [5] "and" "machine_learning" "is" "machine"
# [9] "driven" "."
最后,我们可以构造文档特征矩阵,保持使用默认的“水珠”模式匹配用于包括下划线字符的任何特征都短语:
mydfm <- dfm(toks, select = "*_*")
mydfm
## Document-feature matrix of: 3 documents, 2 features.
## 3 x 2 sparse Matrix of class "dfm"
## features
## docs machine_learning semantic_distance
## text1 1 1
## text2 1 0
## text3 1 1
(回答更新的> = v0.9.9)
相关问题
- 1. 文本分析:术语文档矩阵?
- 2. 构建一个术语文档矩阵
- 3. Bigram分析和术语文档矩阵
- 4. 如何计算术语文档矩阵?
- 5. 将CSV格式的术语文档矩阵导入到R
- 6. 只保留文档术语矩阵中的特定格式R
- 7. 您如何规范化R中文档术语矩阵的行?
- 8. 如何使用本机R创建文档术语矩阵
- 9. 很多文章的单词列表 - 文档 - 术语矩阵
- 10. Topicmodels调换术语文档矩阵
- 11. 如何从文档术语矩阵中删除NaN值
- 12. 的矩阵转换成文档词矩阵中的R
- 13. 矩阵术语
- 14. 从字典中创建文档 - 术语矩阵
- 15. 如何隔离由Lua中的空格分隔的非英语单词?
- 16. Twitter数据分析 - 术语文档矩阵中的错误
- 17. 简单三元组矩阵(文档术语矩阵)的基本操作
- 18. 应用NLP:如何根据多词术语词典对文档进行评分?
- 19. 正则表达式不匹配由空格分隔的单词
- 20. 语言翻译技术术语词典
- 21. 文本mining-如何建立一个术语文档矩阵
- 22. 使用Lucene 4.4生成术语文档矩阵4.4
- 23. 计算术语x术语矩阵
- 24. 由视场相匹配的URL术语
- 25. ElasticSearch部分短语匹配
- 26. Python中的技术术语词典?
- 27. 如何匹配正则表达式中由空格分隔的所有单词?
- 28. 过滤行/ R中的文件,术语矩阵文件
- 29. 转换一个术语的文档矩阵到节点/边列表中的R
- 30. 如何仅从存储的单词列表中生成text2vector中的文档术语矩阵
它的工作原理,谢谢 –
但是,如果字典有一个正则表达式模式的键,'phrasetotoken'不起作用 –
这是正确的,不幸的是。但是,当我添加对多字词典值的支持时,它将起作用。 –