我有许多复合术语,比如hello World,早安,晚安,...我想在我的语料库中找到它们,然后用它们的等价物替换它们作为helloWorld,goodMorning,goodNight。所以这样我就可以保留他们的概念。 我可以一个一个地做,但由于有很多复合术语,它非常繁琐。我需要用R语言来做到这一点。如何找到复合词,删除它们之间的空格,并将它们替换为我的语料库?
回答
如果你所有的复合词用空格分隔只,你可以使用gsub
:
> x = c("hello World", "good Morning", "good Night")
> y = gsub(pattern = " ", replacement = "", x = x)
> print(y)
[1] "helloWorld" "goodMorning" "goodNight"
您可以随时添加更多的模式来pattern
说法。阅读有关R here和here中正则表达式的更多信息。
编辑
@ user4241750:是的,但我只是想为特定化合物做到这一点 条件(有很多),不是所有在语料库中的条款,因为有 在许多其他方面语料库
如果您知道要更改的所有特定复合词,可以在docs[[j]]
上指定它。说你想改变的唯一条款是“简单部分”和“早上好”:
terms.to.change = c("simple parts","good morning")
for (j in seq(corpus)) {
positions.to.change = which(docs[[j]] %in% terms.to.change)
docs[[j]][positions.to.change] <- gsub(" ", "", docs[[j]][positions.to.change])
}
我有一个语料库,它有20个文本文件,我怎样才能用gsub在我的语料库中应用这些更改? – user4241750
我已经尝试过gsub,但问题是我不想手动执行此操作,因为它需要很长时间。我在一个文本文件中使用了这些术语,每个复合术语用单独的一行代替,我正在寻找一些有用的代码来获取此文本文件,并删除它们之间的毯子,然后转到我的语料库并用新术语替换复合术语(没有毯子之间) – user4241750
你能给一个简单的例子(在R代码中)你有什么? –
- 1. 查找零个值,并用空格替换/删除它们 - Perl的
- 2. 如何删除它们之间rotateX
- 3. elasticsearch:如何删除停用词而不是替换它们?
- 4. 删除输入字段中的括号,它们之间的文本以及它们之前的空格?
- 5. 的sed +不同炭之间删除空格与 “” 它们之间的分隔符
- 6. 查找我所有的视频,并将它们删除youtube api
- 7. 如何找到不同的Python安装并删除它们?
- 8. 删除尾部空格并将它们添加为前导空格
- 9. 如何删除换行符和空格,并用Perl中的空白字符替换它们?
- 10. 使用MAKEFILE在编译之前复制文件并在删除它们之后删除它们
- 11. 搜索关键字并用它们的缩写替换它们
- 12. 如何删除换行符并用记事本中的逗号替换它们+
- 13. 变量为空时出现Div类。我如何删除它们?
- 14. 找到字符串中的重复单词和它们之间的符号
- 15. 如何在同一行上保留它们之间有空格的单词?
- 16. 找到“string1”并删除它和“string2”之间的删除
- 17. 如果两个单词之间存在一个单词,如何删除它们之间的所有内容?
- 18. 删除重复项并将它们的值合并成一行 - Excel报告
- 19. java阵列查找重复项并替换它们
- 20. 我们可以恢复数据库,如果它被删除
- 21. 如何将链接放在同一行上,并在它们之间有空格?
- 22. PDF格式的NSImages并将它们合并到Swift中
- 23. 如何替换字符或高效删除它们
- 24. OpenLibrary.org返回空白图片,如何检测并替换它们?
- 25. 替换字符串中的单词并重新加入它们
- 26. 删除数组元素,并将它们添加回它们所在的位置
- 27. C,如何找到一个字符串中的2个重复单词,并计算它们之间的距离
- 28. 使用MS Access查找重复项并删除它们
- 29. jQuery的数格,分为两个并在它们之间添加
- 30. 如何在用户删除它们之前复制文件 - Android
你搜索了什么?你发现了什么?你到目前为止尝试了什么?请分享一些尝试。 –
也许你可以看看'?gsub' – Vongo
我已经尝试过gsub,但问题是我不想手动执行此操作,因为它需要很长时间。我在一个文本文件中使用了这些术语,每个复合术语用单独的一行代替,我正在寻找一些有用的代码来获取此文本文件,并删除它们之间的毯子,然后转到我的语料库并用新术语替换复合术语(没有毯子术语 – user4241750