文本挖掘中的R

我有一个文本文件文本挖掘中的R

“我写今天。今天我想写作的。今天是伟大的一天”

我试图找到在提到“今天写作”的句子中有多少个实例。可能发生的情况是，“今天写作”并不在一起，但仍然是同一句子的一部分（例如：第二句），也需要捕捉它。

所以在上面的例子中，我的计数是2

任何想法如何做到这一点的R' TIA

来源

2017-04-17 user35655

你不能使用正则表达式？（（\ bwriting \ b。* \ btoday \ b）|（\ btoday \ b。* \ bwriting \ b）） – Dieter

我是新的正则表达式。它只会在句子中搜索吗？ – user35655

因为我可以像“今天是美好的一天，文字是我的爱好”这样的文字。有了这个例子，计数应该是0. – user35655

有很多方法可以做到这一点，但tidytext，

library(tidyverse) 
library(tidytext) 

data_frame(text = "I am writing today. Today I am thinking of writing. Today is great day") %>% 
    unnest_tokens(sentence, text, 'sentences', to_lower = FALSE) %>% 
    mutate(sentence_number = row_number()) %>% 
    unnest_tokens(word, sentence, 'words', drop = FALSE) %>% 
    group_by(sentence_number) %>% 
    filter('today' %in% word, 'writing' %in% word) %>% 
    select(-word) %>% distinct() %>% ungroup() %>% 
    mutate(count = n()) 

#> # A tibble: 2 × 3 
#>       sentence sentence_number count 
#>        <chr>   <int> <int> 
#> 1    I am writing today.    1  2 
#> 2 Today I am thinking of writing.    2  2

来源

2017-04-17 17:07:40 alistaire

太棒了...所以，我只需要拿最后一行来获取发生次数...谢谢。 – user35655

如果你想要计数，你可以用'ungroup（）％>％summarize（count = n_distinct（sentence_number））替换'filter'后面的所有内容' – alistaire

-1

小写的一切。
按点分割。
预处理的句子（词干/旅鼠/停用词）
应用正则表达式（（\ bwriting \ b \ btoday \ b）中。|（\ btoday \ b \ bwriting \ b））的

来源

2017-04-17 16:54:30 Dieter

谢谢Dieter。不知何故卡住了发生次数。 – user35655

文本挖掘中的R

回答

相关问题