我一直在研究这一课的问题,最后得到了测验所需的答案。对于R来说,我还不太熟悉,但是这需要几个小时才能理解。我的任务是从丛林找到名称Jurgis,Ona和Chicago的所有事件。R:查找名称的所有匹配项
问题:我浪费了很多时间使用GSUB去除标点符号,但后来意识到,有些要素是两个字:“Jurgis读”会凝结成“Jurgisread”,不会拿起计数。然后有“Jurgis”凝聚到Ona和芝加哥市的“Jurgiss”等。
想:关于如何在将来更好地处理这些类型的文件的一些提示。
我做了什么:我得到了开头的两行代码。我使用它们附带的空格分割元素。然后,我选择了我想要删除的标点符号。一旦我移除,我认为,将是所有常见的,并用空格替换它们,再次分割元素。最后,我table()并强迫所有的单词都是大写字母。
theJungle <- readLines("http://www.gutenberg.org/files/140/140.txt")
theJungleList <- unlist(strsplit(theJungle[47:13872], " "))
splitJungle1<-unlist(strsplit(theJungleList, "[[:space:]]", fixed = FALSE,
perl = FALSE, useBytes = FALSE))
remPunctuation<-gsub("-|'|,|:|;|\\.|\\*|\\(|\"|!|\\?"," ",splitJungle1)
splitJungle2<-unlist(strsplit(remPunctuation, "[[:space:]]", fixed = FALSE, perl
= FALSE, useBytes = FALSE))
table(toupper(splitJungle2)=="JURGIS")
table(toupper(splitJungle2)=="ONA")
table(toupper(splitJungle2)=="CHICAGO")
谢谢!
请参阅:为什么“有人能帮助我吗?”不是一个实际的问题?(http://meta.stackoverflow.com/q/284236) – EJoshuaS