我试图创建一个矩阵, 为此,我使用该R指令:无法看到文档中的RTextTools :: toLower()文本的结果
matrix = create_matrix(tweets[,1], toLower = TRUE, language="english",
removeStopwords=FALSE, removeNumbers=TRUE,
stemWords=TRUE)
这里将R代码:
library(RTextTools)
library(e1071)
pos_tweets = rbind(
c('j AIME la voiture', 'positive'),
c('cette machine est performante', 'positive'),
c('je me sens en bonne forme ce matin', 'positive'),
c('je suis super excitée d aller voir le spectacle de demain', 'positive'),
c('il est mon meilleur ami', 'positive')
)
neg_tweets = rbind(
c('je séteste cette voiture', 'negative'),
c('ce film est horrible', 'negative'),
c('je suis fatiguée ce matin', 'negative'),
c('je déteste ce concert', 'negative'),
c('il n est pas mon ami', 'negative')
)
test_tweets = rbind(
c('je suis heureuse ce matin', 'negative'),
c('un bon ami', 'negative'),
c('je me sens triste', 'positive'),
c('pas belle cette maison', 'negative'),
c('mauvaise chanson', 'negative')
)
tweets = rbind(pos_tweets, neg_tweets, test_tweets)
# build dtm
matrix= create_matrix(tweets[,1], toLower = TRUE, language="french",
removeStopwords=FALSE, removeNumbers=TRUE,
stemWords=TRUE)
,我说有些是与基质中大写字母的单词的问题。
您能解释一下为什么我会遇到这个问题吗?
谢谢
在哪里你在矩阵中看到大写字母吗?我猜想函数create_matrix的参数toLower只是告诉函数将数据视为小写,但实际上并不修改数据本身。 – chateaur
实际上,如果您查看矩阵:文档以其原始形式显示(如'matrix $ dimnames $ Docs'所示),而术语是小写的(参见'matrix $ dimnames $ Terms')。在内部看来,一切运作良好:您可以在_j AIME la voiture_中找到_aime_一次。 – Scarabee