text-mining

    0热度

    1回答

    我想从一个CSV文件,其中的第一个字是“主”字和词语的相同的记录,其余读同义词是2的倍数列出的清单是其同义词 现在我基本上要创建一个列表像我将不得不在R, **synonyms <- list( list(word="ss", syns=c("yy","yyss")), list(word="ser", syns=c("sert","sertyy","serty")) )**

    1热度

    1回答

    对于GEO研究从GEO检索数据表标头,我想获得数据表头的描述,在研究的所有样品特别是“值”列。 如果go here,然后向下滚动,然后点击其中一个样品:我们选择“GSM2644971”。然后,向下滚动,你应该看到“数据表头说明”及以下,你应该看到“值进行标准化(提供的归一化法)平均贝塔”。这些信息是我想要的。 我尝试使用Biobase包中的assayData(),但我不知道该方法是以样本,样本矩阵

    1热度

    1回答

    我需要问几个关于单词嵌入的问题.....可能是基本的。 1.当我们将例如king [0 0 0 1 0]这个单词的单热矢量转换成一个嵌入矢量时,E = [0.2,0.4,0.2,0.2] ....对每个索引是否有任何重要性在结果词向量?例如E [1],它是0.2 ....具体来说E [1]定义了什么(尽管我知道它基本上是向另一个空间的转换)....或者单词向量共同定义上下文但不是单独地... 2

    0热度

    1回答

    我试图在R中使用文本数据进行逻辑回归。我已经构建了一个文档矩阵和相应的潜在语义空间。根据我的理解,LSA用于从“术语”中导出“概念”,这可能有助于降低维度。这里是我的代码: tdm = TermDocumentMatrix(corpus, control = list(tokenize=myngramtoken,weighting=myweight)) tdm = removeSparseTer

    0热度

    1回答

    我试图安装GraphLab,但结果却成了这个样子: AttributeError的:模块 'graphlab' 有没有属性 '连接' 我的Python版本3.6.1。我也试过代码: python -m pip install connect 但没有奏效。 有谁知道如何解决这个问题?谢谢!

    0热度

    1回答

    存在我的复式进行一些文本分析简历使用wordcloud包tm包一起产生wordcloud用于预处理的文档语料库中R. 的问题我面对的是: 检查语料库中的单词是否有一定的含义,即。它属于英语字典。 如何一起挖掘/处理多个简历。 检查高科技方面如R,JAVA,月食等 欣赏的帮助。

    -1热度

    1回答

    嗨,我尝试使用R键分析Facebook的意见,所以当我通过代码浏览我碰到一个代码来任何人都可以解释我清楚它是什么 我得到了之后的评论清洁评论代码写如下 sapply(comments, function(x) iconv(enc2utf8(x),sub="byte")) 任何人都可以解释我什么是功能在做什么?

    0热度

    1回答

    我使用创建的双字母组的列表: BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2)) tdm_a.bigram = TermDocumentMatrix(docs_a, control = list(tokenize = BigramTokenizer)) 我试图

    -4热度

    1回答

    我试图让我的问题更清晰,如果我使用不正确的术语,我表示歉意。 我有以下形式 N个文本文档 “最好的数量是200,因为[...]” “我喜欢250超过120 [...]” “[...] 300是我最喜欢的数字” “没有什么是比450 [...]” 等 鉴于这种新的文件: “顶部的顶部是125 [...]” 我怎样才能提取信息 “125”? 我预处理文本,以便通过使用正则表达式将文档的维度从50页减少

    3热度

    2回答

    假设我有以下两个表: 表1: id word 1 apple 1 banana 2 cherry 2 donuts 3 eggplant 3 fish 表2(key_words): key_words apple orange cherry peach 我想检查table1的'word'列中的每个元素是否存在于table2中,并得到如下结果: id appl