corpus

    1热度

    2回答

    我一直在使用textmatrix()函数创建DTM,我可以进一步使用LSI。 dirLSA<-function(dir){ dtm<-textmatrix(dir) return(lsa(dtm)) } textdir<-"C:/RProjects/docs" dirLSA(textdir) > tm $matrix D1 D2 D3 D4 D5

    1热度

    1回答

    我有一个使用南非荷兰语语言的纯文本语句的文本文件。我希望能够在此文本文件上执行nltk语料库函数,但找不到如何执行此操作的任何示例。 我喜欢做的事情,如: mytext.concordance("woord") mytext.similar("woord") 谁能帮助我?

    4热度

    2回答

    如何从python的gensim加载LDA转换的语料库?我已经试过: from gensim import corpora, models import numpy.random numpy.random.seed(10) doc0 = [(0, 1), (1, 1)] doc1 = [(0,1)] doc2 = [(0, 1), (1, 1)] doc3 = [(0, 3), (1

    3热度

    2回答

    我们目前正在研究一个NLP项目并需要一个旨在从tripadvisor.com提取的语料库。我们期待将输出结果作为几种类型:评论和评论的评分。我的问题是: 是否有任何爬行工具最适合此目的?它一定很容易使用,python是首选。美丽的汤是我找到的,但我想在这里问它的任何其他建议。 是否有任何完整的工具只是为了这个目的?我的意思是一个为tripadvisor.com写的程序? 任何有关数据(评论/评级)

    1热度

    1回答

    我对Python和NLTK很新,但我有一个问题。 我在写一些东西,只能提取自己制作的语料库中长度超过7个字符的单词。但事实证明,它提取每一个字... 任何人都知道我做错了什么? loc="C:\Users\Dell\Desktop\CORPUS" Corpus= CategorizedPlaintextCorpusReader(loc,'(?!\.svn).*\.txt, cat_pattern

    0热度

    1回答

    我可以得到意义上标志着NTLK语料库从普林斯顿WN感偏移: [in]:'dog.n.01' >>> from nltk.corpus import wordnet as wn >>> ss = wn.synset('dog.n.01') >>> offset = str(ss.offset).zfill(8)+"-"+ss.pos >>> print offset [out]:'0208

    4热度

    1回答

    我有一个使用XML包从Twitter搜索中创建的1500行向量。然后我将它转换为语料库以与tm包一起使用。我想最终创建一个带有一些(最频繁)这些词的wordcloud,因此我将它转换为TermDocumentMatrix以便能够以最低频率找到词。我创建了对象“a”,它是这些术语的列表。 a <- findFreqTerms(mydata.dtm, 10) wordcloud软件包在文档矩阵上不

    15热度

    1回答

    使用TM封装制作的多个语料库前N个常用术语数据帧我有R. 与tm包创建几个TermDocumentMatrix正是我想要找到每套单据提交给10个最常用术语最终结束了的输出表所示: corpus1 corpus2 "beach" "city" "sand" "sidewalk" ... ... [10th most frequent word] 根据定义,findFreqTerms(c

    3热度

    1回答

    我有一个平行的语料库,其中包含阿拉伯语和波斯语约100,000个对齐的段落。 我的语料库是一个嘈杂的语料库,其段落是彼此不完整的翻译(即,阿拉伯段落的部分不翻译为波斯语,并且标点符号也不匹配)。 为了将段落分成句子,我使用了标点符号,但句子数不匹配。 然后,我用Microsoft Aligner来对齐句子,但结果确实是错误的。 如何分割和对齐语料库的语句?

    32热度

    3回答

    我使用python连接到mysql数据库con = _mysql.connect('localhost', 'dell-pc', '', 'test') 我写的程序需要大量的时间完成执行,即大约10个小时。实际上,我试图从一个语料库中读出不同的单词。 阅读完成后出现超时错误。 我检查这是Mysql的默认超时: +----------------------------+----------+ |