text-analysis

    0热度

    1回答

    考虑以下两个句子。 句子1:快速的棕色狐狸跳过懒惰的狗。 句2:快速黄狗赶不上快速狐狸。 计算使用字计数的欧氏距离。

    1热度

    1回答

    我使用TF-IDF来影响可以帮助我构建字典的重量。但我的模型不够好,因为我有非结构化文本。 有关TF-IDF类似算法的任何建议?

    1热度

    2回答

    我想根据上下文对句子进行聚类,并从相似的上下文句子中提取常用关键字。 例如 1.我需要去家里 2.我吃 他将要回家,明天 他是在餐厅 句子1和3将与关键字相似像去家一样,也许它是旅行和房子的同义词。 预现有的API会像使用IBM沃森莫名其妙

    0热度

    1回答

    我很好奇如何访问与边相关的图的其他属性。沿着这里遵循的是一个小例子: library("igraph") library("SocialMediaLab") myapikey ='' myapisecret ='' myaccesstoken = '' myaccesstokensecret = '' tweets <- Authenticate("twitter",

    0热度

    1回答

    我有一个简单的代码来执行文本分析。在创建DTM之前,我正在应用stemCompletion。然而,这种输出是我不了解的,不管我做错了,还是这是它行为的唯一方式。 我所提到的RMY帮助此链接:text-mining-with-the-tm-package-word-stemming ,我在这里看到的是,词干后,我的DTM缩小,并在所有(返回“内容”“元”)不返回令牌的问题 我的代码和输出: text

    0热度

    1回答

    我试图做的命令行一些基本的文本分析,但每当我试图运行一个命令,我得到如下:TR:非法字节序列。我已经将问题缩小到文本中的特殊字符(',,¨等等)。我能做些什么来从文本中删除这些特殊字符?我可以使用命令行吗?或者我必须运行脚本?

    0热度

    1回答

    我们有〜的意见50-300个字符预标记有多个主题,如“音乐”,“高科技”,以及特定的电影,艺术家等 我们要培养一种算法来autotag未来的评论。我们会手动调整建议以提高准确性,并随着时间的推移手动添加更多标签(例如,新艺术家)。帖子将有一个或多个标签。 开始这个最简单的方法是什么?我在寻找像添加content和tag 1, tag 2...这样的简单操作,自动进行培训,然后再给它发回文本以获取建

    0热度

    1回答

    在google文档中,我注意到在新的探索选项卡中有跟踪“主题”的功能。我想知道这是如何工作的,它使用什么函数来查找专门关于我目前在Google文档中撰写的主题的主题?

    1热度

    2回答

    我正在玩FastText,https://pypi.python.org/pypi/fasttext,它与Word2Vec非常相似。由于它似乎是一个相当新的图书馆,还没有建立很多功能。我想知道如何提取形态相似的单词,例如:model.similar_word(“dog”) - > dogs。但是没有内置函数。 如果我键入model [“dog”],我只能得到向量,可能用于比较余弦相似度model.

    0热度

    1回答

    从这个问题可能会或可能不明显,我对R来说很新,而且我可以在这方面提供一些帮助。 创建主题模型时,我已经尝试了LDA和LDAvis - 下面(A)和(B)中的代码。 (A)中的LDA使我能够找到我的语料库中每个文档中出现的主题的后验概率,我曾经用其他数据集中的变量运行回归。 (B)中,使用LDAvis的主题生成方法生成的是比(A)更好,更一致的主题,但是我一直未能找出如何找出给定文档中出现的主题的后