text-analysis

0热度

1回答

使用字数计算欧氏距离

考虑以下两个句子。句子1：快速的棕色狐狸跳过懒惰的狗。句2：快速黄狗赶不上快速狐狸。计算使用字计数的欧氏距离。

1热度

1回答

如何分析非结构化文本？

我使用TF-IDF来影响可以帮助我构建字典的重量。但我的模型不够好，因为我有非结构化文本。有关TF-IDF类似算法的任何建议？

1热度

2回答

如何根据上下文对相似类型的句子进行聚类并从中提取关键词

我想根据上下文对句子进行聚类，并从相似的上下文句子中提取常用关键字。例如 1.我需要去家里 2.我吃他将要回家，明天他是在餐厅句子1和3将与关键字相似像去家一样，也许它是旅行和房子的同义词。预现有的API会像使用IBM沃森莫名其妙

0热度

1回答

R中的子图文本分析（igraph）

我很好奇如何访问与边相关的图的其他属性。沿着这里遵循的是一个小例子： library("igraph") library("SocialMediaLab") myapikey ='' myapisecret ='' myaccesstoken = '' myaccesstokensecret = '' tweets <- Authenticate("twitter",

0热度

1回答

tm包：stemComplete不起作用

我有一个简单的代码来执行文本分析。在创建DTM之前，我正在应用stemCompletion。然而，这种输出是我不了解的，不管我做错了，还是这是它行为的唯一方式。我所提到的RMY帮助此链接：text-mining-with-the-tm-package-word-stemming ，我在这里看到的是，词干后，我的DTM缩小，并在所有（返回“内容”“元”）不返回令牌的问题我的代码和输出： text

0热度

1回答

有没有办法从文本文件中删除特殊字符？

我试图做的命令行一些基本的文本分析，但每当我试图运行一个命令，我得到如下：TR：非法字节序列。我已经将问题缩小到文本中的特殊字符（'，，¨等等）。我能做些什么来从文本中删除这些特殊字符？我可以使用命令行吗？或者我必须运行脚本？

0热度

1回答

最简单的方法/黑匣子根据现有（标记）的数据集来为短帖建议标签？

我们有〜的意见50-300个字符预标记有多个主题，如“音乐”，“高科技”，以及特定的电影，艺术家等我们要培养一种算法来autotag未来的评论。我们会手动调整建议以提高准确性，并随着时间的推移手动添加更多标签（例如，新艺术家）。帖子将有一个或多个标签。开始这个最简单的方法是什么？我在寻找像添加content和tag 1, tag 2...这样的简单操作，自动进行培训，然后再给它发回文本以获取建

0热度

1回答

探索在Google文档中跟踪“主题”的标签

在google文档中，我注意到在新的探索选项卡中有跟踪“主题”的功能。我想知道这是如何工作的，它使用什么函数来查找专门关于我目前在Google文档中撰写的主题的主题？

1热度

2回答

如何使用FastText查找类似的单词？

我正在玩FastText，https://pypi.python.org/pypi/fasttext，它与Word2Vec非常相似。由于它似乎是一个相当新的图书馆，还没有建立很多功能。我想知道如何提取形态相似的单词，例如：model.similar_word（“dog”） - > dogs。但是没有内置函数。如果我键入model [“dog”]，我只能得到向量，可能用于比较余弦相似度model.

0热度

1回答

是否有可能找到LDAvis在给定文档中发生的主题的后验概率？如果是这样，怎么办？

从这个问题可能会或可能不明显，我对R来说很新，而且我可以在这方面提供一些帮助。创建主题模型时，我已经尝试了LDA和LDAvis - 下面（A）和（B）中的代码。（A）中的LDA使我能够找到我的语料库中每个文档中出现的主题的后验概率，我曾经用其他数据集中的变量运行回归。（B）中，使用LDAvis的主题生成方法生成的是比（A）更好，更一致的主题，但是我一直未能找出如何找出给定文档中出现的主题的后