text-analysis

-1热度

1回答

我想在我的矢量中保留单个字符。在scikit-learn CountVectorizer甚至，我保持stop_word参数为None内部实现是从新创建的向量中删除一些字符。如何处理？

1热度

1回答

我只想提取Facebook页面的访问者帖子。我正在使用Rfacebook软件包。 posts -> getPage(page="Troll.Football",token=access_token, feed=T) 此命令也提供管理员帖子。我如何过滤管理员帖子？

-3热度

1回答

从调查文本中查找模式和实用信息[xlsx]

我想查找模式并从大量调查数据中提取有用的信息。数据在.xlsx电子表格中进行排序，其中4列与特定问题相对应，每行填充回复者的文本答复。如何使用python和openpyxl从数据中提取模式，例如单词或短语的频率，四个问题的答案之间的连接或其他任何我应该查找的内容？我在数据/文本挖掘方面的经验有限，所以如果有一些文档，有用的教程或其他StackOverflow问题，我应该看看，请让我知道。我在这

2热度

1回答

AttributeError：'function'对象没有属性'lower'

我正在尝试使用sentiwordnet文本文件“SentiWordNet_3.0.0_20130122.txt”。当我导入sentiwordnet.py文件，并尝试运行它，我得到的错误如下：发生错误为： -------------------------------------------------------------------------- AttributeError Trac

0热度

1回答

用哈希检测重复的文本片段

我试图检测类似的文本片断，以阻止垃圾邮件发布者发布与小改动相同的垃圾邮件。为此，我想使用散列而不是将所有句子保存在数据存储中。节省空间并快速查找。我哈希整个文本，没有标点或怪异的字符，和比较哈希来查找重复的垃圾邮件。但是，只要垃圾邮件发送者添加一个随机值，系统就会失败。有没有人有办法改进这个系统？我尝试了感知哈希，但这似乎只对大块文本有效。

3热度

3回答

将书分解成章节 - Python

我有一本大书存储在一个纯文本文件中，并且想分析它以便为每章创建单独的文件。我使用一些简单的正则表达式来查找每章的标题，但我很努力地捕捉到所有的文章。 import re txt = open('book.txt', 'r') for line in txt : if re.match("^[A-Z]+$", line): print line, 我知道这是很不成熟

0热度

1回答

自动文本分析软件？

任何自动化的简单文本分析软件？我需要在下面的文本进行文本分析： http://www.columbia.edu/itc/mealac/pritchett/00generallinks/macaulay/txt_minute_education_1835.html

-1热度

2回答

R中的URL语义分析

我有一个包含各种URL的数据集。 https://www.thetrainline.com/buytickets/combinedmatrix.aspx?Command=TimeTable https://wwf-fb.zyngawithfriends.com/wwf-fb.a84485c126e67ea2787c.html http://www.thetrainline.com/destin

0热度

3回答

标记相对于文本数据集中到一个特定的词在文本中的R

我是新来的R，但我有情况下，我需要创建新的变量标志，并将其与文本对于特定单词标记为1 。例如：数据帧 Text flag_USA flag_Canada Canada has 1.6% more total area 0 1 USA has 0.7% more land 1 0 USA has 4 times more arable land

2热度

3回答

如何用形式分解演奏剧本**演讲者：对话**将角色的所有对话转换为单个文本块？

我正在使用的文本如下。到目前为止，我已经导入文本： tempest.v <- scan("data/plainText/tempest.txt", what="character", sep="\n") 确定了所有的扬声器位置的开始： speaker.positions.v <- grep('^[^\\s]\\w+:', tempest.v) 添加标记在文本的末尾： tempest.v