text-analysis

1热度

1回答

熊猫：在数据框中搜索星号时出错。例如：busiest_hosts ['host']。str.contains（'***。botol.dk'）

下面是我的数据框的样子，你会看到我的一个dataframe列是URL，其他的是timestamp count。当我运行此代码时：busiest_hosts[busiest_hosts['host'].str.contains('***.novo.dk')==True]我收到错误：error: nothing to repeat at position 0。我认为这是因为我的网址的第一个元素是*。它

0热度

1回答

如何在python中保存一个txt文件的文件夹作为变量

我有一个txt文件夹的文件夹，我想把它作为变量导入python。理想情况下，我想要一个变量'profession_texts'，其中每个txt文件都是列表中的一个元素。这是我的时刻： import os profession_folder_path = '../fp/Updated/Profession/' profession_files = os.listdir(profession_fo

-1热度

1回答

创建文档术语矩阵时出现属性错误

我正在尝试创建以熊猫数据框的形式表示的文档术语矩阵。这是我到目前为止的代码： df_profession['Athlete_Clean'] = df_profession['Athlete Biographies'].str.lower() df_profession['Athlete_Clean'] = df_profession['Athlete_Clean'].apply(lambda x

0热度

1回答

Bigram分析和术语文档矩阵

我正在对我的文本语料库进行bigram分析。我的特征向量是一组预定义的bigram和unigram令牌。特征向量 =（地理位置好，坏的经验，干净，友善，整洁，优良的，美丽的地方）我的文字：位置好，但不友好的工作人员。清理文字：位置好不友好的工作人员。我使用上面的字典和清理文本创建了一个tdf，但“位置好”的bigram没有给出“1”。但是，当我将清理后的文本更改为“位置不友好的员工”时。

0热度

3回答

如何在文本块中统计[名称列表中的任何名称] + [特定姓氏]？

第一次在这里发表。我希望在文本分析方面我可以找到一些我想要完成的事情。首先，我在python中这样做，并希望保留在Python中，因为这个函数将成为一个更大，否则我很满意的健康工具的一部分。我有NLKT和Anaconda也都建立了，所以利用这些资源也是可能的。我一直在研究一个工具，用于跟踪和添加大块文本中城市名称的引用。例如，该工具可以计算在文本块中检测到“芝加哥”，“纽约”或“洛杉矶”，“旧

0热度

1回答

如何将字典值转换成csv文件？

我是一个绝对的Python初学者。我正在对希腊语剧本进行文本分析并计算每个单词的单词频率。由于游戏时间很长，我无法看到我的全套数据，它只显示频率最低的单词，因为Python窗口中没有足够的空间。我正在考虑将其转换为.csv文件。我的完整代码如下： #read the file as one string and spit the string into a list of separate wor

0热度

1回答

无法获得认知服务中的主题端点

我试图运行一个示例应用程序，该应用程序获取Microsoft认知服务Text Analytics API的主题端点，但函数返回400 HTTP错误。下面是代码： static async Task<string> CallTopicEndpoint(HttpClient client, string uri, byte[] byteData) { using (var content

3热度

1回答

查找给定位置文本中最短的唯一字符串

还有什么其他技术可用于查找text中确定的最短字符串，在确定的position处唯一，除了通过向position处的字符递增添加字符的蛮力以及检查唯一性？为了更好地解释， text = "word1 word2 word3" 如果position = 9（在WORD2 R）; shortest_unique_at_pos = "rd2"。小观察，如果position = 13（w在word

1热度

2回答

文本分析 - 无法在csv或xls文件中编写Python程序的输出

您好我正在尝试使用python 2.x中的Naive Bayes分类器进行情感分析。它使用txt文件读取情绪，然后根据示例txt文件情绪给出正面或负面的输出。我希望输出与输入相同，例如我有一个文本文件让我们可以看到1000条原始情绪，我希望输出对每个情绪都显示正面或负面。请帮忙。下面是我使用 import math import string def Naive_Bayes_Class

0热度

1回答

按列计算POS标签

我正在尝试计算所有行中的部分语音标签并对其进行总结。现在我达到了两个输出： 1）/ DT问题/ NN为/ VBD，/什么/ WP是/ VBP你/ PRP要去/ VBG到/剪切/ VB /？。（“DT”，“NN”，“VBD”，“，”，“WP”，“VBP”，“PRP”，“VBG”，“T0”，“VB”，“ “）在该特定示例期望输出是： DT NN VBD WP VBP PRP VBG TO VB