text-analysis

    1热度

    1回答

    下面是我的数据框的样子,你会看到我的一个dataframe列是URL,其他的是timestamp count。当我运行此代码时:busiest_hosts[busiest_hosts['host'].str.contains('***.novo.dk')==True]我收到错误:error: nothing to repeat at position 0。我认为这是因为我的网址的第一个元素是*。它

    0热度

    1回答

    我有一个txt文件夹的文件夹,我想把它作为变量导入python。理想情况下,我想要一个变量'profession_texts',其中每个txt文件都是列表中的一个元素。这是我的时刻: import os profession_folder_path = '../fp/Updated/Profession/' profession_files = os.listdir(profession_fo

    -1热度

    1回答

    我正在尝试创建以熊猫数据框的形式表示的文档术语矩阵。这是我到目前为止的代码: df_profession['Athlete_Clean'] = df_profession['Athlete Biographies'].str.lower() df_profession['Athlete_Clean'] = df_profession['Athlete_Clean'].apply(lambda x

    0热度

    1回答

    我正在对我的文本语料库进行bigram分析。我的特征向量是一组预定义的bigram和unigram令牌。 特征向量 =(地理位置好,坏的经验,干净,友善,整洁,优良的,美丽的地方) 我的文字:位置好,但不友好的工作人员。 清理文字:位置好不友好的工作人员。 我使用上面的字典和清理文本创建了一个tdf,但“位置好”的bigram没有给出“1”。 但是,当我将清理后的文本更改为“位置不友好的员工”时。

    0热度

    3回答

    第一次在这里发表。我希望在文本分析方面我可以找到一些我想要完成的事情。 首先,我在python中这样做,并希望保留在Python中,因为这个函数将成为一个更大,否则我很满意的健康工具的一部分。我有NLKT和Anaconda也都建立了,所以利用这些资源也是可能的。 我一直在研究一个工具,用于跟踪和添加大块文本中城市名称的引用。例如,该工具可以计算在文本块中检测到“芝加哥”,“纽约”或“洛杉矶”,“旧

    0热度

    1回答

    我是一个绝对的Python初学者。我正在对希腊语剧本进行文本分析并计算每个单词的单词频率。由于游戏时间很长,我无法看到我的全套数据,它只显示频率最低的单词,因为Python窗口中没有足够的空间。我正在考虑将其转换为.csv文件。我的完整代码如下: #read the file as one string and spit the string into a list of separate wor

    0热度

    1回答

    我试图运行一个示例应用程序,该应用程序获取Microsoft认知服务Text Analytics API的主题端点,但函数返回400 HTTP错误。 下面是代码: static async Task<string> CallTopicEndpoint(HttpClient client, string uri, byte[] byteData) { using (var content

    3热度

    1回答

    还有什么其他技术可用于查找text中确定的最短字符串,在确定的position处唯一,除了通过向position处的字符递增添加字符的蛮力以及检查唯一性? 为了更好地解释, text = "word1 word2 word3" 如果position = 9(在WORD2 R); shortest_unique_at_pos = "rd2"。 小观察,如果position = 13(w在word

    1热度

    2回答

    您好我正在尝试使用python 2.x中的Naive Bayes分类器进行情感分析。它使用txt文件读取情绪,然后根据示例txt文件情绪给出正面或负面的输出。 我希望输出与输入相同,例如我有一个文本文件让我们可以看到1000条原始情绪,我希望输出对每个情绪都显示正面或负面。 请帮忙。 下面是我使用 import math import string def Naive_Bayes_Class

    0热度

    1回答

    我正在尝试计算所有行中的部分语音标签并对其进行总结。 现在我达到了两个输出: 1)/ DT问题/ NN为/ VBD,/什么/ WP是/ VBP你/ PRP要去/ VBG到/剪切/ VB /?。 (“DT”,“NN”,“VBD”,“,”,“WP”,“VBP”,“PRP”,“VBG”,“T0”,“VB”,“ “) 在该特定示例期望输出是: DT NN VBD WP VBP PRP VBG TO VB