python-textprocessing

2热度

2回答

我必须阅读50 GB的文本文件。我必须对该文件进行一些处理。我无法下载文本文件，因为我正在进行远程服务器上的处理。是否有可能使用Python使用其URL流式传输文件的内容并逐行阅读？

-1热度

2回答

我开始对某些csv文档进行一些文本分析。然而，我的csv文档有几个句子，几乎没有什么词让我感兴趣，所以我想创建一个python代码来分析这个csv文档，只留下包含5个以上单词的句子供我分析，但是我不知道在哪里开始做我的代码，并希望得到一些帮助。例如：输入文档 enter image description here 输出文档 enter image description here

0热度

1回答

在Python中使用nltk模块拆分单词

我正在尝试查找使用nltk模块在Python中拆分单词的方法。鉴于我拥有的原始数据，我不确定如何达到我的目标。正如你可以看到很多单词粘在一起（即'到'和'产生'卡在一个字符串'toproduce'中）。这是从PDF文件中抓取数据的工件，我想找到一种方法，使用Python中的nltk模块来分割粘连在一起的单词（即将'toproduce'分成两个单词：'to'和'produce';将“标准操作程序”分

0热度

3回答

从我的字符串中剥离正确的浮点值

我正在使用python来处理pcap文件并将处理后的值输入到文本文件中。文本文件大约有8000行，有些时候，文本文件有7.70.582这样的字符串。在我对文本文件的进一步处理中，我将文件分割成几行，并提取每行中的每个浮点值。然后，我得到这个错误 ValueError: invalid literal for float(): 7.70.582 在这种情况下，我感兴趣的只是7.70，我需要避免第

0热度

1回答

文字处理 - 短语检测后的Word2Vec训练（bigram模型）

我想用更多的n-gram来制作word2vec模型。正如我发现的，gensim.models.phrase中的短语类可以找到我想要的短语，并且可以在语料库上使用短语并将其用于word2vec训练函数的结果模型。因此，首先我要做一些类似于下面的事情，完全像gensim documentation中的示例代码。 class MySentences(object): def __init__

1热度

2回答

根据字符宽度将字符串拆分为多行（python）

我正在通过PIL在基本图像上绘制文本。如果所有字符的合并宽度超过基础图像的宽度，则其中一个要求是溢出到下一行。当前我正在使用textwrap.wrap(text, width=16)来完成此操作。这里width定义了在一行中容纳的字符数。现在文本可以是任何东西，因为它是用户生成的。所以问题在于硬编码width由于字体类型，字体大小和字符选择而不会考虑width的变化。我的意思是？想象一下，我

-3热度

1回答

如何在上面显示文字？（Python）

我是一个Python初学者，可能它是一个简单的问题，但我真的陷入困境，需要帮助。我想让python在.txt文件中出现在另一个文本之上的文本。这里是我的代码 x = ''.join(random.choice(string.ascii_uppercase + string.ascii_lowercase + string.digits) for _ in range(5)) with open('

4热度

1回答

Lemmainser使用NLTK

我现在有这样的句子： text = "This is a car." 然后我用一个tokeniser，然后干它像这样： ps = PorterStemmer() text = word_tokenize(text) stemmed_words = [] for w in words: stemmed_words.append(ps.stem(w)) 不过，我现在想使用NLT

1热度

2回答

如何在python中实现语义标注？

语义注释是将附加信息附加到给定文本或任何其他内容中的各种概念（例如人物，事物，地点，组织等）的过程。例如，在语义上注释“亚里士多德，政治的作者，建立了莱西姆”这个句子中的选定概念意味着将亚里士多德认定为人和政治作为政治哲学的书面作品，并进一步对其进行索引，分类和相互链接在语义图数据库中识别的概念。语义注释的最初步骤是文本识别和分析可以完成的文本，但是进一步的步骤，即概念提取和文本的关系提取我坚

1热度

1回答

python在数据框中的快速文本处理

我正在研究python中的电子商务数据。我已经将这些数据加载到python中并将其转换为熊猫数据框架。现在，我想对数据执行文本处理，例如删除不需要的字符，停用词，词干等。目前我应用的代码工作正常，但需要很长时间。我有大约200万行数据需要处理，并且需要永久处理。我在10,000行上试过这个代码，花了大约240秒。我正在进行这种项目，这是第一次。任何减少时间的帮助都会很有帮助。在此先感谢。 fro