我总共有900个“.txt”和“.htm”文档。每个文件有4段。每份文件都有一个理由说明公司为什么从交易中除牌。我只需要从所有文件中找出原因。公司暂停的原因通常是在“因为”和“为”之类的词之后。我如何从python的所有文档中挖掘原因?我是python的新手,任何帮助将不胜感激使用Python进行文本挖掘
-1
A
回答
0
如果文档https://www.crummy.com/software/BeautifulSoup/bs4/doc/
:是纯粹的文本文件不包括HTML标记,如果你想解析HTML内容,这可能会围绕提取的原因进行更有条理,看看BeautifulSoup那么基本的正则表达式会做你的工作。
正则表达式示例(?<=This is)(.*)(?=sentence)
试试您的正则表达式在线python在这里:https://regex101.com/
+0
Hi @Fabien,他们是没有html内容的普通文件。如果可能,你能提供一个示例代码吗? –
+0
是的,我更新了我的答案。 – Fabien
1
如果你知道暂停遵循特定的话,那么这可以用正则表达式来完成。我在几分钟内为你做了一些示例代码。对于初学者,在下面的代码中开始学习你不知道的内容。
from os import listdir
import re
for filename in listdir(directory): # directory = filepath to directory
with open(filename, "r") as file: # where your documents are located at
contents = file.read()
possibleSuspension = re.findall(r'(because of)[\w, ]*', contents)
相关问题
- 1. 使用PHP进行文本挖掘
- 2. 使用Python进行数据挖掘
- 3. 文本挖掘:在Python
- 4. 使用rapidminer进行Web使用挖掘
- 5. 如何使用文本挖掘进行文档分析?
- 6. 使用Sql Server进行数据挖掘
- 7. 使用requireJS进行挖掘映射
- 8. 使用Neo4j进行数据挖掘
- 9. 使用Solr和Hadoop进行文本挖掘
- 10. 使用tm-package进行文本挖掘 - 词语词干
- 11. 使用scikit进行文本挖掘的SVM
- 12. Python,文本挖掘,docx到表(CSV)
- 13. 使用R将PDF文件转换为文本文件进行文本挖掘
- 14. 中文文本挖掘
- 15. 文本挖掘与R:使用子
- 16. python数据挖掘
- 17. [R文本挖掘问题
- 18. stemDocument [R文本挖掘
- 19. 文本挖掘中的R
- 20. 挖掘维基百科映射文本挖掘关系
- 21. 的Oracle SQL导航数据挖掘文本挖掘
- 22. 文本挖掘单个文本文档
- 23. Twitter挖掘使用流式API,python
- 24. 在vba/excel中进行文本挖掘的有效方法
- 25. R采用量化的文本挖掘
- 26. 将R用于文本挖掘Reuters-21578
- 27. 如何在TermDocumentMatrix中使用正则表达式进行文本挖掘?
- 28. 将两列文本文档转换为单行文本挖掘
- 29. 我想挖掘使用TouchAction
- 30. 是否可以通过Python进行HTML抓取,数据挖掘?
首先测试你的假设。由于“* .txt |”运行类似'grep -v“的内容wc -l'来计算不包含“因为”短语的文本文件的数量。依靠像“as”这样的短语可能是一个坏主意。 – Jedi