我有一个pdf文件列表,其中包含不同数量的页面和演示文稿。 每个文件都包含我需要提取的信息列表。但问题是信息被包装在不同类型的短语和句法中。 我需要知道如果我需要建立一台机器学习做这个,如果这是算法和技术适合我的情况。 注:我有一个庞大的pdf文件数据集来训练模型。机器学习:从文件列表中提取关键字
回答
所以如果你想在Python中做到这一点,似乎PyPDF2是要走的路。您应该能够阅读并从PDF中提取所需的文本数据。 Automate the boring stuff有使用PyPDF2的例子。
我使用pypdf2与ocr结合使用,因为我扫描了pdf以从pdf文件中获取文本。我关心的是如何从本文中提取一些信息,如公司名称,频率,模块名称等。这些信息被包装在不同的上下文和短语中。我的pdf也是由表格构成的,我无法在文本转换后变得格式良好。 – abderr080
上下文和短语是否有一些基础结构?如果你自己无法辨别数据的底层结构,我不确定你可以写些什么。有没有一种方法可以使用正则表达式来搜索公司名称和其他东西? – Fruitspunchsamurai
感谢您的回复。我想我现在要搜索数据的结构。我认为Tabula可能对表格分析有很好的帮助。 – abderr080
- 1. 机器学习,从字符串中提取信息
- 2. 使用NLP或机器学习来提取关键字把句子
- 3. 自动/机器学习工具从文本中提取分类/上下文
- 4. 如何使用机器学习从文档中提取更大的文本块?
- 5. 从文章中提取关键字
- 6. 机器学习 - 从一个文档
- 7. 关于机器学习,统计学习算法
- 8. 机器学习在Python:scikit学习/ Pybrain
- 9. 深度学习与机器学习
- 10. 学习Java,使用synchronized关键字
- 11. 机器学习,Python
- 12. 机器学习udacity
- 13. Bot中的机器学习
- 14. GATE中的机器学习
- 15. Weka机器学习:ARFF文件:多重关系
- 16. 关于weka的机器学习教程
- 17. 机器学习:转换数组到字典列表
- 18. Python找到,从列表中提取关键字循环
- 19. 从Excel或Google电子表格列中提取关键字
- 20. 从列表中提取关键字,然后使用`和`
- 21. 机器学习形状和类型的机器学习
- 22. 用于学习字符串模式的机器学习技术
- 23. 关键字提取软件
- 24. 机器学习 - 通过示例学习文件格式的软件
- 25. 学习C++ - 从文件中读取数字
- 26. 正则表达式从推文中提取关键字
- 27. 机器学习 - 感知器
- 28. 学习机器学习的先决条件是什么?
- 29. 如何使用机器学习从音频片段中提取人声?
- 30. 从RandomForest提取知识(scikit学习)
您的问题是简单地提取信息还是一经提取就分析?如果后者是这种情况,你的分析的目的是什么?没有这些信息,任何人都无法指导你。另外提及你迄今为止提取文本所尝试的内容。 – Fruitspunchsamurai
现在我只需要提取这些信息。 – abderr080
您能举一个例子来说明您的问题中数据的结构吗?根据数据的结构,你可以使用[Tabula](http://tabula.technology/)。 – Fruitspunchsamurai