我需要创建PDF的内容。创建PDF的内容
Q
创建PDF的内容
-2
A
回答
0
您可以使用collections.Counter
跟踪字数。我将使用正则表达式来捕获页面上的所有单词,将每个单词添加到计数器,然后转到下一页。您可以为每个单词同时保留查找索引,然后过滤常用单词(counter[word] > threshold
),或者可以再次运行文档,仅构建常用单词的索引。
a)这将会有点慢 b)你必须处理像'a','','和'等单词,以确保这些不被计数。
1
如果你所有的文本都是Python中的字符串(我假设你是因为你的相关文章而做的),那么你可以使用Python的Natural Language Toolkit。你可以下载它from here。
实施例:
import nltk, re, pprint
from nltk import FreqDist
tokens = nltk.word_tokenize(pdf_text)
text = nltk.Text(tokens)
fdist = FreqDist(text)
vocabulary = fdist.keys()
print vocabulary[:50] # Print the 50 most common words
1
使用
pdftotext
(随xpdf
)转储PDF文件到一个文本文件。您可以使用subprocess.call
通过Python脚本来调用它。使用
collections.Counter.most_common
或ntlk
找到最常用的词:import collections keywords = collections.Counter(open(<...>).read()).most_common(20)
相关问题
- 1. 的iOS创建动态内容PDF
- 2. iOS从UIWebview内容创建pdf
- 3. iOS - 从HTML内容创建多页PDF
- 4. Joomla 3.0+从HTML内容创建PDF
- 5. 从RecyclerView完整内容创建PDF?
- 6. PDF内容不足以重建PDF?
- 7. 限制PDF的内容使用droidtext创建的单页
- 8. 如何创建钛的webview内容的PDF文件
- 9. 使用jsPDF创建的pdf中的重复内容
- 10. 使用iTextSharp在创建的PDF中不显示任何内容?
- 11. 通过iText创建带有0kb和无内容的.pdf文件
- 12. 使用xmlworker创建PDF时在新页面中的内容
- 13. 从Excel的内容创建Word/PDF文件
- 14. itext基于现有的已改变内容创建pdf
- 15. 用数据库中的内容创建PDF文件
- 16. 输出PDF文件的内容,而无需创建文件
- 17. 防止用dompdf创建的pdf中复制内容
- 18. 创建内容块?
- 19. 创建输出的内容
- 20. 的JavaScript创建内容
- 21. Base64 PDF内容为PDF
- 22. 发送Html内容到服务器创建PDF Angular 2
- 23. 如何从PDF创建可重排内容?
- 24. 如何在android中创建PDF并添加内容usnig iText库...?
- 25. 使用TCPDF和特定div创建PDF作为内容
- 26. 如何使用eclipse在pdf中创建波斯语内容
- 27. 通过将HTML内容传递给方法来创建PDF
- 28. iText5:创建PDF时,标题内容将出现两次
- 29. 创建PDF应用程式内的iPad
- 30. JavaFX - IText - 创建PDF时创建PDF
对我来说,这仍然看起来像http://stackoverflow.com/questions/6822884/how-do-i-index-pdf-files-and-search-for-keywords的副本。它有什么不同? – katrielalex