我想使用C#提取MS Office文件的内容。 例如:我想打开一个doc/docx/xls/xlsx/ppt/pptx并且能够提取文本和信息,例如(页数 - 单词,页数 - excel,幻灯片数 - ppt,数字图表 - excel,图片数量 - powerpoint等等)等等)。 我意识到我可以使用Windows iFilter提取文本。但是这只给了我文字。任何人都知道可以给我这种信息的DLL或东西?如果没有,是否有任何网站可以详细解释办公室xml文件的骨架?提取MS Office属性
-1
A
回答
1
对于DOCX/XLSX/PPTX MS报价一个免费的图书馆叫做OpenXML SDK,你可以用它来实现你所要求的...
对DOC/XLS/PPT(年长/二进制)我不知道一个免费图书馆 - 有支持此部分商业库:
- Aspose.Words(DOC和DOCX)
- Aspose.Cells(XLS和XLSX)
- Flexcel(XLS和XLSX)
- SpreadSheetGear(XLS和XLSX)
- Aspose.Slides(PPT和PPTX)
- Spire.Office(DOC和DOCX以及XLS和XLSX)
商业库通常提供了非常丰富的功能 - 例如导出为PDF ...
1
办公室XML格式如下解释:
http://msdn.microsoft.com/en-us/library/aa338205(v=office.12).aspx
这是值得一读维基百科的文章潜水前确定自己的方位在
相关问题
- 1. 如何提高VSTO2SE MS Office加载项的冷启动性能?
- 2. MS Office Add On
- 3. MS Office Javascript API
- 4. MS Access Permissions(MS Office 2010)
- 5. 获取的MS Office的applicationID编程
- 6. 提取Wix对象属性
- 7. BeautifulSoup - 提取属性值
- 8. 提取2个属性值
- 9. 提取属性值,LXML
- 10. 提取属性,其与BeautifulSoup4
- 11. [R webcorpus属性提取
- 12. 提取HTML5数据属性
- 13. 提取HTML元素属性
- 14. 提取评论属性()
- 15. 提取字符串属性
- 16. 属性提取值随SPARQL
- 17. 使用simplexml_load_string提取属性
- 18. 提取物的属性
- 19. 使用Xpath提取属性
- 20. 跨模型提取属性
- 21. R:提取lm()属性
- 22. MS Office PIA“向后兼容”
- 23. MS Office Firefox插件(NPAPI)
- 24. Excel MS Office-月份日期
- 25. ms office文件扩展名
- 26. 将MS-Office转换为pdf
- 27. 带MS Office 2010的PowerBuilder 10.5
- 28. MS Office Automation使用PublishObjects.Add
- 29. 的MS Office 2007+与IE7 +
- 30. Diagraming MS Office对象模型
这也许是个不错的选择。也许我可以通过编程将文档更改为docx,然后调用OpenXML SDK。 – nunoaac 2012-03-23 10:22:43