2016-11-26 64 views
-1

我正尝试将.doc文件格式转换成.html文件格式。我已经在Python中使用docx2html将.docx文件转换为.html,但是我在转换.doc格式文件时遇到了问题。我尝试使用Python中的子进程将.doc转换为.docx,但我使用的是MAC OS X,而子进程在MAC上无法使用。我的问题是,我应该只在Python中这样做。有没有办法做到这一点?谢谢使用Python将.doc转换为.html

P.S.我当我使用的子进程的文档转换为DOCX此错误:

File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/subprocess.py", line 522, in call 
return Popen(*popenargs, **kwargs).wait() 

File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/subprocess.py", line 710, in __init__ 
    errread, errwrite) 

File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/subprocess.py", line 1335, in _execute_child 
    raise child_exception 
OSError: [Errno 2] No such file or directory 
+1

为什么'subprocess'没有工作?在我的MAC OS X上很好,会发生什么?你可以使用旧的'os.system()',但'subprocess'是首选。 – cdarke

+0

Antiword似乎是读取.doc文件的Python程序包。 – cco

+0

@cdarke我编辑我的问题,并添加我使用子进程时得到的错误 – Minerva

回答

0

只需将您的DOC文件转换成docx.You可以使用这个HTML解析Python库,美味的汤。

或使用this 它将格式化的文本/文件文件转换为简单的HTML标记,保留粗体,斜体,链接和段落,但不为字体大小和面添加标签。正是我需要节省一些时间。

+0

谢谢,但你没完全读完我的问题吗?我可以将.docx转换为.html,但我无法将.doc转换为.docx。我尝试了一切,但没有成功! – Minerva

+0

哦,我明白了。你可以尝试我给你的替代解决方案。美丽的汤也很方便。 – Inconnu

+0

它是否也适用于doc文件? – Minerva