2012-12-15 29 views
0

我即将创建一个翻译站点(以PHP为单位),用户可以在其中指定翻译员翻译他们的文档。从网站上,人们可以上传文件,然后将其连接到网站的翻译员/成员。问题是我如何制作一个计算文档价格的应用程序。获取文档中的字数

评价翻译价格最常用的方法是每个单词。所以我需要知道客户上传的文档中有多少字。我认为必须有可能从文本文件(如word文档)中统计单词。但是,我找不到任何方法来获取ms word 2003文档(.doc)的确切数量。我找到了一种计算.docx的方法,但不是.doc。并且会有更多文件,例如PDF或rtf。

我见过另一种只计算文件大小的方法,但我不认为它会给出不同的文档格式相同的结果。或者它是? 我能想到的简单方法是让访问者在textarea上复制/粘贴文本,但我认为这不是最好的方法。

有人会给我一个建议,我该如何解决这个问题?

+0

如果你想做得很好,你将需要例程来打开每个文件的扩展名。在php中有api可用,应该能够从每种情况下提取文档中的文本,但是如果您希望“从每种类型的文档功能中获取文本”,则不会有这种情况。 – gview

回答

0

如果您是在* nix的服务器上运行您的网站,你可能想尝试以下操作:

$word_count = system("wc -w " . $filename); 

而且,是的,我已经导致相信它与.doc和.docx文件。 PDF的是一个完整的故事。我必须研究那个。