将HTML文档自动分割为许多HTML文档

我有一个网页，其中包含content for 260 news articles。我需要单独的HTML文件中的每篇文章。而不是复制和粘贴每个这些内容块（我已经预先使用jQuery格式进行复制/粘贴 - 它最初是一个XML文件）手动到新文件中，是否有一种方法可以自动执行此操作？请有人告诉我有一种方法。将HTML文档自动分割为许多HTML文档

来源

2014-07-22 danfo

您需要查看文件对象 – mplungjan

应该是你可以用任何脚本语言轻松烹饪的东西。看起来每篇新文章都以“--- \ nTitle”开头。所以，只需要逐行读取源文件，每当遇到“--- \ nTitle”时打开一个新的输出文件，并将这些行写入当前输出文件。

来源

2014-07-22 18:58:19 mti2935

好吧，如果它开始为XML，那么你可以很容易使用XSLT 2.0拆呢：

<xsl:template match="article"> 
    <xsl:result-document href="article{position()}.xml"> 
    <xsl:copy-of select="."/> 
    </xsl:result-document> 
</xsl:template>

在匹配模式是什么特点，标志着你的文章边界的元素。更好的做法是使用XML结构将其转换为纯文本，然后对其进行处理。

来源

2014-07-22 20:37:40

将HTML文档自动分割为许多HTML文档

回答

相关问题