我的网站流量。如何解析HTML节点
- 通过身份验证的用户将上传docx。
- 我使用
OpenXmlPowerTools
API转换这个DOCX为HTML - 保存文件
- 保存HTML页面的各个节点到数据库中。
数据库: -
tblNodeCollection
- 的NodeId
- 节点类型(预期值 -
<p>
,<h1>
,<h3>
,<table>
) - NodeContent(期望值 -
<p> This is p content </p>
直到步骤#3没有问题。但我是无知关于如何将节点集合保存到表中。
我使用谷歌搜索&找到HTMLAgiiltiyPack
但对此知之甚少。
using DocumentFormat.OpenXml.Packaging;
using HtmlAgilityPack;
using OpenXmlPowerTools;
namespace ExportData
{
public class ExportHandler
{
public void GenerateHTML()
{
byte[] byteArray = File.ReadAllBytes(@"d:\test.docx");
using (MemoryStream memoryStream = new MemoryStream())
{
memoryStream.Write(byteArray, 0, byteArray.Length);
using (WordprocessingDocument doc =
WordprocessingDocument.Open(memoryStream, true))
{
HtmlConverterSettings settings = new HtmlConverterSettings()
{
PageTitle = "My Page Title"
};
XElement html = HtmlConverter.ConvertToHtml(doc, settings);
File.WriteAllText(@"d:\Test.html", html.ToStringNewLineOnAttributes());
}
}
//now how do I proceed from here
}
}
任何类型的帮助/指导高度赞赏。
我们可以问*为什么*你试图将节点保存在数据库中?为什么不保存整个XML并在需要时解析并处理它? – Clint
@Clint No.
该网站有很多其他的东西与每个节点。 –
任何可能的背景?它可能完全决定最佳解决方案。 – Clint