好吧,我有这个HTML文件,其中包含许多div标签和表标签。 div标签包含与其他div标签部分相关的id,但在每个div标签部分之后是包含我需要的数据的表格部分。我希望能够获取这个HTML文件并创建数组,列表,字典等...某种结构,以便我可以轻松搜索相关信息并从中提取我需要的信息。如何使用python从非结构化的HTML中创建结构化阵列
HTML文件中whats的示例。
<DIV class="info"> <A name="bc968f9fa2db71455f50e0c13ce50e871fS7f0e"
id="bc968f9fa2db71455f50e0c13ce50e871fS7f0e">
<B>WORKSPACE_WEBAPP</B> (WORKSPACE_WEBAPP)<BR/> <B>Object ID:
</B> bc968f9fa2db71455f50e0c13ce50e871fS7f0e<BR/> <B>Last
Modified Date : </B> 26-Sep-13 10:41:13<BR/>
<B>Properties:</B><BR/> </DIV>
<TABLE class="properties"> <TR class="header"><TH>Property
Name</TH><TH>Property Value</TH></TR>
<TR><TD>serverName</TD><TD>FoundationServices0</TD></TR>
<TR><TD>context</TD><TD>workspace</TD></TR>
<TR><TD>isCompact</TD><TD>false</TD></TR>
<TR><TD>AppServer</TD><TD>WebLogic 10</TD></TR>
<TR><TD>port</TD><TD>28080</TD></TR>
<TR><TD>maintVersion</TD><TD>11.1.2.2.0.66</TD></TR>
<TR><TD>version</TD><TD>11.1.2.0</TD></TR>
<TR><TD>SSL_Port</TD><TD>28443</TD></TR>
<TR><TD>instance_home</TD><TD>/essdev1/app/oracle/Middleware/user_projects/epmsystem1</TD></TR>
<TR><TD>configureBPMUIStaticContent</TD><TD>true</TD></TR>
<TR><TD>validationContext</TD><TD>workspace/status</TD></TR> </TABLE>
所以我希望能够为这些div部分创建一个数组,并且还包含该表中的区域以及该数组中的属性。我无法将自己的头围绕在最好的方式去做。我知道答案可能包含使用BeautifulSoup解析标签。由于没有其他方式将表格部分与div部分关联起来,我相信我必须一次加载一行文件并以此方式处理文件,除非有更简单的方法?任何想法都会非常有帮助。
你看了一下[在Python中解析HTML](http://stackoverflow.com/questions/11709079/parsing-html-python)? – Huey
是的,我读过这个和许多其他的python HTML解析指南。我想我最大的问题是如何控制阅读div标签部分,然后阅读它的关联表部分,然后移动到下一个div标签部分和表部分,直到整个文件被解析。 – todd1215
您可以在阅读后删除div标签,然后查找下一个标签,直到找不到更多标签为止? – Huey