我真的有很多离线html文件,我需要从他们的姓名,地址等获得并创建CSV。HTML离线文件获取内容
我第一次尝试做巫婆批次 - 例如:
for /r %%i in (*) DO (
findstr /o "name" %%i >> results.txt
ECHO ; >> results.txt
findstr /o "STREET" %%i >> results.txt
ECHO ; >> results.txt
etc
ECHO xxxendlinexxx >> results.txt
)
它的工作原理,但给我的长文件有什么需要用正规表示努力工作......我想一定有更好的办法如何阅读HTML中的TAG内容。
我发现Python的HTML解析器:
from html.parser import HTMLParser
但我不知道热,以用于脱机文件和特定的标签(ID = “东西”)。我使用Google,在YouTube上观看内容,但我找不到容易理解的解决方案。
你能帮忙吗?最好的例子:
- 如何打开文件
- 如何查找特定标签内容
- 内容保存到另一个文件
谢谢你的帮助。
如果你不提供一个范例HTML文件所需的数据和你希望你的csv看起来像什么的例子,你如何期望我们创建一个合理的解决方案? – Compo