我想从许多HTML文件中读取并显示标题(包含在h1标记中)的内容。这些文件都在同一个文件夹中。阅读和编码html
这是HTML文件的样子:
<!DOCTYPE html PUBLIC '-//W3C//DTD HTML 4.01//EN'>
<html>
<head>
<title>A title</title>
<style type='text/css'>
... Styles here ...
</style>
</head>
<body>
<h1>Être aidant</h1>
<p>En général, les aidants doivent équilibrer...</p>
... more tags ...
</body>
我试图用这个PHP脚本来显示从H1标签的内容:
<?php
foreach (glob("test/*.html") as $file) {
$file_handle = fopen($file, "r");
$doc = new DOMDocument();
$doc->loadHTMLfile($file);
$title = $doc->getElementsByTagName('h1');
if ($title && 0<$title->length) {
$title = $title->item(0);
$content = $doc->savehtml($title);
echo $content;
}
fclose($file_handle);
}
?>
但输出包含错误的字符。对于示例文件,输出为:
Être aidant
如何实现此输出?
Être aidant
文件是否保存为UTF8?您是否尝试将字符串转换为https://secure.php.net/manual/en/function.fopen.php#104325 – x29a