-1
HTML文件中提取文本我有一个脚本:从使用bash
cd ../data;
dossier=$(ls crawl);
let "compte = 1";
for file in $dossier
do
lynx --dump --nolist $file >> ../data/txt/$compte'.txt';
let "compte = compte + 1";
done
我使用lynx
检索来自我所有的HTML文件中的文本,但问题是,当我打开我的文本文件,它被写入即:
410 GONE
This doesn't exist any more. Try html.com.
我不知道为什么,因为当我在终端和我的检索文件夹,我执行每个HTML文件山猫转储和它产生的文本文件,但是当我想用它与脚本读取我所有的HTML文件并使用它们上的lynx
resu他们不好。
谢谢;你是对的! – kely789456123