从使用bash

-1

HTML文件中提取文本我有一个脚本：从使用bash

cd ../data; 
dossier=$(ls crawl); 

let "compte = 1"; 

for file in $dossier 
do 

lynx --dump --nolist $file >> ../data/txt/$compte'.txt'; 

let "compte = compte + 1"; 
done

我使用lynx检索来自我所有的HTML文件中的文本，但问题是，当我打开我的文本文件，它被写入即：

410 GONE 

This doesn't exist any more. Try html.com.

我不知道为什么，因为当我在终端和我的检索文件夹，我执行每个HTML文件山猫转储和它产生的文本文件，但是当我想用它与脚本读取我所有的HTML文件并使用它们上的lynx resu他们不好。

来源

2017-01-01 kely789456123

你需要协议和（不确定这个）路径。例如：

lynx -dump file:///where/my/file/is/file.html

来源

2017-01-01 12:57:01 fernand0

谢谢;你是对的！ – kely789456123

回答

相关问题