2017-01-01 22 views
-1

HTML文件中提取文本我有一个脚本:从使用bash

cd ../data; 
dossier=$(ls crawl); 

let "compte = 1"; 

for file in $dossier 
do 

lynx --dump --nolist $file >> ../data/txt/$compte'.txt'; 

let "compte = compte + 1"; 
done 

我使用lynx检索来自我所有的HTML文件中的文本,但问题是,当我打开我的文本文件,它被写入即:

410 GONE 

This doesn't exist any more. Try html.com. 

我不知道为什么,因为当我在终端和我的检索文件夹,我执行每个HTML文件山猫转储和它产生的文本文件,但是当我想用它与脚本读取我所有的HTML文件并使用它们上的lynx resu他们不好。

回答

0

你需要协议和(不确定这个)路径。例如:

lynx -dump file:///where/my/file/is/file.html 
+0

谢谢;你是对的! – kely789456123