url <-"http://news.chosun.com/svc/content_view/content_view.html?contid=1999080570392"
hh = read_html(GET(url),encoding = "EUC-KR")
#guess_encoding(hh)
html_text(html_node(hh, 'div.par'))
#html_text(html_nodes(hh ,xpath='//*[@id="news_body_id"]/div[2]/div[3]'))
我试图抓取新闻数据(只是为了练习)在河中的R - 与rvest爬行 - 用失败HTML_TEXT使用rvest功能
当我试图让在HTML标签的文本它在上面的主页上,我没有从网页上获取文本。 (Xpath也不工作)
我不认为我没有找到包含我想要在页面上获得的文本的链接。但是,当我尝试使用html_text函数从该链接中提取文本时,它将被提取为“”或空格。
我找不到原因..我没有任何HTML和爬行经验。
我猜的是包含新闻正文上下文的HTML标签,有“class”和“data-dzo”(我不知道它是什么)。
因此,如果有人告诉我如何解决它或让我知道我可以在谷歌上找到的搜索关键字来解决这个问题。
感谢您对您的技术帮助和谨慎的建议。两者都非常有帮助。我会特别注意你的预防措施。再次感谢你。 –