假设我有以下DOM结构以网页 <html>
<body>
<div id="id1">Hello, this is div 1</div>
<div>This is div 2</div>
<div>And, this is div 3</div>
</body>
</html>
正如你可以看到,第一div具有ID1,但第二div的id
我知道我可以做UUID.randomUUID.toString来为我的Dataset中的每一行附加一个ID,但是我需要这个ID是一个Long,因为我想使用GraphX。我如何在Spark中做到这一点?我知道Spark有monotonically_increasing_id(),但那仅适用于DataFrame API - 数据集的情况如何?