我正在调查分块我的数据源优化数据导入到solr,并想知道是否有可能使用分段数据的主要URL。Solr DataImportHandler Chunked UrlDataSource
例如文件1可以
<chunks>
<chunk url="http://localhost/chunker?start=0&stop=100" />
<chunk url="http://localhost/chunker?start=100&stop=200" />
<chunk url="http://localhost/chunker?start=200&stop=300" />
<chunk url="http://localhost/chunker?start=300&stop=400" />
<chunk url="http://localhost/chunker?start=400&stop=500" />
<chunk url="http://localhost/chunker?start=500&stop=600" />
</chunks>
与每个块的URL导致类似
<items>
<item data1="info1" />
<item data1="info2" />
<item data1="info3" />
<item data1="info4" />
</iems>
我与500+万条记录工作,所以我认为,数据将需要被分块以避免内存问题(在使用SQLEntityProcessor时遇到这个问题)。我也想避免500+百万网页请求的,可以让贵我觉得