bigdata

1热度

1回答

我们正在使用sqoop将数据从Oracle数据库提取到HDFS。人们用来定期更新和添加新的行到SQL表中。我知道sqoop递增进口--append和--last modified选项。我的问题是我们是否可以在同一个import语句中使用这两个选项？例如， sqoop --incremental import --lastmodified --append --check-column 'las

-4热度

1回答

通过http流式传输大量数据

我需要阅读大约数百万xml（大约几gbs ）并通过http以低延迟时间通过rest GET调用流式传输它们。用java和/或开源工具来实现这个选项有什么选择。谢谢

1热度

1回答

在Apache Spark中更改分隔符

我是Apache Spark新手，我希望能够读取XML文件并计算每个标题的字数。 XML文件是这样的： <title>first title</title> <words>there are seven words in this example</words> <title>second title</title> <words>there are more words here, ten

0热度

1回答

使用模糊匹配重复数据删除流处理的最佳做法

我正在设计一个以读取的平面文件开始的数据管道。文件中的每一行都是单个记录。加载之后，每个记录都将被解析，转换和丰富。这发生与其他记录无关。作为最后一步，我想基于几个记录的字段的模糊匹配来重复记录记录。要做到这一点，我想获得2记录的所有组合。当前我使用sql表作为缓冲区。我的表中包含的所有记录，我加入了表本身，on即键不同的条件，并在名称模糊匹配与sounds like： CREATE TAB

-1热度

2回答

经常更新Amazon S3上的大型JSON文件和潜在的写入冲突

我首先想对我试图解决的问题进行一点概述。我的服务经常从Instagram，Twitter等不同来源获取帖子，我想将帖子存储在S3上的一个大型JSON文件中。文件名将如下所示：{slideshowId}_feed.json 我的网站将以幻灯片形式显示帖子，幻灯片将每分钟轮询一次S3文件以获取最新数据。它甚至可能轮询另一个文件，例如{slideshowId}_meta.json，它具有时间戳，从大文件

3热度

1回答

Bigtable性能影响列族

我们目前正在研究使用多个列族对我们的bigtable查询性能的影响。我们发现将列拆分成多个列族不会提高性能。有没有人有过类似的经历？关于我们的基准设置的更多细节。此时，我们生产表中的每行包含大约5列，每列包含0.1到1 KB的数据。所有列都存储在一个列族中。在执行行键范围过滤器（平均返回340行）并应用列正则表达式过滤器（每行只返回1列）时，查询平均需要23,3ms。我们创建了一些测试表，我们将

-1热度

1回答

处理1000万个数据集-php and sql

我们使用PHP 7，并在只有128 MB RAM的Web服务器上运行MySQL数据库。我们在处理大量数据集时遇到了问题。简单描述：我们有40,000个产品，我们希望收集这些产品的数据以找出是否需要更新。从另一个具有10百万个数据集的表中收集特定数据的查询需要1.2秒，因为我们有一些SUM函数。我们需要为每个产品单独进行查询，因为与SUM相关的时间范围有所不同。由于大量的查询，应该遍历所有产品的

1热度

1回答

我可以从自定义web应用程序访问HDFS文件

我有一个要求，我需要设置hadoop来保存文件，而不仅仅是文本文件，它可以是图像视频pdf。并且会有一个Web应用程序，用户可以根据需要添加文件和访问文件。它可以实现吗？ Web应用程序也需要由我来开发。谢谢。

0热度

2回答

存储和查询大量数据

我想要分析ML的目的，我在csv中有大量值大约50GB的数据。然而，要适应Python，这是一个很大的方法。我最好希望使用mySQL，因为查询更容易。任何人都可以提供一些技巧供我研究。这一点可以从任何东西：如何将其存储在首位，我知道我可能无法一次全部加载它，我会做反复？如果是的话，我可以为此考虑些什么？另外我听说过索引，这是否真的会加快对如此庞大数据集的查询？是否有更好的技术来处理这些数据，并

1热度

1回答

插入大量数据的数据库PHP

我想插入约19000数据到MySQL数据库和PHP，但随着负载页面或cron作业只增加了大约2000年，我怎么可以将所有数据 foreach($inventories as $item){ $this->model->AddInventory($item); }