其他并行无限Java流内存不足

65.6k 2020-01-31 21:46

您说“ 但我不太清楚事物的评估顺序和发生缓冲的位置 ”，这正是并行流的含义。评估顺序不确定。

您的示例的一个关键方面是.limit(100_000_000)。这意味着该实现不仅可以求和任意值，还必须求和前100,000,000个数字。请注意，在参考实现中，.unordered().limit(100_000_000)不会更改结果，这表明无序情况没有特殊的实现，但这只是实现细节。

现在，当工作线程处理这些元素时，它们不能仅仅对其进行汇总，因为它们必须知道允许使用哪些元素，这取决于在其特定工作负荷之前有多少个元素。由于此流不知道大小，因此只有在处理了前缀元素后才能知道，而对于无限流则永远不会发生。因此，工作线程暂时保持缓冲状态，此信息变为可用。

原则上，当工作线程知道它正在处理最左边的工作块时，它可以立即求和，计数并在达到极限时发出结束信号。因此，Stream可能会终止，但这取决于很多因素。

在您的情况下，一个合理的情况是其他工作线程在分配缓冲区时比最左边的作业要快。在这种情况下，时间上的细微变化可能会使流偶尔返回一个值。

当我们减慢所有工作线程（除了处理最左边的块的那个线程之外）时，我们可以使流终止（至少在大多数运行中）：

System.out.println(IntStream
    .iterate(1, i -> i+1)
    .parallel()
    .peek(i -> { if(i != 1) LockSupport.parkNanos(1_000_000_000); })
    .flatMap(n -> IntStream.iterate(n, i -> i+n))
    .limit(100_000_000)
    .sum()
);

¹我遵循Stuart Marks的建议，在谈论相遇顺序而不是处理顺序时，请使用从左到右的顺序。

Thomas Ahle 2020-01-31 21:59:47

很好的答案！我想知道是否所有的线程都开始运行flatMap操作，而没有一个分配实际清空缓冲区（求和）的风险？在我的实际用例中，无限流是文件太大而无法保存在内存中。我想知道如何重写流以降低内存使用量吗？

Holger 2020-01-31 22:15:18

您正在使用Files.lines(…)吗？在Java 9中已对其进行了重大改进。

Holger 2020-01-31 22:46:36

这就是在Java 8中所做的事情。在较新的JRE中，BufferedReader.lines()在某些情况下（它不是默认的文件系统，特殊的字符集或大于的大小Integer.MAX_FILES），它仍然会使用。如果其中一种适用，那么定制解决方案可能会有所帮助。值得进行新的问答。

Holger 2020-01-31 22:54:45

Integer.MAX_VALUE，当然…

Holger 2020-02-01 00:36:35

什么是外部流，文件流？它有可预测的大小吗？

其他 - 并行无限Java流内存不足

相关问题

热门github