温馨提示:本文翻译自stackoverflow.com，查看原文请点击：其他 - How to control the number of Hadoop IPC retry attempts for a Spark job submission?

apache-spark hadoop

其他 - 如何控制Spark作业提交的Hadoop IPC重试次数？

发布于 2020-04-08 10:19:00

假设我尝试在没有有效的Kerberos凭据的情况下将Spark（2.4.x）作业提交给Kerberized群集。在这种情况下，Spark启动器会反复尝试启动Hadoop IPC调用，但失败：

20/01/22 15:49:32 INFO retry.RetryInvocationHandler: java.io.IOException: Failed on local exception: java.io.IOException: org.apache.hadoop.security.AccessControlException: Client cannot authenticate via:[TOKEN, KERBEROS]; Host Details : local host is: "node-1.cluster/172.18.0.2"; destination host is: "node-1.cluster":8032; , while invoking ApplicationClientProtocolPBClientImpl.getClusterMetrics over null after 1 failover attempts. Trying to failover after sleeping for 35160ms.

这将重复多次（在我的情况下为30次），直到最终启动器放弃并认为作业提交失败。

各种其他类似的问题都提到了这些属性（实际上是YARN属性，但spark.根据将它们传递给Spark应用程序的标准机制以前缀）。

spark.yarn.maxAppAttempts
spark.yarn.resourcemanager.am.max-attempts

但是，这些属性都不会影响我正在描述的行为。如何控制Spark作业提交中IPC重试的次数？

提问者

Jeff Evans

被浏览

189

查看英文版

查看原文

Jeff Evans 2020-02-01 05:49

经过大量调试，我弄清楚了此处涉及的属性。

yarn.client.failover-max-attempts （控制最大尝试次数）

如果没有指定，尝试次数似乎来自这两个属性的比率（分子优先，分母次之）。

yarn.resourcemanager.connect.max-wait.ms
yarn.client.failover-sleep-base-ms

当然，与任何YARN属性一样，这些属性必须spark.hadoop.在Spark作业提交的上下文中带有前缀。

相关类（解析所有这些属性）RMProxy在Hadoop YARN项目中（在此处提供源）。所有这些以及相关的属性都记录在这里。

相关问题

1

在Spark SQL中应用to_date（）和add_months函数时出错

2

使用ArrayType列将UDF重写为pandas udf

3

如何在Spark集群上运行C算法？

4

Delta Lake的VACUUM操作是否需要始终启用Databricks集群？

5

将值添加到Spark DataFrame列中的现有嵌套json中

6

使用PySpark合并没有重复的Spark模式？

7

Pyspark：提取数据框的行，其中值包含字符串

8

具有窗口功能的PySpark数据偏度

9

如何在Apache-Spark中连接主机和从机？

10

AWS EMR上的spark-submit运行但在访问S3时失败

热门github

1

real time face swap and one-click video deepfake with only a single image

2

A quick example of how one can "synchronize" a 3d scene across multiple windows using three.js and localStorage

3

ChatGPT DAN, Jailbreaks prompt

4

21 Lessons, Get Started Building with Generative AI 🔗 https://microsoft.github.io/generative-ai-for-beginners/ (翻译：12 节课程，开始使用生成式 AI 进行构建)

5

Curated list of project-based tutorials (翻译：收藏了基于项目的教程列表)

6

Truly independent web browser

7

Python - 100天从新手到大师

8

An open source payments switch written in Rust to make payments fast, reliable and affordable (翻译：YOLOv8 🚀 in PyTorch > ONNX > CoreML > TFLite)

9

Agent S: an open agentic framework that uses computers like a human

10

Master programming by recreating your favorite technologies from scratch. (翻译：在这个项目中，你能学会如何创造自己的各种工具，引擎，游戏，框架，库......)

11

Jelly Evolution Simulator

12

Collection of leaked system prompts

13

🤯 Lobe Chat - an open-source, modern-design AI chat framework. Supports Multi AI Providers( OpenAI / Claude 3 / Gemini / Ollama / DeepSeek / Qwen), Knowledge Base (file upload / knowledge management / RAG ), Multi-Modals (Plugins/Artifacts) and Thinking. One-click FREE deployment of your private ChatGPT/ Claude / DeepSeek application. (翻译：LobeChat 是开源的高性能聊天机器人框架，支持语音合成、多模态、可扩展的（Function Call）插件系统。)