首頁手記 Spark累加器和廣播變量

Spark累加器和廣播變量

標簽：

大數據 Hadoop Spark

在 Apache Spark 中，累加器（accumulators）和广播变量（broadcast variables）这两种工具用于在分布式处理环境中共享数据，但它们各自有不同的用途和特点。

蓄能器

聚合：累加器用于将工作节点收集到的信息聚合回驱动程序。它们通常用于收集统计数据或调试信息。
只允许工作节点写入：工作节点只能向累加器中添加数据，而不能读取其值。

更新：只有程序才能读取累加器的值，而工作进程只能执行结合性更新（例如，递增计数器）。
容错性：累加器具有容错性，Spark会自动管理以确保避免在任务由于故障而重新执行时出现重复计算。

使用时机：统计处理的记录数及处理中遇到的错误数。

    from pyspark import SparkContext, SparkConf  

    conf = SparkConf().setAppName("AccumulatorExample")  
    sc = SparkContext(conf=conf)  

    # 创建一个累加器  
    accum = sc.accumulator(0)  

    def count_elements(x):  
        global accum  
        accum += 1  

    rdd = sc.parallelize([1, 2, 3, 4, 5])  
    rdd.foreach(count_elements)  

    print(f"元素总数: {accum.value}")

广播变量

广播变量能帮助我们将大数据集或值存放在内存中，这样所有节点就能高效共享，也不用多次发送数据了。

不可变：广播变量是不可变的。一旦创建，它们不能被进程或驱动程序修改。
高效的分发：Spark 仅向每个进程广播一次广播变量，从而减少通信量。

使用时机： 分享一个大型查找表或所有任务都需要的配置。

    from pyspark import SparkContext, SparkConf  

    conf = SparkConf().setAppName("BroadcastExample")  # 设置应用名称  
    sc = SparkContext(conf=conf)  

     # 创建广播变量  
    broadcast_var = sc.broadcast([1, 2, 3, 4, 5])  

    def process_element(x):  
         # 在处理元素时使用该广播变量  
        return x + sum(broadcast_var.value)  # 返回元素加上广播变量的和  

    rdd = sc.parallelize([10, 20, 30, 40, 50])  # 并行化处理数据  
    result = rdd.map(process_element).collect()  # 收集结果  

    print(result)

☑相似之处。

在工作节点之间共享：累加器（accumulators）和广播变量（broadcast variables）在Spark应用程序中共享。
均由驱动程序控制：两者均在驱动程序中初始化。

√差别

🎯 # 总结

使用累加器来聚合整个集群的数据，使用广播变量来高效地将大型只读数据共享给所有节点。

数据工程奥德赛：数据工程师面试指南《数据工程奥德赛：数据工程师面试指南》电子书，Deepa Vasanthkumar Vadasserychalil…www.amazon.in

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

拉莫斯之舞

手記
篇

粉絲

26

獲贊與收藏

112

關注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節 32253 360

網絡編程入門教程

20個小節 13299 250

Pandas 入門教程

25個小節 19918 373

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

Spark累加器和廣播變量

閱讀免費教程