数据交易导航,数据资产入表,数据交易平台,数据要素市场

數據產品

——? PRODUCTS CENTER? ——

《大數據處理框架Apache Spark設計與實現》
更新時間:2023/04/01
《大數據處理框架Apache Spark設計與實現》

內容簡介

近年來,以Apache Spark為代表的大數據處理框架在學術界和工業界得到了廣泛的使用。本書以Apache Spark框架為核心,總結了大數據處理框架的基礎知識、核心理論、典型的Spark應用,以及相關的性能和可靠性問題。本書分9章,主要包含四部分內容。*部分 大數據處理框架的基礎知識(第1~2章):介紹大數據處理框架的基本概念、系統架構、編程模型、相關的研究工作,并以一個典型的Spark應用為例概述Spark應用的執行流程。第二部分 Spark大數據處理框架的核心理論(第3~4章):介紹Spark框架將應用程序轉化為邏輯處理流程,進而轉化為可并行執行的物理執行計劃的一般過程及方法。第三部分 典型的Spark應用(第5章):介紹迭代型的Spark機器學習應用和圖計算應用。第四部分 大數據處理框架性能和可靠性保障機制(第6~9章):介紹Spark框架的Shuffle機制、數據緩存機制、錯誤容忍機制、內存管理機制等。

作者簡介

許利杰現任中國科學院軟件研究所副研究員、碩士生導師,于中科院軟件所獲得博士學位。當前主要從事大數據系統方面的研究工作,已在國際權威會議如VLDB、ICDCS、IPDPS、ISSRE、ICAC等發表論文10余篇,主持多項國家自然科學基金,以及華為、、聯想等企業的合作研發項目。曾為Apache Spark和Hadoop修復多個內核代碼嚴重錯誤,編寫的SparkInternals技術文檔被社區廣泛關注,獲得四千多顆星。博士期間曾在微軟亞洲研究院、阿里巴巴、騰訊擔任客座研究學生。目前還擔任中國計算機學會系統軟件專委會委員、中國科學院青年創新促進會會員。方亞芬現任中國科學院軟件研究所工程師,于南開大學獲得學士學位、中科院軟件所獲得碩士學位。當前主要從事大數據系統、操作系統方面的研發工作,參與多項國家自然科學基金、國家重點研發計劃,以及華為、騰訊、中國郵政等企業的合作研發項目。曾在阿里巴巴等擔任客座研究學生,目前是華為openEuler社區樹莓派項目負責人。

目  錄

第 1 章 大數據處理框架概覽 .....................2
1.1 大數據及其帶來的挑戰 .....................2
1.2 大數據處理框架 ........................3
1.3 大數據應用及編程模型 .....................4
1.4 大數據處理框架的四層結構 ...................5
1.4.1 用戶層 .......................... 7
1.4.2 分布式數據并行處理層 ...................11
1.4.3 資源管理與任務調度層 ...................13
1.4.4 物理執行層 ........................15
1.5 錯誤容忍機制 .........................17
1.6 其他大數據處理框架 ......................18
1.7 本章小結 ...........................18
1.8 擴展閱讀 ...........................18
第 2 章 Spark 系統部署與應用運行的基本流程 .............20
2.1 Spark 安裝部署 ........................20
2.2 Spark 系統架構 ........................21
2.3 Spark 應用例子 ........................24
2.3.1 用戶代碼基本邏輯 ................... .24
2.3.2 邏輯處理流程 ....................... 28
2.3.3 物理執行計劃 ....................... 32
2.3.4 可視化執行過程 ...................... 34
2.4 Spark 編程模型 ........................38
2.5 本章小結 ...........................39
第 3 章 Spark 邏輯處理流程 ...................41
3.1 Spark 邏輯處理流程概覽 ....................41
3.2 Spark 邏輯處理流程生成方法 ..................43
3.2.1 根據應用程序如何產生 RDD,產生什么樣的 RDD ......... 44
3.2.2 如何建立 RDD 之間的數據依賴 關系............ 44
3.2.3 如何計算 RDD 中的數據 .................. 49
3.3 常用 transformation() 數據操作 ................50
3.4 常用 action() 數據操作 ..................86
3.5 對比 MapReduce,Spark 的優缺點...............98
3.6 本章小結 .........................99
3.7 擴展閱讀 .........................100
第 4 章 Spark 物理執行計劃 ...................101
4.1 Spark 物理執行計劃概覽 ..................101
4.2 Spark 物理執行計劃生成方法 ................105
4.3 常用數據操作生成的物理執行計劃...............113
4.4 本章小結 .........................121
4.5 擴展閱讀 .........................121
第 5 章 迭代型 Spark 應用 ...................123
5.1 迭代型 Spark 應用的分類及特點...............123
5.2 迭代型機器學習應用 SparkLR ................124
5.2.1 應用描述 ........................124
5.2.2 算法原理 ....................... 125
5.2.3 基于 Spark 的并行化實現 ................ 129
5.2.4 深入討論 ....................... 131
5.3 迭代型機器學習應用――廣義 線性模型............132
5.3.1 算法原理 ....................... 132
5.3.2 基于 Spark 的并行化實現 ................ 136
5.3.3 深入討論 ....................... 139
5.4 迭代型圖計算應用――PageRank ...............140
5.4.1 應用描述 ....................... 140
5.4.2 基于 Spark 的并行化實現 ................ 143
5.4.3 深入討論 ....................... 149
5.5 本章小結 .........................151
第 6 章 Shuffle 機制 ......................153
6.1 Shuffle 的意義及設計挑戰 .................153
6.2 Shuffle 的設計思想 ....................155
6.2.1 解決數據分區和數據聚合問題 ...............156
6.2.2 解決 map() 端 combine問題 ............... 158
6.2.3 解決 sort 問題 ..................... 158
6.2.4 解決內存不足問題 .................... 159
6.3 Spark 中 Shuffle 框架的設計 ...............160
6.3.1 Shuffle Write 框架設計和實現 ............... 161
6.3.2 Shuffle Read 框架設計和實現 ............. 166
6.4 支持高效聚合和排序的數據 結構..............170
6.4.1 AppendOnlyMap 的原理 ................. 171
6.4.2 ExternalAppendOnlyMap ................173
6.4.3 PartitionedAppendOnlyMap .............. 176
6.4.4 PartitionedPairBuffer ................ 176
6.5 與 Hadoop MapReduce 的 Shuffle 機制對比.........177
6.6 本章小結 ........................179
第 7 章 數據緩存機制 ......................180
7.1 數據緩存的意義 ......................180
7.2 數據緩存機制的設計原理 ..................181
7.2.1 決定哪些數據需要被緩存 ................181
7.2.2 包含數據緩存操作的邏輯處理流程和物理執行計劃 ..... 184
7.2.3 緩存級別 ....................... 186
7.2.4 緩存數據的寫入方法 ..................189
7.2.5 緩存數據的讀取方法 .................. 191
7.2.6 用戶接口的設計 .................... 192
7.2.7 緩存數據的替換與回收方法 .................193
7.3 與 Hadoop MapReduce 的緩存機制進行對比............197
7.4 本章小結 ..........................198
第 8 章 錯誤容忍機制 ......................199
8.1 錯誤容忍機制的意義及挑戰 ..................199
8.2 錯誤容忍機制的設計思想 ...................201
8.3 重新計算機制 ........................201
8.3.1 重新計算是否能夠得到與之前一樣的結果 .......... 202
8.3.2 從哪里開始重新計算 ...................204
8.3.3 重新計算機制小結 ....................207
8.4 checkpoint 機制的設計與實現 ................207
8.4.1 哪些數據需要使用 checkpoint機制 ............ 207
8.4.2 checkpoint 數據的寫入及接口 ...............210
8.4.3 checkpoint 時機及計算順序 ................212
8.4.4 checkpoint 數據的讀取 .......... .......213
8.4.5 checkpoint 數據寫入和讀取的實現細節 .......... 213
8.4.6 checkpoint 語句位置的影響.... ..........216
8.4.7 cache checkpoint .................. 220
8.5 checkpoint 與數據緩存的區別 ...............225
8.6 本章小結 .........................226
第 9 章 內存管理機制 ......................227
9.1 內存管理機制問題及挑戰 .................227
9.2 應用內存消耗來源及影響因素 ..............228
9.2.1 內存消耗來源 1:用戶代碼 .............. 229
9.2.2 內存消耗來源 2:Shuffle 機制中產生的中間數據 ......230
9.2.3 內存消耗來源 3:緩存數據 .............. 231
9.3 Spark 框架內存管理模型 ..................232
9.3.1 靜態內存管理模型 .................... 233
9.3.2 統一內存管理模型 .................... 234
9.4 Spark 框架執行內存消耗與管理................237
9.4.1 Shuffle Write 階段內存消耗及管理 ............ 239
9.4.2 Shuffle Read 階段內存消耗及管理 ............. 245
9.5 數據緩存空間管理 .......................249
9.5.1 RDD 緩存數據 ....................... 250
9.5.2 廣播數據 ......................... 253
9.5.3 task 的計算結果 ..................... 254
9.6 本章小結 ..........................256
參考文獻 ............................258

上一頁:已經為第一條
上一頁:已經為第一條

相關推薦

在線咨詢

在線留言
主站蜘蛛池模板: 思为网络_成都百度优化快照排名-成都网站建设优化_成都网页设计_成都SEO公司 | 锌铝合金压铸-深圳压铸加工-铝挤压拉伸-压铸模具厂-广东誉格精密技术有限公司 | 家具板|橱柜衣柜家具板|木饰面定制|榉木胶合板|防水胶合板|胶合板厂家-佛山吉盛唐朝木业-大坂木业 | 华药药业集团|华药修医师|修医师浸膏|河南华药药业有限公司 | 郑州编织袋厂_郑州塑料编织袋_河南塑料编织袋厂-河南宏旺塑料编织袋厂家 | 粮食加工设备_玉米_大米_面粉_燕麦_豆类杂粮加工设备-华豫万通 | 造型松|泰山迎客松|造型油松-泰安小苹果园林 | 专利申请|知识产权贯标|商标提异议|国外专利申请-润平知识产权 | 天津止回阀-止回阀报价/哪家好-天津蝶阀/进口阀门/通风蝶阀批发-闸阀阀门/球阀生产厂家-天津凯维斯阀门制造 | 烟台废旧物资回收,烟台废品回收,烟台物资回收-烟台金泰再生资源有限公司 | 兰州钢结构,甘肃铝镁锰板工程,青海岩棉复合板厂家,宁夏岩棉彩钢板公司,西宁彩钢夹芯板-兰州腾达彩钢 | 合肥发斯特精密塑模有限公司专业精密磨具,注塑模具,精密注塑机械零件(加工制造|生产|销售|厂家) 浩通集团 国际货运 物贸一体化 中非经贸 | 上海物流公司_上海冷链运输_空运_电商仓储配送电话-迈泽物流 | 潍坊网络推广,临沂360推广,东营360推广,枣庄360推广,潍坊网站建设,潍坊网络公司,潍坊360搜索,潍坊APP开发,潍坊360推广,潍坊360代理,潍坊点睛网络科技有限公司 | 气相色谱仪生产厂家批发价格找上海惠分科学分析仪器有限公司 | 无源电子锁_五防锁_机柜锁_物联网锁_智能锁控管理-Vanma | 潍坊沃林机械设备有限公司-牵引式风送果园打药机,悬挂式风送果园喷雾机,自走式果树喷药机,车载式风送远程喷雾机-潍坊沃林机械设备有限公司-牵引式风送果园打药机,悬挂式风送果园喷雾机,自走式果树喷药机,车载式风送远程喷雾机 潍坊网络推广,临沂360推广,东营360推广,枣庄360推广,潍坊网站建设,潍坊网络公司,潍坊360搜索,潍坊APP开发,潍坊360推广,潍坊360代理,潍坊点睛网络科技有限公司 | 泥浆振动筛|卧式泥浆搅拌器|泥浆离心机|泥浆处理固控设备_沧州宏宇石油机械有限公司 | 铅板-济南鑫玉防辐射材料有限公司 | 聚达|聚达物联|聚达物联科技|杭州聚达物联科技有限公司|www.judawulian.com|智慧社区|数字驾驶舱|智慧清运|智慧工地|邻家小达 | 潍坊网络推广,临沂360推广,东营360推广,枣庄360推广,潍坊网站建设,潍坊网络公司,潍坊360搜索,潍坊APP开发,潍坊360推广,潍坊360代理,潍坊点睛网络科技有限公司 | 明康食品有限公司 -方集馓子 亨特小麻花 | 输送机电动滚筒_山东电动滚筒_输送机滚筒_皮带输送机-山东中输输送机械有限公司 | 健力普医疗-半导体激光治疗仪,红外偏振光治疗仪,近红外线治疗仪-独家功能,光疗典范 | 亚洲一区日韩一区欧美一区a,中文字幕乱妇无码AV在线,欧美日韩免费在线观看,国产精品一区二区三区免费,日韩精品免费一线在线观看,日韩一本在线,国产呦精品一区二区三区下载,国产日韩精品一区二区在线观看,欧美日韩高清一区二区三区,日韩在线免费观看视频,欧美日韩一区在线观看 | 沼气池-沼气设备-沼气工程-山东达禹环境工程有限公司 | 萍乡赣西肿瘤医院|萍乡赣西肿瘤医院--官网-萍乡赣西肿瘤医院 | 宿迁网站建设-宿迁做网站-宿迁网站制作-宿迁网络公司-宿迁网页设计-宿迁软件开发-宿迁新动力软件开发有限公司 | 网站主页 - 河北天成药业股份有限公司 | 无锡防火门|无锡放火卷帘门|无锡市防火卷帘门厂有限公司 | 首创十载—广州专业美博会展览设计公司_美博会展台搭建工厂 | 温湿度变送器_pm2.5传感器_湿敏电阻_二氧化碳传感器_甲醛传感器-美特瑞科技 | 蒸汽发生器厂家-电加热蒸汽发生器-免办证/免报批/免报检电锅炉-上海电热水锅炉-上海艾亚锅炉有限公司 | 砂浆生产线_干混砂浆设备_干混砂浆生产线-苏州一工机械有限公司 砂基透水砖滤水率,防滑性试验仪,砂基透水砖落球冲击,抗冲击试验机-献县中正试验仪器销售处 | 乐云SEO | 品牌营销:抖音小红书关键词优化-ai搜索优化GEO推广 | 汇讯WiseUC--连接人与业务,以即时通讯为基础的应用集成平台 | 九江中澳钽铌有限公司| 南昌今工科技有限公司| ?神龙上古堂全国官网_颈腰椎调理服务中心_萨迦藏式秘方渗透法 | 送料机-冲床送料机-伺服送料机 - 常州市佳王精密机械有限公司 | 启东华立石油化工机械设备有限公司|过滤器|混合机|消声器|混合器|管道过滤器|空气过滤器|精细过滤器 |