![大数据处理框架Apache Spark设计与实现在线阅读](https://wfqqreader-1252317822.image.myqcloud.com/cover/131/47379131/b_47379131.jpg)
会员
大数据处理框架Apache Spark设计与实现
更新时间:2024-01-19 16:36:47 最新章节:参考文献
书籍简介
近年来,以ApacheSpark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以ApacheSpark框架为核心,总结了大数据处理框架的基础知识、核心理论、典型的Spark应用,以及相关的性能和可靠性问题。本书分9章,主要包含四部分内容。第一部分大数据处理框架的基础知识(第1~2章):介绍大数据处理框架的基本概念、系统架构、编程模型、相关的研究工作,并以一个典型的Spark应用为例概述Spark应用的执行流程。第二部分Spark大数据处理框架的核心理论(第3~4章):介绍Spark框架将应用程序转化为逻辑处理流程,进而转化为可并行执行的物理执行计划的一般过程及方法。第三部分典型的Spark应用(第5章):介绍迭代型的Spark机器学习应用和图计算应用。第四部分大数据处理框架性能和可靠性保障机制(第6~9章):介绍Spark框架的Shuffle机制、数据缓存机制、错误容忍机制、内存管理机制等。
上架时间:2020-07-01 00:00:00
出版社:电子工业出版社
上海阅文信息技术有限公司已经获得合法授权,并进行制作发行
最新章节
许利杰等
同类热门书
最新上架
- 会员这是一本站在一线开发人员的视角,从SQL的本质出发,采用理论与实践相结合、案例与分析相结合、作者经验与一线需求相结合的方式,深度解读大数据SQL优化核心技术和解决方案的工具书。本书主要面向大数据初中级技术人员,期望帮大家深度理解大数据SQL优化原理,掌握SQL优化的落地实践方法,从而真正“玩转”大数据SQL优化技术,根据实际问题和需求设计出有针对性的提升SQL性能的解决方案。计算机14万字
- 会员本书基于我国深入实施网络强国和国家大数据战略的大背景,将“大语言模型”“知识图谱”“数据治理”相结合,阐述了大模型、知识图谱在智能数据治理中的应用实践,并以医疗、政务及降碳等行业为例,详细介绍了其数据治理流程及平台构建方法。书中首先阐述了大模型时代知识图谱和智能数据治理之间的协同关系,以儿童孤独症为例介绍了基于CiteSpace软件的医疗知识图谱的构建流程;其次详细阐述了基于神经网络模型的个人健康计算机13.1万字
- 会员高质量的数据关乎企业运营、合规、决策和业绩的关键,哈佛商业评论的一项研究发现,企业中只有3%的数据符合质量标准,绝大多数公司都在寻求切实可行的指导来提高数据质量。本书作者基于多年在数据、数据分析和人工智能方面的实践经验,阐述了4步构建高质量数据体系。他提出了高质量数据的四阶段DARS方法(定义、评估、实现、持续)和10个数据质量最佳实践案例,以此来提高业务中的数据质量水平,为业务提供数据价值,保证计算机11.7万字
- 会员本书是一本介绍分布式数据库基础内容与应用的大数据专业类图书,力求培养读者对分布式数据库的应用技能。本书共11章,采用原理+代码实例+综合案例的编写形式,清晰明了地介绍分布式数据库的原理、基础应用、进阶应用及主流工具的使用方法、应用场景,以理实结合为编写要求,让读者能够轻松学习和掌握分布式数据库的内容。本书可以作为高等院校计算机、网络技术等相关专业的教材,也可以作为数据库相关工作的从业人员的参考用书计算机14万字
- 会员数据科学的关键技术包括数据存储计算、数据治理、结构化数据分析、语音分析、视觉分析、文本分析和知识图谱等方面。本书的重点是详细介绍文本分析和知识图谱方面的技术。文本分析技术主要包括文本预训练模型、多语种文本分析、文本情感分析、文本机器翻译、文本智能纠错、NL2SQL问答以及ChatGPT大语言模型等。知识图谱技术主要包括知识图谱构建和知识图谱问答等。本书将理论介绍和实践相结合,详细阐述各个技术主题的计算机21.6万字
- 会员时序数据库是一种新型技术,主要用于工业互联网软件建设中。近年来,伴随着物联网技术在智能制造、交通、能源、智慧城市等领域的发展,时序数据库也发展迅速,成为搭建应用的必备数据库之一。《深入理解InfluxDB》从InfluxDB的安装开始,一步步详细介绍InfluxDB的功能及原理,带领读者深入理解以InfluxDB为代表的时序数据库。计算机7.6万字
- 会员《数据分析师手记:数据分析72个核心问题精解》从底层认知、思维方法、工具技术、项目落地及展望出发,使用问答的形式对数据分析中的72个核心知识点进行讲解,构建了数据分析的知识框架,带领读者认识数据分析背后的奥妙。读者可以用本书作为学习地图,针对具体的方法、技术进行延伸学习。计算机16.8万字
- 会员《MySQL从入门到精通(第3版)》从初学者角度出发,通过通俗易懂的语言和丰富多彩的实例,详细介绍了MySQL开发需要掌握的各方面技术。全书共分为4篇22章,包括数据库基础,初识MySQL,使用MySQL图形化管理工具,数据库操作,存储引擎及数据类型,数据表操作,MySQL基础,表数据的增、删、改操作,数据查询,常用函数,索引,视图,数据完整性约束,存储过程与存储函数,触发器,事务,事件,备份与恢计算机14万字
同类书籍最近更新
- 会员本书是一本写给大家看的数据安全之书,不仅仅是给技术人员,更重要的是给企业数据管理者,如果不看这些案例,你也许永远不会理解数据库为何会遭遇到灭顶之灾,你也许永远无法理解为何千里之堤一朝溃于蚁穴。当然,这仍然是一本相当深入的技术书,作者将很多案例的详细拯救过程记录了下来,包括一些相当深入的技术探讨,这些技术探讨一方面可以帮助读者加深对于Oracle数据库技术的认知,另一方面又可以帮你在遇到类似案例时,数据库10.7万字
- 会员MicrosoftSQLServer2005是新一代大型电子商务、数据分析和数据库解决方案,本书是创建SQLServer2005数据库和应用的一本参考书。通过这本书,读者可以学到如何进行SQLServer2005数据库的安装,如何进行数据库组件管理以及数据库的转换、备份等工作。同时,读者通过对MicrosoftSQLServer的实现语言-Transact-SQL的学习,可以进数据库14.4万字
- 会员本书以帮助读者认识什么是用户行为画像,如何利用大数据采集、加工、分析用户行为从而应用到不同行业为主要目的。主要内容包括:用户行为数据的定义、内涵和外延、分类和应用场景;如何利用不同的采集工具收集和用户行为分析相关的行为大数据;用户行为分析常用的指标与模型;如何建立用户画像标签体系;用户画像如何支持大数据时代的个性化推荐和精准营销等应用;大数据用户分析在各行业的应用案例详解。本书的形式将以图文并茂的数据库10.9万字
- 会员本书是国内首部讲解微软WindowsServer软件定义数据中心的中文图书,书中系统、全面地普及了微软WindowsServer软件定义数据中心各个模块的概念、技术和架构,书里凝结了作者近几年在使用WindowsServerSDDC的经验和对相关技术的思考。本书的主要内容包含WindowsServer软件定义的高可用群集、WindowsServerSDS、WindowsServerSDN和Wind数据库18.9万字
- 会员本书详细总结了国产高分遥感数据在自然资源调查中的应用实践,内容包括:国产高分卫星遥感数据概况、基于国产高分遥感数据的自然资源综合调查方法、宁夏宁东能源化工基地遥感调查成果等。数据库6.1万字