Pentaho Kettle解决方案 : 使用PDI构建开源ETL解决方案 = Pentaho Kettle solutions : building open source ETL solutions with pentaho data integration 🔍
Matt Casters, Roland Bouman, Jos van Dongen著 ; 初建军, 曹雪梅译; 卡斯特; 布曼; 东恩; 初建军; 曹雪梅
北京:电子工业出版社, Di 1 ban, Beijing, 2014
中文 [zh] · PDF · 363.6MB · 2014 · 📘 非小说类图书 · 🚀/duxiu/lgli/lgrs · Save
描述
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》主要介绍如何使用开源ETL工具来完成数据整合工作。
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,书中介绍了如何使用PDI来实现数据的剖析、清洗、校验、抽取、转换、加载等各类常见的ETL类工作。
除了ODS/DW类比较大型的应用外,Kettle 实际还可以为中小企业提供灵活的数据抽取和数据处理的功能。Kettle除了支持各种关系型数据库、HBase、MongoDB这样的NoSQL数据源外,它还支持Excel、Access这类小型的数据源。并且通过插件扩展,Kettle 可以支持各类数据源。本书详细介绍了Kettle可以处理的数据源,而且详细介绍了如何使用Kettle抽取增量数据。
Kettle 的数据处理功能也很强大,除了选择、过滤、分组、连接、排序这些常用的功能外,Kettle 里的Java表达式、正则表达式、Java脚本、Java类等功能都非常灵活而强大,都非常适合于各种数据处理功能。本书也使用了一些篇幅介绍Kettle这些灵活的数据处理功能。
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》后面章节介绍了如何在 Kettle 上开发插件,如何使用Kettle处理实时数据流,以及如何在Amazon AWS上运行Kettle 等一些高级主题。
除了介绍PDI(Kettle)工具的使用和功能,本书还结合Kimball博士的数据仓库和ETL子系统的理论,从实践的角度介绍数据仓库的模型设计、数据仓库的构建方法,以及如何使用 PDI实现Kimball博士提出的34种ETL子系统。
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,书中介绍了如何使用PDI来实现数据的剖析、清洗、校验、抽取、转换、加载等各类常见的ETL类工作。
除了ODS/DW类比较大型的应用外,Kettle 实际还可以为中小企业提供灵活的数据抽取和数据处理的功能。Kettle除了支持各种关系型数据库、HBase、MongoDB这样的NoSQL数据源外,它还支持Excel、Access这类小型的数据源。并且通过插件扩展,Kettle 可以支持各类数据源。本书详细介绍了Kettle可以处理的数据源,而且详细介绍了如何使用Kettle抽取增量数据。
Kettle 的数据处理功能也很强大,除了选择、过滤、分组、连接、排序这些常用的功能外,Kettle 里的Java表达式、正则表达式、Java脚本、Java类等功能都非常灵活而强大,都非常适合于各种数据处理功能。本书也使用了一些篇幅介绍Kettle这些灵活的数据处理功能。
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》后面章节介绍了如何在 Kettle 上开发插件,如何使用Kettle处理实时数据流,以及如何在Amazon AWS上运行Kettle 等一些高级主题。
除了介绍PDI(Kettle)工具的使用和功能,本书还结合Kimball博士的数据仓库和ETL子系统的理论,从实践的角度介绍数据仓库的模型设计、数据仓库的构建方法,以及如何使用 PDI实现Kimball博士提出的34种ETL子系统。
备用文件名
lgrsnf/Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案,Matt Casters(马特.卡斯特)2014,电子工业出版社.pdf
备选标题
Pentaho Kettle Solutions: Building Open Source ETL solutions using PDI(Chinese Edition)
备选作者
Matt R Casters; Roland Bouman; Jos van Dongen
备选作者
Matt Casters . MA TE KA SI TE...
备选作者
卡斯特 (Casters, Matt)
备用出版商
Publishing House of Electronics Industry
备用出版商
John Wiley & Sons, Incorporated
备用出版商
Electronic Industry Press
备用出版商
Spectrum Publications
备用出版商
Halsted Press
备用版本
John Wiley & Sons, Inc. (trade), Norwood Mass, 2010
备用版本
United States, United States of America
备用版本
Indianapolis, Ind, Indiana, 2010
备用版本
China, People's Republic, China
备用版本
Indianapolis (Ind.), cop. 2010
备用版本
Bei jing, 2014
备用版本
1, PS, 2010
元数据中的注释
Includes index.
Electronic reproduction. Palo Alto, Calif. : ebrary, 2010. Available via World Wide Web. Access may be limited to ebrary affiliated libraries.
Electronic reproduction. Palo Alto, Calif. : ebrary, 2010. Available via World Wide Web. Access may be limited to ebrary affiliated libraries.
元数据中的注释
MiFliC
元数据中的注释
MiU
元数据中的注释
Bookmarks: p1 (p2): 第一部分:开始
p1-1 (p2): 第1章 ETL入门
p1-1-1 (p2): 1.1 OLTP和数据仓库对比
p1-1-2 (p3): 1.2 ETL是什么
p1-1-2-1 (p4): 1.2.1 ETL解决方案的演化过程
p1-1-2-2 (p5): 1.2.2 ETL基本构成
p1-1-3 (p6): 1.3 ETL、 ELT和EII
p1-1-3-1 (p6): 1.3.1 ELT
p1-1-3-2 (p7): 1.3.2 EII:虚拟数据整合
p1-1-4 (p8): 1.4 数据整合面临的挑战
p1-1-4-1 (p9): 1.4.1 方法论:敏捷BI
p1-1-4-2 (p10): 1.4.2 ETL设计
p1-1-4-3 (p10): 1.4.3 获取数据
p1-1-4-4 (p12): 1.4.4 数据质量
p1-1-5 (p13): 1.5 ETL工具的功能
p1-1-5-1 (p13): 1.5.1 连接
p1-1-5-2 (p14): 1.5.2 平台独立
p1-1-5-3 (p14): 1.5.3 数据规模
p1-1-5-4 (p14): 1.5.4 设计灵活性
p1-1-5-5 (p15): 1.5.5 复用性
p1-1-5-6 (p15): 1.5.6 扩展性
p1-1-5-7 (p15): 1.5.7 数据转换
p1-1-5-8 (p16): 1.5.8 测试和调试
p1-1-5-9 (p16): 1.5.9 血统和影响分析
p1-1-5-10 (p16): 1.5.10 日志和审计
p1-1-6 (p17): 1.6 小结
p1-2 (p18): 第2章 Kettle基本概念
p1-2-1 (p18): 2.1 设计原则
p1-2-2 (p19): 2.2 Kettle设计模块
p1-2-2-1 (p19): 2.2.1 转换
p1-2-2-2 (p23): 2.2.2 作业
p1-2-2-3 (p28): 2.2.3 转换或作业的元数据
p1-2-2-4 (p28): 2.2.4 数据库连接
p1-2-2-5 (p31): 2.2.5 工具
p1-2-2-6 (p31): 2.2.6 资源库
p1-2-2-7 (p31): 2.2.7 虚拟文件系统
p1-2-3 (p32): 2.3 参数和变量
p1-2-3-1 (p32): 2.3.1 定义变量
p1-2-3-2 (p33): 2.3.2 命名参数
p1-2-3-3 (p33): 2.3.3 使用变量
p1-2-4 (p34): 2.4 可视化编程
p1-2-4-1 (p34): 2.4.1 开始
p1-2-4-2 (p35): 2.4.2 创建新的步骤
p1-2-4-3 (p36): 2.4.3 放在一起
p1-2-5 (p38): 2.5 小结
p1-3 (p39): 第3章 安装和配置
p1-3-1 (p39): 3.1 Kettle软件概览
p1-3-1-1 (p40): 3.1.1 集成开发环境:Spoon
p1-3-1-2 (p42): 3.1.2 命令行启动:Kitchen和Pan
p1-3-1-3 (p42): 3.1.3 作业服务器:Carte
p1-3-1-4 (p42): 3.1.4 Encr bat和encr.sh
p1-3-2 (p43): 3.2 安装
p1-3-2-1 (p43): 3.2.1 Java环境
p1-3-2-2 (p43): 3.2.2 安装Kettle
p1-3-3 (p46): 3.3 配置
p1-3-3-1 (p46): 3.3.1 配置文件和:kettle目录
p1-3-3-2 (p51): 3.3.2 用于启动Kettle程序的shell脚本
p1-3-3-3 (p52): 3.3.3 管理JDBC驱动
p1-3-4 (p53): 3.4 小结
p1-4 (p54): 第4章 ETL示例解决方案——Sakila
p1-4-1 (p54): 4.1 Sakila
p1-4-1-1 (p55): 4.1.1 sakila示例数据库
p1-4-1-2 (p57): 4.1.2 租赁业务的星型模型
p1-4-2 (p60): 4.2 预备知识和一些基础的Spoon技巧
p1-4-2-1 (p60): 4.2.1 安装ETL解决方案
p1-4-2-2 (p60): 4.2.2 Spoon使用
p1-4-3 (p61): 4.3 ETL示例解决方案
p1-4-3-1 (p62): 4.3.1 生成静态维度
p1-4-3-2 (p64): 4.3.2 循环加载
p1-4-4 (p80): 4.4 小结
p2 (p82): 第二部分:ETL
p2-1 (p82): 第5章 ETL子系统
p2-1-1 (p82): 5.1 34种子系统介绍
p2-1-1-1 (p83): 5.1.1 抽取
p2-1-1-2 (p84): 5.1.2 清洗和更正数据
p2-1-1-3 (p86): 5.1.3 数据发布
p2-1-1-4 (p89): 5.1.4 管理ETL环境
p2-1-2 (p91): 5.2 小结
p2-2 (p92): 第6章 数据抽取
p2-2-1 (p92): 6.1 Kettle数据抽取概览
p2-2-1-1 (p93): 6.1.1 文件抽取
p2-2-1-2 (p97): 6.1.2 数据库抽取
p2-2-1-3 (p98): 6.1.3 Web数据抽取
p2-2-1-4 (p99): 6.1.4 基于流的和实时的抽取
p2-2-2 (p100): 6.2 处理ERP和CRM系统
p2-2-2-1 (p100): 6.2.1 ERP挑战
p2-2-2-2 (p101): 6.2.2 Kettle ERP插件
p2-2-2-3 (p101): 6.2.3 处理SAP数据
p2-2-2-4 (p104): 6.2.4 ERP和CDC问题
p2-2-3 (p105): 6.3 数据剖析
p2-2-4 (p110): 6.4 CDC:变更数据捕获
p2-2-4-1 (p111): 6.4.1 基于源数据的CDC
p2-2-4-2 (p113): 6.4.2 基于触发器的CDC
p2-2-4-3 (p113): 6.4.3 基于快照的CDC
p2-2-4-4 (p116): 6.4.4 基于日志的CDC
p2-2-4-5 (p117): 6.4.5 哪个CDC方案更适合你
p2-2-5 (p117): 6.5 发布数据
p2-2-6 (p118): 6.6 小结
p2-3 (p119): 第7章 清洗和校验
p2-3-1 (p120): 7.1 数据清洗
p2-3-1-1 (p121): 7.1.1 数据清洗步骤
p2-3-1-2 (p123): 7.1.2 使用参照表
p2-3-1-3 (p127): 7.1.3 数据校验
p2-3-2 (p130): 7.2 错误处理
p2-3-2-1 (p131): 7.2.1 处理过程错误
p2-3-2-2 (p132): 7.2.2 转换错误
p2-3-2-3 (p133): 7.2.3 处理数据(校验)错误
p2-3-3 (p136): 7.3 审计数据和过程质量
p2-3-4 (p137): 7.4 数据排重
p2-3-4-1 (p137): 7.4.1 去除完全重复的数据
p2-3-4-2 (p138): 7.4.2 不完全重复问题
p2-3-4-3 (p139): 7.4.3 设计排除重复记录的转换
p2-3-5 (p142): 7.5 脚本
p2-3-5-1 (p143): 7.5.1 公式
p2-3-5-2 (p143): 7.5.2 Java脚本
p2-3-5-3 (p144): 7.5.3 用户自定义Java表达式
p2-3-5-4 (p145): 7.5.4 正则表达式
p2-3-6 (p146): 7.6 小结
p2-4 (p147): 第8章 处理维度表
p2-4-1 (p148): 8.1 管理各种键
p2-4-1-1 (p148): 8.1.1 管理业务键
p2-4-1-2 (p149): 8.1.2 生成代理键
p2-4-2 (p154): 8.2 加载维度表
p2-4-2-1 (p154): 8.2.1 雪花维度表
p2-4-2-2 (p159): 8.2.2 星型维度表
p2-4-3 (p161): 8.3 缓慢变更维度
p2-4-3-1 (p161): 8.3.1 缓慢变更维类型
p2-4-3-2 (p161): 8.3.2 类型1的缓慢变更维
p2-4-3-3 (p163): 8.3.3 类型2的缓慢变更维
p2-4-3-4 (p167): 8.3.4 其他类型的缓慢变更维
p2-4-4 (p168): 8.4 更多维度
p2-4-4-1 (p168): 8.4.1 生成维(Generated Dimensions)
p2-4-4-2 (p169): 8.4.2 杂项维度(Junk Dimensions)
p2-4-4-3 (p170): 8.4.3 递归层次
p2-4-5 (p171): 8.5 小结
p2-5 (p172): 第9章 加载事实表
p2-5-1 (p173): 9.1 批量加载
p2-5-1-1 (p173): 9.1.1 STDIN和FIFO
p2-5-1-2 (p174): 9.1.2 Kettle批量加载
p2-5-1-3 (p176): 9.1.3 批量加载一般要考虑的问题
p2-5-2 (p176): 9.2 维度查询
p2-5-2-1 (p176): 9.2.1 维护参照完整性
p2-5-2-2 (p177): 9.2.2 代理键管道
p2-5-2-3 (p179): 9.2.3 迟到数据
p2-5-3 (p182): 9.3 处理事实表
p2-5-3-1 (p182): 9.3.1 周期快照和累积快照
p2-5-3-2 (p183): 9.3.2 面向状态的事实表
p2-5-3-3 (p185): 9.3.3 加载周期快照表
p2-5-3-4 (p185): 9.3.4 加载累积快照表
p2-5-3-5 (p186): 9.3.5 加载面向状态事实表
p2-5-3-6 (p186): 9.3.6 加载聚集表
p2-5-4 (p187): 9.4 小结
p2-6 (p188): 第10章 处理OLAP数据
p2-6-1 (p189): 10.1 OLAP的价值和挑战
p2-6-1-1 (p190): 10.1.1 OLAP存储类型
p2-6-1-2 (p191): 10.1.2 OLAP在系统中的位置
p2-6-1-3 (p191): 10.1.3 Kettle OLAP选项
p2-6-2 (p192): 10.2 Mondrian
p2-6-3 (p194): 10.3 XML/A服务
p2-6-4 (p197): 10.4 Palo
p2-6-4-1 (p198): 10.4.1 建立Palo连接
p2-6-4-2 (p199): 10.4.2 Palo架构
p2-6-4-3 (p200): 10.4.3 读Palo数据
p2-6-4-4 (p202): 10.4.4 写Palo数据
p2-6-5 (p204): 10.5 小结
p3 (p206): 第三部分:管理和部署
p3-1 (p206): 第11章 ETL开发生命期
p3-1-1 (p206): 11.1 解决方案设计
p3-1-1-1 (p206): 11.1.1 好习惯和坏习惯
p3-1-1-2 (p209): 11.1.2 ETL流设计
p3-1-1-3 (p209): 11.1.3 可重用性和可维护性
p3-1-2 (p210): 11.2 敏捷开发
p3-1-3 (p214): 11.3 测试和调试
p3-1-3-1 (p214): 11.3.1 测试活动
p3-1-3-2 (p215): 11.3.2 ETL测试
p3-1-3-3 (p218): 11.3.3 调试
p3-1-4 (p220): 11.4 解决方案文档化
p3-1-4-1 (p220): 11.4.1 为什么实际情况下文档很少
p3-1-4-2 (p221): 11.4.2 Kettle的文档功能
p3-1-4-3 (p222): 11.4.3 生成文档
p3-1-5 (p223): 11.5 小结
p3-2 (p224): 第12章 调度和监控
p3-2-1 (p224): 12.1 调度
p3-2-1-1 (p225): 12.1.1 操作系统级调度
p3-2-1-2 (p228): 12.1.2 使用Pentaho内置的调度程序
p3-2-2 (p232): 12.2 监控
p3-2-2-1 (p232): 12.2.1 日志
p3-2-2-2 (p234): 12.2.2 邮件通知
p3-2-3 (p237): 12.3 小结
p3-3 (p238): 第13章 版本和移植
p3-3-1 (p238): 13.1 版本控制系统
p3-3-1-1 (p239): 13.1.1 基于文件的版本控制系统
p3-3-1-2 (p240): 13.1.2 内容管理系统
p3-3-2 (p240): 13.2 Kettle元数据
p3-3-2-1 (p241): 13.2.1 Kettle XML元数据
p3-3-2-2 (p242): 13.2.2 Kettle资源库元数据
p3-3-3 (p244): 13.3 管理资源库
p3-3-3-1 (p244): 13.3.1 导出和导入资源库
p3-3-3-2 (p245): 13.3.2 资源库升级
p3-3-4 (p245): 13.4 版本移植系统
p3-3-4-1 (p245): 13.4.1 管理XML文件
p3-3-4-2 (p246): 13.4.2 管理资源库
p3-3-4-3 (p246): 13.4.3 解决方案参数化
p3-3-5 (p248): 13.5 小结
p3-4 (p249): 第14章 血统和审计
p3-4-1 (p250): 14.1 批量血统抽取
p3-4-2 (p251): 14.2 血统
p3-4-2-1 (p251): 14.2.1 血统信息
p3-4-2-2 (p252): 14.2.2 影响分析信息
p3-4-3 (p254): 14.3 日志和操作元数据
p3-4-3-1 (p254): 14.3.1 日志基础
p3-4-3-2 (p255): 14.3.2 日志架构
p3-4-3-3 (p257): 14.3.3 日志表
p3-4-4 (p262): 14.4 小结
p4 (p264): 第四部分:性能和扩展性
p4-1 (p264): 第15章 性能调优
p4-1-1 (p264): 15.1 转换性能:找到最弱连接
p4-1-1-1 (p265): 15.1.1 通过简化找到性能瓶颈
p4-1-1-2 (p266): 15.1.2 通过度量值找到性能瓶颈
p4-1-1-3 (p267): 15.1.3 复制数据行
p4-1-2 (p269): 15.2 提高转换性能
p4-1-2-1 (p269): 15.2.1 提高读文本文件的性能
p4-1-2-2 (p271): 15.2.2 写文本文件时使用延迟转换
p4-1-2-3 (p272): 15.2.3 提高数据库性能
p4-1-2-4 (p275): 15.2.4 数据排序
p4-1-2-5 (p276): 15.2.5 减少CPU消耗
p4-1-3 (p280): 15.3 提高作业性能
p4-1-3-1 (p280): 15.3.1 作业里的循环
p4-1-3-2 (p281): 15.3.2 数据库连接池
p4-1-4 (p281): 15.4 小结
p4-2 (p283): 第16章 并行、集群和分区
p4-2-1 (p283): 16.1 多线程
p4-2-1-1 (p284): 16.1.1 数据行分发
p4-2-1-2 (p285): 16.1.2 记录行合并
p4-2-1-3 (p285): 16.1.3 记录行再分发
p4-2-1-4 (p286): 16.1.4 数据流水线
p4-2-1-5 (p287): 16.1.5 多线程的问题
p4-2-1-6 (p289): 16.1.6 作业中的并行执行
p4-2-2 (p289): 16.2 使用Carte子服务器
p4-2-2-1 (p289): 16.2.1 配置文件
p4-2-2-2 (p290): 16.2.2 定义子服务器
p4-2-2-3 (p291): 16.2.3 远程执行
p4-2-2-4 (p291): 16.2.4 监视子服务器
p4-2-2-5 (p291): 16.2.5 Carte安全
p4-2-2-6 (p292): 16.2.6 服务
p4-2-3 (p293): 16.3 集群转换
p4-2-3-1 (p293): 16.3.1 定义一个集群模式
p4-2-3-2 (p294): 16.3.2 设计集群转换
p4-2-3-3 (p295): 16.3.3 执行和监控
p4-2-3-4 (p296): 16.3.4 元数据转换
p4-2-4 (p298): 16.4 分区
p4-2-4-1 (p299): 16.4.1 定义分区模式
p4-2-4-2 (p300): 16.4.2 分区的目标
p4-2-4-3 (p300): 16.4.3 实现分区
p4-2-4-4 (p301): 16.4.4 内部变量
p4-2-4-5 (p301): 16.4.5 数据库分区
p4-2-4-6 (p302): 16.4.6 集群转换中的分区
p4-2-5 (p302): 16.5 小结
p4-3 (p303): 第17章 云计算中的动态集群
p4-3-1 (p303): 17.1 动态集群
p4-3-1-1 (p304): 17.1.1 建立动态集群
p4-3-1-2 (p306): 17.1.2 使用动态集群
p4-3-2 (p306): 17.2 云计算
p4-3-3 (p307): 17.3 EC2
p4-3-3-1 (p307): 17.3.1 如何使用EC2
p4-3-3-2 (p307): 17.3.2 成本
p4-3-3-3 (p307): 17.3.3 自定义AMI
p4-3-3-4 (p310): 17.3.4 打包新AM
p4-3-3-5 (p310): 17.3.5 中止AMI
p4-3-3-6 (p310): 17.3.6 运行主节点
p4-3-3-7 (p311): 17.3.7 运行子节点
p4-3-3-8 (p312): 17.3.8 使用EC2集群
p4-3-3-9 (p313): 17.3.9 监控
p4-3-3-10 (p314): 17.3.10 轻量原则和持久性
p4-3-4 (p314): 17.4 小结
p4-4 (p315): 第18章 实时数据整合
p4-4-1 (p315): 18.1 实时ETL介绍
p4-4-1-1 (p316): 18.1.1 实时处理面临的挑战
p4-4-1-2 (p316): 18.1.2 需求
p4-4-2 (p317): 18.2 基于流的转换
p4-4-2-1 (p318): 18.2.1 一个基于流的转换实例
p4-4-2-2 (p321): 18.2.2 调试
p4-4-2-3 (p321): 18.2.3 第三方软件和实时整合
p4-4-2-4 (p322): 18.2.4 Java消息服务
p4-4-3 (p324): 18.3 小结
p5 (p326): 第五部分:高级主题
p5-1 (p326): 第19章 Data Vault管理
p5-1-1 (p327): 19.1 Data Vault模型介绍
p5-1-2 (p327): 19.2 你是否需要Data Vault
p5-1-3 (p328): 19.3 Data Vault的组成部分
p5-1-3-1 (p328): 19.3.1 中心表
p5-1-3-2 (p329): 19.3.2 链接表
p5-1-3-3 (p329): 19.3.3 附属表
p5-1-3-4 (p331): 19.3.4 Data Vault特点
p5-1-3-5 (p331): 19.3.5 构建Data Vault模型
p5-1-4 (p331): 19.4 将Sakila的例子转换成Data Vault模型
p5-1-4-1 (p331): 19.4.1 Sakila中心表
p5-1-4-2 (p332): 19.4.2 Sakila链接表
p5-1-4-3 (p333): 19.4.3 Sakila附属表
p5-1-5 (p334): 19.5 加载Data Vault模型:简单的ETL解决方案
p5-1-5-1 (p335): 19.5.1 安装Sakila Data Vault
p5-1-5-2 (p335): 19.5.2 安装ETL方案
p5-1-5-3 (p335): 19.5.3 创建一个数据库账户
p5-1-5-4 (p335): 19.5.4 ETL解决方案的例子
p5-1-5-5 (p341): 19.5.5 加载Data Vault表
p5-1-6 (p341): 19.6 从Data Vault模型更新数据集市
p5-1-6-1 (p342): 19.6.1 ETL解决方案例子
p5-1-6-2 (p342): 19.6.2 dim _actor转换
p5-1-6-3 (p343): 19.6.3 dim _customer转换
p5-1-6-4 (p346): 19.6.4 dim _film转换
p5-1-6-5 (p347): 19.6.5 dim_film_actor_bridge转换
p5-1-6-6 (p347): 19.6.6 fact rental转换
p5-1-6-7 (p349): 19.6.7 加载星型模型里的所有表
p5-1-7 (p349): 19.7 小结
p5-2 (p350): 第20章 处理复杂数据格式
p5-2-1 (p350): 20.1 非关系型和非表格型的数据格式
p5-2-2 (p351): 20.2 非结构化的表格型数据
p5-2-2-1 (p351): 20.2.1 处理多值字段
p5-2-2-2 (p352): 20.2.2 处理重复的字段组
p5-2-3 (p353): 20.3 半结构化和非结构化数据
p5-2-4 (p358): 20.4 键/值对
p5-2-5 (p362): 20.5 小结
p5-3 (p363): 第21章 Web Services
p5-3-1 (p363): 21.1 Web页面和Web Services
p5-3-2 (p365): 21.2 数据格式
p5-3-2-1 (p365): 21.2.1 XML
p5-3-2-2 (p366): 21.2.2 HTML
p5-3-2-3 (p367): 21.2.3 JavaScript Object Notation
p5-3-3 (p369): 21.3 XML例子
p5-3-3-1 (p369): 21.3.1 XML例子文件
p5-3-3-2 (p371): 21.3.2 从XML中抽取数据
p5-3-3-3 (p378): 21.3.3 生成XML文档
p5-3-4 (p384): 21.4 SOAP例子
p5-3-4-1 (p385): 21.4.1 使用“Web服务查询”步骤
p5-3-4-2 (p386): 21.4.2 直接访问SOAP服务
p5-3-5 (p389): 21.5 JSON例子
p5-3-5-1 (p389): 21.5.1 Freebase项目
p5-3-5-2 (p392): 21.5.2 使用Kettle抽取Freebase数据
p5-3-6 (p396): 21.6 RSS
p5-3-6-1 (p396): 21.6.1 RSS结构
p5-3-6-2 (p398): 21.6.2 Kettle对RSS的支持
p5-3-7 (p403): 21.7 小结
p5-4 (p404): 第22章 Kettle集成
p5-4-1 (p404): 22.1 Kettle API
p5-4-1-1 (p404): 22.1.1 LGPL协议
p5-4-1-2 (p405): 22.1.2 Kettle Java API
p5-4-2 (p406): 22.2 执行存在的转换和作业
p5-4-2-1 (p406): 22.2.1 执行一个转换
p5-4-2-2 (p407): 22.2.2 执行一个作业
p5-4-3 (p408): 22.3 应用程序中嵌入Kettle
p5-4-3-1 (p408): 22.3.1 Pentaho报表
p5-4-3-2 (p410): 22.3.2 把数据放到转换里
p5-4-3-3 (p413): 22.3.3 动态转换
p5-4-3-4 (p416): 22.3.4 动态模板
p5-4-3-5 (p416): 22.3.5 动态作业
p5-4-3-6 (p419): 22.3.6 在Kettle里执行动态ETL
p5-4-3-7 (p419): 22.3.7 Result
p5-4-3-8 (p420): 22.3.8 替换元数据
p5-4-4 (p421): 22.4 OEM版本和二次发布版本
p5-4-4-1 (p421): 22.4.1 创建PDI的OEM版本
p5-4-4-2 (p422): 22.4.2 Kettle的二次发布(Forking)
p5-4-5 (p423): 22.5 小结
p5-5 (p424): 第23章 扩展Kettle
p5-5-1 (p424): 23.1 插件架构
p5-5-1-1 (p425): 23.1.1 插件类型
p5-5-1-2 (p425): 23.1.2 架构
p5-5-1-3 (p425): 23.1.3 前提
p5-5-2 (p428): 23.2 转换步骤插件
p5-5-2-1 (p428): 23.2.1 StepMetaInterface
p5-5-2-2 (p434): 23.2.2 StepDataInterface
p5-5-2-3 (p434): 23.2.3 StepDialogInterface
p5-5-2-4 (p440): 23.2.4 StepInterface
p5-5-3 (p444): 23.3 用户自定义Java类步骤
p5-5-3-1 (p444): 23.3.1 传递元数据
p5-5-3-2 (p445): 23.3.2 访问输入和字段
p5-5-3-3 (p445): 23.3.3 代码片段
p5-5-3-4 (p445): 23.3.4 例子
p5-5-4 (p446): 23.4 作业项插件
p5-5-4-1 (p446): 23.4.1 JobEntryInterface
p5-5-4-2 (p448): 23.4.2 JobEntryDialogInterface
p5-5-5 (p448): 23.5 分区插件
p5-5-6 (p450): 23.6 资源库插件
p5-5-7 (p450): 23.7 数据库类型插件
p5-5-8 (p451): 23.8 小结
p6 (p452): 附录A Kettle生态群
p7 (p456): 附录B Kettle企业版特性
p8 (p457): 附录C 内置的变量和属性参考
p1-1 (p2): 第1章 ETL入门
p1-1-1 (p2): 1.1 OLTP和数据仓库对比
p1-1-2 (p3): 1.2 ETL是什么
p1-1-2-1 (p4): 1.2.1 ETL解决方案的演化过程
p1-1-2-2 (p5): 1.2.2 ETL基本构成
p1-1-3 (p6): 1.3 ETL、 ELT和EII
p1-1-3-1 (p6): 1.3.1 ELT
p1-1-3-2 (p7): 1.3.2 EII:虚拟数据整合
p1-1-4 (p8): 1.4 数据整合面临的挑战
p1-1-4-1 (p9): 1.4.1 方法论:敏捷BI
p1-1-4-2 (p10): 1.4.2 ETL设计
p1-1-4-3 (p10): 1.4.3 获取数据
p1-1-4-4 (p12): 1.4.4 数据质量
p1-1-5 (p13): 1.5 ETL工具的功能
p1-1-5-1 (p13): 1.5.1 连接
p1-1-5-2 (p14): 1.5.2 平台独立
p1-1-5-3 (p14): 1.5.3 数据规模
p1-1-5-4 (p14): 1.5.4 设计灵活性
p1-1-5-5 (p15): 1.5.5 复用性
p1-1-5-6 (p15): 1.5.6 扩展性
p1-1-5-7 (p15): 1.5.7 数据转换
p1-1-5-8 (p16): 1.5.8 测试和调试
p1-1-5-9 (p16): 1.5.9 血统和影响分析
p1-1-5-10 (p16): 1.5.10 日志和审计
p1-1-6 (p17): 1.6 小结
p1-2 (p18): 第2章 Kettle基本概念
p1-2-1 (p18): 2.1 设计原则
p1-2-2 (p19): 2.2 Kettle设计模块
p1-2-2-1 (p19): 2.2.1 转换
p1-2-2-2 (p23): 2.2.2 作业
p1-2-2-3 (p28): 2.2.3 转换或作业的元数据
p1-2-2-4 (p28): 2.2.4 数据库连接
p1-2-2-5 (p31): 2.2.5 工具
p1-2-2-6 (p31): 2.2.6 资源库
p1-2-2-7 (p31): 2.2.7 虚拟文件系统
p1-2-3 (p32): 2.3 参数和变量
p1-2-3-1 (p32): 2.3.1 定义变量
p1-2-3-2 (p33): 2.3.2 命名参数
p1-2-3-3 (p33): 2.3.3 使用变量
p1-2-4 (p34): 2.4 可视化编程
p1-2-4-1 (p34): 2.4.1 开始
p1-2-4-2 (p35): 2.4.2 创建新的步骤
p1-2-4-3 (p36): 2.4.3 放在一起
p1-2-5 (p38): 2.5 小结
p1-3 (p39): 第3章 安装和配置
p1-3-1 (p39): 3.1 Kettle软件概览
p1-3-1-1 (p40): 3.1.1 集成开发环境:Spoon
p1-3-1-2 (p42): 3.1.2 命令行启动:Kitchen和Pan
p1-3-1-3 (p42): 3.1.3 作业服务器:Carte
p1-3-1-4 (p42): 3.1.4 Encr bat和encr.sh
p1-3-2 (p43): 3.2 安装
p1-3-2-1 (p43): 3.2.1 Java环境
p1-3-2-2 (p43): 3.2.2 安装Kettle
p1-3-3 (p46): 3.3 配置
p1-3-3-1 (p46): 3.3.1 配置文件和:kettle目录
p1-3-3-2 (p51): 3.3.2 用于启动Kettle程序的shell脚本
p1-3-3-3 (p52): 3.3.3 管理JDBC驱动
p1-3-4 (p53): 3.4 小结
p1-4 (p54): 第4章 ETL示例解决方案——Sakila
p1-4-1 (p54): 4.1 Sakila
p1-4-1-1 (p55): 4.1.1 sakila示例数据库
p1-4-1-2 (p57): 4.1.2 租赁业务的星型模型
p1-4-2 (p60): 4.2 预备知识和一些基础的Spoon技巧
p1-4-2-1 (p60): 4.2.1 安装ETL解决方案
p1-4-2-2 (p60): 4.2.2 Spoon使用
p1-4-3 (p61): 4.3 ETL示例解决方案
p1-4-3-1 (p62): 4.3.1 生成静态维度
p1-4-3-2 (p64): 4.3.2 循环加载
p1-4-4 (p80): 4.4 小结
p2 (p82): 第二部分:ETL
p2-1 (p82): 第5章 ETL子系统
p2-1-1 (p82): 5.1 34种子系统介绍
p2-1-1-1 (p83): 5.1.1 抽取
p2-1-1-2 (p84): 5.1.2 清洗和更正数据
p2-1-1-3 (p86): 5.1.3 数据发布
p2-1-1-4 (p89): 5.1.4 管理ETL环境
p2-1-2 (p91): 5.2 小结
p2-2 (p92): 第6章 数据抽取
p2-2-1 (p92): 6.1 Kettle数据抽取概览
p2-2-1-1 (p93): 6.1.1 文件抽取
p2-2-1-2 (p97): 6.1.2 数据库抽取
p2-2-1-3 (p98): 6.1.3 Web数据抽取
p2-2-1-4 (p99): 6.1.4 基于流的和实时的抽取
p2-2-2 (p100): 6.2 处理ERP和CRM系统
p2-2-2-1 (p100): 6.2.1 ERP挑战
p2-2-2-2 (p101): 6.2.2 Kettle ERP插件
p2-2-2-3 (p101): 6.2.3 处理SAP数据
p2-2-2-4 (p104): 6.2.4 ERP和CDC问题
p2-2-3 (p105): 6.3 数据剖析
p2-2-4 (p110): 6.4 CDC:变更数据捕获
p2-2-4-1 (p111): 6.4.1 基于源数据的CDC
p2-2-4-2 (p113): 6.4.2 基于触发器的CDC
p2-2-4-3 (p113): 6.4.3 基于快照的CDC
p2-2-4-4 (p116): 6.4.4 基于日志的CDC
p2-2-4-5 (p117): 6.4.5 哪个CDC方案更适合你
p2-2-5 (p117): 6.5 发布数据
p2-2-6 (p118): 6.6 小结
p2-3 (p119): 第7章 清洗和校验
p2-3-1 (p120): 7.1 数据清洗
p2-3-1-1 (p121): 7.1.1 数据清洗步骤
p2-3-1-2 (p123): 7.1.2 使用参照表
p2-3-1-3 (p127): 7.1.3 数据校验
p2-3-2 (p130): 7.2 错误处理
p2-3-2-1 (p131): 7.2.1 处理过程错误
p2-3-2-2 (p132): 7.2.2 转换错误
p2-3-2-3 (p133): 7.2.3 处理数据(校验)错误
p2-3-3 (p136): 7.3 审计数据和过程质量
p2-3-4 (p137): 7.4 数据排重
p2-3-4-1 (p137): 7.4.1 去除完全重复的数据
p2-3-4-2 (p138): 7.4.2 不完全重复问题
p2-3-4-3 (p139): 7.4.3 设计排除重复记录的转换
p2-3-5 (p142): 7.5 脚本
p2-3-5-1 (p143): 7.5.1 公式
p2-3-5-2 (p143): 7.5.2 Java脚本
p2-3-5-3 (p144): 7.5.3 用户自定义Java表达式
p2-3-5-4 (p145): 7.5.4 正则表达式
p2-3-6 (p146): 7.6 小结
p2-4 (p147): 第8章 处理维度表
p2-4-1 (p148): 8.1 管理各种键
p2-4-1-1 (p148): 8.1.1 管理业务键
p2-4-1-2 (p149): 8.1.2 生成代理键
p2-4-2 (p154): 8.2 加载维度表
p2-4-2-1 (p154): 8.2.1 雪花维度表
p2-4-2-2 (p159): 8.2.2 星型维度表
p2-4-3 (p161): 8.3 缓慢变更维度
p2-4-3-1 (p161): 8.3.1 缓慢变更维类型
p2-4-3-2 (p161): 8.3.2 类型1的缓慢变更维
p2-4-3-3 (p163): 8.3.3 类型2的缓慢变更维
p2-4-3-4 (p167): 8.3.4 其他类型的缓慢变更维
p2-4-4 (p168): 8.4 更多维度
p2-4-4-1 (p168): 8.4.1 生成维(Generated Dimensions)
p2-4-4-2 (p169): 8.4.2 杂项维度(Junk Dimensions)
p2-4-4-3 (p170): 8.4.3 递归层次
p2-4-5 (p171): 8.5 小结
p2-5 (p172): 第9章 加载事实表
p2-5-1 (p173): 9.1 批量加载
p2-5-1-1 (p173): 9.1.1 STDIN和FIFO
p2-5-1-2 (p174): 9.1.2 Kettle批量加载
p2-5-1-3 (p176): 9.1.3 批量加载一般要考虑的问题
p2-5-2 (p176): 9.2 维度查询
p2-5-2-1 (p176): 9.2.1 维护参照完整性
p2-5-2-2 (p177): 9.2.2 代理键管道
p2-5-2-3 (p179): 9.2.3 迟到数据
p2-5-3 (p182): 9.3 处理事实表
p2-5-3-1 (p182): 9.3.1 周期快照和累积快照
p2-5-3-2 (p183): 9.3.2 面向状态的事实表
p2-5-3-3 (p185): 9.3.3 加载周期快照表
p2-5-3-4 (p185): 9.3.4 加载累积快照表
p2-5-3-5 (p186): 9.3.5 加载面向状态事实表
p2-5-3-6 (p186): 9.3.6 加载聚集表
p2-5-4 (p187): 9.4 小结
p2-6 (p188): 第10章 处理OLAP数据
p2-6-1 (p189): 10.1 OLAP的价值和挑战
p2-6-1-1 (p190): 10.1.1 OLAP存储类型
p2-6-1-2 (p191): 10.1.2 OLAP在系统中的位置
p2-6-1-3 (p191): 10.1.3 Kettle OLAP选项
p2-6-2 (p192): 10.2 Mondrian
p2-6-3 (p194): 10.3 XML/A服务
p2-6-4 (p197): 10.4 Palo
p2-6-4-1 (p198): 10.4.1 建立Palo连接
p2-6-4-2 (p199): 10.4.2 Palo架构
p2-6-4-3 (p200): 10.4.3 读Palo数据
p2-6-4-4 (p202): 10.4.4 写Palo数据
p2-6-5 (p204): 10.5 小结
p3 (p206): 第三部分:管理和部署
p3-1 (p206): 第11章 ETL开发生命期
p3-1-1 (p206): 11.1 解决方案设计
p3-1-1-1 (p206): 11.1.1 好习惯和坏习惯
p3-1-1-2 (p209): 11.1.2 ETL流设计
p3-1-1-3 (p209): 11.1.3 可重用性和可维护性
p3-1-2 (p210): 11.2 敏捷开发
p3-1-3 (p214): 11.3 测试和调试
p3-1-3-1 (p214): 11.3.1 测试活动
p3-1-3-2 (p215): 11.3.2 ETL测试
p3-1-3-3 (p218): 11.3.3 调试
p3-1-4 (p220): 11.4 解决方案文档化
p3-1-4-1 (p220): 11.4.1 为什么实际情况下文档很少
p3-1-4-2 (p221): 11.4.2 Kettle的文档功能
p3-1-4-3 (p222): 11.4.3 生成文档
p3-1-5 (p223): 11.5 小结
p3-2 (p224): 第12章 调度和监控
p3-2-1 (p224): 12.1 调度
p3-2-1-1 (p225): 12.1.1 操作系统级调度
p3-2-1-2 (p228): 12.1.2 使用Pentaho内置的调度程序
p3-2-2 (p232): 12.2 监控
p3-2-2-1 (p232): 12.2.1 日志
p3-2-2-2 (p234): 12.2.2 邮件通知
p3-2-3 (p237): 12.3 小结
p3-3 (p238): 第13章 版本和移植
p3-3-1 (p238): 13.1 版本控制系统
p3-3-1-1 (p239): 13.1.1 基于文件的版本控制系统
p3-3-1-2 (p240): 13.1.2 内容管理系统
p3-3-2 (p240): 13.2 Kettle元数据
p3-3-2-1 (p241): 13.2.1 Kettle XML元数据
p3-3-2-2 (p242): 13.2.2 Kettle资源库元数据
p3-3-3 (p244): 13.3 管理资源库
p3-3-3-1 (p244): 13.3.1 导出和导入资源库
p3-3-3-2 (p245): 13.3.2 资源库升级
p3-3-4 (p245): 13.4 版本移植系统
p3-3-4-1 (p245): 13.4.1 管理XML文件
p3-3-4-2 (p246): 13.4.2 管理资源库
p3-3-4-3 (p246): 13.4.3 解决方案参数化
p3-3-5 (p248): 13.5 小结
p3-4 (p249): 第14章 血统和审计
p3-4-1 (p250): 14.1 批量血统抽取
p3-4-2 (p251): 14.2 血统
p3-4-2-1 (p251): 14.2.1 血统信息
p3-4-2-2 (p252): 14.2.2 影响分析信息
p3-4-3 (p254): 14.3 日志和操作元数据
p3-4-3-1 (p254): 14.3.1 日志基础
p3-4-3-2 (p255): 14.3.2 日志架构
p3-4-3-3 (p257): 14.3.3 日志表
p3-4-4 (p262): 14.4 小结
p4 (p264): 第四部分:性能和扩展性
p4-1 (p264): 第15章 性能调优
p4-1-1 (p264): 15.1 转换性能:找到最弱连接
p4-1-1-1 (p265): 15.1.1 通过简化找到性能瓶颈
p4-1-1-2 (p266): 15.1.2 通过度量值找到性能瓶颈
p4-1-1-3 (p267): 15.1.3 复制数据行
p4-1-2 (p269): 15.2 提高转换性能
p4-1-2-1 (p269): 15.2.1 提高读文本文件的性能
p4-1-2-2 (p271): 15.2.2 写文本文件时使用延迟转换
p4-1-2-3 (p272): 15.2.3 提高数据库性能
p4-1-2-4 (p275): 15.2.4 数据排序
p4-1-2-5 (p276): 15.2.5 减少CPU消耗
p4-1-3 (p280): 15.3 提高作业性能
p4-1-3-1 (p280): 15.3.1 作业里的循环
p4-1-3-2 (p281): 15.3.2 数据库连接池
p4-1-4 (p281): 15.4 小结
p4-2 (p283): 第16章 并行、集群和分区
p4-2-1 (p283): 16.1 多线程
p4-2-1-1 (p284): 16.1.1 数据行分发
p4-2-1-2 (p285): 16.1.2 记录行合并
p4-2-1-3 (p285): 16.1.3 记录行再分发
p4-2-1-4 (p286): 16.1.4 数据流水线
p4-2-1-5 (p287): 16.1.5 多线程的问题
p4-2-1-6 (p289): 16.1.6 作业中的并行执行
p4-2-2 (p289): 16.2 使用Carte子服务器
p4-2-2-1 (p289): 16.2.1 配置文件
p4-2-2-2 (p290): 16.2.2 定义子服务器
p4-2-2-3 (p291): 16.2.3 远程执行
p4-2-2-4 (p291): 16.2.4 监视子服务器
p4-2-2-5 (p291): 16.2.5 Carte安全
p4-2-2-6 (p292): 16.2.6 服务
p4-2-3 (p293): 16.3 集群转换
p4-2-3-1 (p293): 16.3.1 定义一个集群模式
p4-2-3-2 (p294): 16.3.2 设计集群转换
p4-2-3-3 (p295): 16.3.3 执行和监控
p4-2-3-4 (p296): 16.3.4 元数据转换
p4-2-4 (p298): 16.4 分区
p4-2-4-1 (p299): 16.4.1 定义分区模式
p4-2-4-2 (p300): 16.4.2 分区的目标
p4-2-4-3 (p300): 16.4.3 实现分区
p4-2-4-4 (p301): 16.4.4 内部变量
p4-2-4-5 (p301): 16.4.5 数据库分区
p4-2-4-6 (p302): 16.4.6 集群转换中的分区
p4-2-5 (p302): 16.5 小结
p4-3 (p303): 第17章 云计算中的动态集群
p4-3-1 (p303): 17.1 动态集群
p4-3-1-1 (p304): 17.1.1 建立动态集群
p4-3-1-2 (p306): 17.1.2 使用动态集群
p4-3-2 (p306): 17.2 云计算
p4-3-3 (p307): 17.3 EC2
p4-3-3-1 (p307): 17.3.1 如何使用EC2
p4-3-3-2 (p307): 17.3.2 成本
p4-3-3-3 (p307): 17.3.3 自定义AMI
p4-3-3-4 (p310): 17.3.4 打包新AM
p4-3-3-5 (p310): 17.3.5 中止AMI
p4-3-3-6 (p310): 17.3.6 运行主节点
p4-3-3-7 (p311): 17.3.7 运行子节点
p4-3-3-8 (p312): 17.3.8 使用EC2集群
p4-3-3-9 (p313): 17.3.9 监控
p4-3-3-10 (p314): 17.3.10 轻量原则和持久性
p4-3-4 (p314): 17.4 小结
p4-4 (p315): 第18章 实时数据整合
p4-4-1 (p315): 18.1 实时ETL介绍
p4-4-1-1 (p316): 18.1.1 实时处理面临的挑战
p4-4-1-2 (p316): 18.1.2 需求
p4-4-2 (p317): 18.2 基于流的转换
p4-4-2-1 (p318): 18.2.1 一个基于流的转换实例
p4-4-2-2 (p321): 18.2.2 调试
p4-4-2-3 (p321): 18.2.3 第三方软件和实时整合
p4-4-2-4 (p322): 18.2.4 Java消息服务
p4-4-3 (p324): 18.3 小结
p5 (p326): 第五部分:高级主题
p5-1 (p326): 第19章 Data Vault管理
p5-1-1 (p327): 19.1 Data Vault模型介绍
p5-1-2 (p327): 19.2 你是否需要Data Vault
p5-1-3 (p328): 19.3 Data Vault的组成部分
p5-1-3-1 (p328): 19.3.1 中心表
p5-1-3-2 (p329): 19.3.2 链接表
p5-1-3-3 (p329): 19.3.3 附属表
p5-1-3-4 (p331): 19.3.4 Data Vault特点
p5-1-3-5 (p331): 19.3.5 构建Data Vault模型
p5-1-4 (p331): 19.4 将Sakila的例子转换成Data Vault模型
p5-1-4-1 (p331): 19.4.1 Sakila中心表
p5-1-4-2 (p332): 19.4.2 Sakila链接表
p5-1-4-3 (p333): 19.4.3 Sakila附属表
p5-1-5 (p334): 19.5 加载Data Vault模型:简单的ETL解决方案
p5-1-5-1 (p335): 19.5.1 安装Sakila Data Vault
p5-1-5-2 (p335): 19.5.2 安装ETL方案
p5-1-5-3 (p335): 19.5.3 创建一个数据库账户
p5-1-5-4 (p335): 19.5.4 ETL解决方案的例子
p5-1-5-5 (p341): 19.5.5 加载Data Vault表
p5-1-6 (p341): 19.6 从Data Vault模型更新数据集市
p5-1-6-1 (p342): 19.6.1 ETL解决方案例子
p5-1-6-2 (p342): 19.6.2 dim _actor转换
p5-1-6-3 (p343): 19.6.3 dim _customer转换
p5-1-6-4 (p346): 19.6.4 dim _film转换
p5-1-6-5 (p347): 19.6.5 dim_film_actor_bridge转换
p5-1-6-6 (p347): 19.6.6 fact rental转换
p5-1-6-7 (p349): 19.6.7 加载星型模型里的所有表
p5-1-7 (p349): 19.7 小结
p5-2 (p350): 第20章 处理复杂数据格式
p5-2-1 (p350): 20.1 非关系型和非表格型的数据格式
p5-2-2 (p351): 20.2 非结构化的表格型数据
p5-2-2-1 (p351): 20.2.1 处理多值字段
p5-2-2-2 (p352): 20.2.2 处理重复的字段组
p5-2-3 (p353): 20.3 半结构化和非结构化数据
p5-2-4 (p358): 20.4 键/值对
p5-2-5 (p362): 20.5 小结
p5-3 (p363): 第21章 Web Services
p5-3-1 (p363): 21.1 Web页面和Web Services
p5-3-2 (p365): 21.2 数据格式
p5-3-2-1 (p365): 21.2.1 XML
p5-3-2-2 (p366): 21.2.2 HTML
p5-3-2-3 (p367): 21.2.3 JavaScript Object Notation
p5-3-3 (p369): 21.3 XML例子
p5-3-3-1 (p369): 21.3.1 XML例子文件
p5-3-3-2 (p371): 21.3.2 从XML中抽取数据
p5-3-3-3 (p378): 21.3.3 生成XML文档
p5-3-4 (p384): 21.4 SOAP例子
p5-3-4-1 (p385): 21.4.1 使用“Web服务查询”步骤
p5-3-4-2 (p386): 21.4.2 直接访问SOAP服务
p5-3-5 (p389): 21.5 JSON例子
p5-3-5-1 (p389): 21.5.1 Freebase项目
p5-3-5-2 (p392): 21.5.2 使用Kettle抽取Freebase数据
p5-3-6 (p396): 21.6 RSS
p5-3-6-1 (p396): 21.6.1 RSS结构
p5-3-6-2 (p398): 21.6.2 Kettle对RSS的支持
p5-3-7 (p403): 21.7 小结
p5-4 (p404): 第22章 Kettle集成
p5-4-1 (p404): 22.1 Kettle API
p5-4-1-1 (p404): 22.1.1 LGPL协议
p5-4-1-2 (p405): 22.1.2 Kettle Java API
p5-4-2 (p406): 22.2 执行存在的转换和作业
p5-4-2-1 (p406): 22.2.1 执行一个转换
p5-4-2-2 (p407): 22.2.2 执行一个作业
p5-4-3 (p408): 22.3 应用程序中嵌入Kettle
p5-4-3-1 (p408): 22.3.1 Pentaho报表
p5-4-3-2 (p410): 22.3.2 把数据放到转换里
p5-4-3-3 (p413): 22.3.3 动态转换
p5-4-3-4 (p416): 22.3.4 动态模板
p5-4-3-5 (p416): 22.3.5 动态作业
p5-4-3-6 (p419): 22.3.6 在Kettle里执行动态ETL
p5-4-3-7 (p419): 22.3.7 Result
p5-4-3-8 (p420): 22.3.8 替换元数据
p5-4-4 (p421): 22.4 OEM版本和二次发布版本
p5-4-4-1 (p421): 22.4.1 创建PDI的OEM版本
p5-4-4-2 (p422): 22.4.2 Kettle的二次发布(Forking)
p5-4-5 (p423): 22.5 小结
p5-5 (p424): 第23章 扩展Kettle
p5-5-1 (p424): 23.1 插件架构
p5-5-1-1 (p425): 23.1.1 插件类型
p5-5-1-2 (p425): 23.1.2 架构
p5-5-1-3 (p425): 23.1.3 前提
p5-5-2 (p428): 23.2 转换步骤插件
p5-5-2-1 (p428): 23.2.1 StepMetaInterface
p5-5-2-2 (p434): 23.2.2 StepDataInterface
p5-5-2-3 (p434): 23.2.3 StepDialogInterface
p5-5-2-4 (p440): 23.2.4 StepInterface
p5-5-3 (p444): 23.3 用户自定义Java类步骤
p5-5-3-1 (p444): 23.3.1 传递元数据
p5-5-3-2 (p445): 23.3.2 访问输入和字段
p5-5-3-3 (p445): 23.3.3 代码片段
p5-5-3-4 (p445): 23.3.4 例子
p5-5-4 (p446): 23.4 作业项插件
p5-5-4-1 (p446): 23.4.1 JobEntryInterface
p5-5-4-2 (p448): 23.4.2 JobEntryDialogInterface
p5-5-5 (p448): 23.5 分区插件
p5-5-6 (p450): 23.6 资源库插件
p5-5-7 (p450): 23.7 数据库类型插件
p5-5-8 (p451): 23.8 小结
p6 (p452): 附录A Kettle生态群
p7 (p456): 附录B Kettle企业版特性
p8 (p457): 附录C 内置的变量和属性参考
备用描述
A complete guide to Pentaho Kettle, the Pentaho Data lntegration toolset for ETL This practical book is a complete guide to installing, configuring, and managing Pentaho Kettle. If you're a database administrator or developer, you'll first get up to speed on Kettle basics and how to apply Kettle to create ETL solutions—before progressing to specialized concepts such as clustering, extensibility, and data vault models. Learn how to design and build every phase of an ETL solution. Shows developers and database administrators how to use the open-source Pentaho Kettle for enterprise-level ETL processes (Extracting, Transforming, and Loading data) Assumes no prior knowledge of Kettle or ETL, and brings beginners thoroughly up to speed at their own pace Explains how to get Kettle solutions up and running, then follows the 34 ETL subsystems model, as created by the Kimball Group, to explore the entire ETL lifecycle, including all aspects of data warehousing with Kettle Goes beyond routine tasks to explore how to extend Kettle and scale Kettle solutions using a distributed “cloud” Get the most out of Pentaho Kettle and your data warehousing with this detailed guide—from simple single table data migration to complex multisystem clustered data integration tasks.
备用描述
This Practical Book Is A Complete Guide To Installing, Configuring, And Managing Pentaho Kettle. If You're A Database Administrator Or Developer, You'll First Get Up To Speed On Kettle Basics And How To Apply Kettle To Create Etl Solutions--before Progressing To Specialized Concepts Such As Clustering, Extensibility, And Data Vault Models. Learn How To Design And Build Every Phase Of An Etl Solution.--resource Description Page. Matt Casters, Roland Bouman, Jos Van Dongen. Description Based On Print Version Record. Includes Index.
备用描述
封面
封底
内容简介
用户体会
译者序
关于作者
致谢
介绍
目录
第一部分:开始
第1章 ETL入门
第2章 Kettle基本概念
第3章 安装和配置
第4章 ETL示例解决方案――Sakila
第二部分:ETL
第5章 ETL子系统
第6章 数据抽取
第7章 清洗和校验
第8章 处理维度表
第9章 加载事实表
第10章 处理OLAP数据
第三部分:管理和部署
第11章 ETL开发生命期
第12章 调度和监控
第13章 版本和移植
第14章 血统和审计
第四部分:性能和扩展性
第15章 性能调优
第16章 并行、集群和分区
第17章 云计算中的动态集群
第18章 实时数据整合
第五部分:高级主题
第19章 Data Vault管理
第20章 处理复杂数据格式
第21章 Web Services
第22章 Kettle集成
第23章 扩展Kettle
附录A:Kettle生态群
附录B:Kettle 企业版特性
附录C:内置的变量和属性参考
封底
内容简介
用户体会
译者序
关于作者
致谢
介绍
目录
第一部分:开始
第1章 ETL入门
第2章 Kettle基本概念
第3章 安装和配置
第4章 ETL示例解决方案――Sakila
第二部分:ETL
第5章 ETL子系统
第6章 数据抽取
第7章 清洗和校验
第8章 处理维度表
第9章 加载事实表
第10章 处理OLAP数据
第三部分:管理和部署
第11章 ETL开发生命期
第12章 调度和监控
第13章 版本和移植
第14章 血统和审计
第四部分:性能和扩展性
第15章 性能调优
第16章 并行、集群和分区
第17章 云计算中的动态集群
第18章 实时数据整合
第五部分:高级主题
第19章 Data Vault管理
第20章 处理复杂数据格式
第21章 Web Services
第22章 Kettle集成
第23章 扩展Kettle
附录A:Kettle生态群
附录B:Kettle 企业版特性
附录C:内置的变量和属性参考
备用描述
pt. 1. Getting started
pt. 2. ETL
pt. 3. Management and deployment
pt. 4. Performance and scalability
pt. 5. Advanced topics.
pt. 2. ETL
pt. 3. Management and deployment
pt. 4. Performance and scalability
pt. 5. Advanced topics.
备用描述
本书主要介绍如何使用开源ETL工具来完成数据整合工作.介绍的PDI(Kettle)是一种开源的ETL解决方案, 介绍了如何使用PDI来实现数据的剖析, 清洗, 校验, 抽取, 转换, 加载等各类常见的ETL类工作
开源日期
2024-02-21
🚀 快速下载
成为会员以支持书籍、论文等的长期保存。为了感谢您对我们的支持,您将获得高速下载权益。❤️
🐢 低速下载
由可信的合作方提供。 更多信息请参见常见问题解答。 (可能需要验证浏览器——无限次下载!)
- 低速服务器(合作方提供) #1 (稍快但需要排队)
- 低速服务器(合作方提供) #2 (稍快但需要排队)
- 低速服务器(合作方提供) #3 (稍快但需要排队)
- 低速服务器(合作方提供) #4 (稍快但需要排队)
- 低速服务器(合作方提供) #5 (无需排队,但可能非常慢)
- 低速服务器(合作方提供) #6 (无需排队,但可能非常慢)
- 低速服务器(合作方提供) #7 (无需排队,但可能非常慢)
- 低速服务器(合作方提供) #8 (无需排队,但可能非常慢)
- 低速服务器(合作方提供) #9 (无需排队,但可能非常慢)
- 下载后: 在我们的查看器中打开
所有选项下载的文件都相同,应该可以安全使用。即使这样,从互联网下载文件时始终要小心。例如,确保您的设备更新及时。
外部下载
-
对于大文件,我们建议使用下载管理器以防止中断。
推荐的下载管理器:JDownloader -
您将需要一个电子书或 PDF 阅读器来打开文件,具体取决于文件格式。
推荐的电子书阅读器:Anna的档案在线查看器、ReadEra和Calibre -
使用在线工具进行格式转换。
推荐的转换工具:CloudConvert和PrintFriendly -
您可以将 PDF 和 EPUB 文件发送到您的 Kindle 或 Kobo 电子阅读器。
推荐的工具:亚马逊的“发送到 Kindle”和djazz 的“发送到 Kobo/Kindle” -
支持作者和图书馆
✍️ 如果您喜欢这个并且能够负担得起,请考虑购买原版,或直接支持作者。
📚 如果您当地的图书馆有这本书,请考虑在那里免费借阅。
下面的文字仅以英文继续。
总下载量:
“文件的MD5”是根据文件内容计算出的哈希值,并且基于该内容具有相当的唯一性。我们这里索引的所有影子图书馆都主要使用MD5来标识文件。
一个文件可能会出现在多个影子图书馆中。有关我们编译的各种数据集的信息,请参见数据集页面。
有关此文件的详细信息,请查看其JSON 文件。 Live/debug JSON version. Live/debug page.