kettle导出excel例子(kettle导出表结构和数据)

1. kettle导出表结构和数据

Extraction-Transformation-Loading的缩写，中文名称为数据提取、转换和加载。 ETL工具有：OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、Trinity、AICloudETL、DataStage、Repository Explorer、Beeload、Kettle、DataSpider

目前，ETL工具的典型代表有:Informatica、Datastage、OWB、微软DTS、Beeload、Kettle……

开源的工具有eclipse的etl插件。cloveretl.

数据集成：快速实现ETL

ETL的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个特性。而影响质量问题的原因有很多，由系统集成和历史数据造成的原因主要包括:业务系统不同时期系统之间数据模型不一致；业务系统不同时期业务过程有变化；旧系统模块在运营、人事、财务、办公系统等相关信息的不一致；遗留系统和新业务、管理系统数据集成不完备带来的不一致性。

实现ETL，首先要实现ETL转换的过程。它可以集中地体现为以下几个方面：

1、空值处理：可捕获字段空值，进行加载或替换为其他含义数据，并可根据字段空值实现分流加载到不同目标库。

2、规范化数据格式：可实现字段格式约束定义，对于数据源中时间、数值、字符等数据，可自定义加载格式。

3、拆分数据：依据业务需求对字段可进行分解。例，主叫号 861082585313-8148，可进行区域码和电话号码分解。

4、验证数据正确性：可利用Lookup及拆分功能进行数据验证。例如，主叫号861082585313-8148，进行区域码和电话号码分解后，可利用Lookup返回主叫网关或交换机记载的主叫地区，进行数据验证。

5、数据替换：对于因业务因素，可实现无效数据、缺失数据的替换。

6、Lookup：查获丢失数据 Lookup实现子查询，并返回用其他手段获取的缺失字段，保证字段完整性。

7、建立ETL过程的主外键约束：对无依赖性的非法数据，可替换或导出到错误数据文件中，保证主键唯一记录的加载。

2. kettle资源库表结构说明

一、概述

开源产品总是让人欢喜让人忧。喜的是低成本，忧的是低成熟度。所以，不少有Java基础的K友都在研究源代码。掌控源代码，当然是最靠谱的，但对技术水平要求非常高。笔者希望通过介绍Kettle程序启动的基本原理，为源代码研究者打开一扇窗户，一窥源代码的究竟。

以下内容以Spoon为例，但原理适用于Kitchen、Pan、Carte等所有其他应用。

二、环境

硬件：处理器 Intel i7-7700HQ 2.8GHz 内存32G

操作系统：Windows 7 x64 旗舰版。内部版本6.1.7601，SP1

Java版本：1.8.0_181 HotSpot<TM> 64-Bit mixed mode

三、原理解析

1、批处理文件set-pentaho-env.bat

批处理文件一般不会单独执行，因为它的功能是进行环境配置。但是大多数Kettle相关的批处理都会先执行此脚本，以设置以下两个环境变量：

_PENTAHO_JAVA_HOME

_PENTAHO_JAVA

前者是Java环境路径，一般是JDK/JRE所在绝对路径；后者表示启动Java进程需要的java.exe/javaw.exe文件所在绝对路径。由于并不确定用户到底需要使用java.exe还是javaw.exe，所以脚本单独定义了__LAUNCHER环境变量表达此选择。

脚本将按照以下顺序搜索__LAUNCHER的位置：

第一个命令行参数的bin文件夹下

PENTAHO_JAVA_HOME环境变量的bin文件夹下

当前路径下的jre/bin文件夹下

当前路径下的java/bin文件夹下

当前路径上级目录下的jre/bin文件夹下

当前路径上级目录下的java/bin文件夹下

当前路径上上级目录下的jre/bin文件夹下

当前路径上上级目录下的java/bin文件夹下

JAVA_HOME环境变量的bin文件夹下

JRE_HOME环境变量的bin文件夹下

2、批处理文件Spoon.bat

首先会调用相同路径下的批处理文件set-pentaho-env.bat以设置环境变量。接下来一个重要的工作是查找合适的GUI依赖库。

由于Spoon中涉及GUI图形界面，其实现技术为SWT。而SWT的库是依赖于操作系统的，Linux、苹果os、Windows32和Windows

3. kettle excel导入数据库

如果导出xls可以再内容页签选择分页数如果想到处xlsx,可以用插件 Microsoft Excel Writer

4. kettle导出资源库

ETL,Extraction-Transformation-Loading的缩写，中文名称为数据提取、转换和加载。ETL工具有：OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、AICloudETL、DataStage、Repository Explorer、Beeload、Kettle、DataSpider

5. kettle 获取表结构

大数据开发步骤：

第一步：需求：数据的输入和数据的产出；

第二步：数据量、处理效率、可靠性、可维护性、简洁性；

第三步：数据建模；

第四步：架构设计：数据怎么进来，输出怎么展示，最最重要的是处理流出数据的架构；

第五步：再次思考大数据系统和企业IT系统的交互；

第六步：最终确定选择、规范等；

第七步：基于数据建模写基础服务代码；

第八步：正式编写第一个模块；

第九步：实现其它的模块，并完成测试和调试等；

第十步：测试和验收；

大数据流程：

从流程角度上看，整个大数据处理可分成4个主要步骤。

第一步是数据的搜集与存储;

第二步是通过数据分析技术对数据进行探索性研究，包括无关数据的剔除，即数据清洗，与寻找数据的模式探索数据的价值所在;

第三步为在基本数据分析的基础上，选择和开发数据分析算法，对数据进行建模。从数据中提取有价值的信息，这其实是真正的阿里云大数据的学习过程。这当中会涉及很多算法和技术，比如机器学习算法等;

最后一步是对模型的部署和应用，即把研究出来的模型应用到生产环境之中。

1) 数据采集：定制开发采集程序，或使用开源框架flume

2) 数据预处理：定制开发mapreduce程序运行于hadoop集群

3) 数据仓库技术：基于hadoop之上的Hive

4) 数据导出：基于hadoop的sqoop数据导入导出工具

5) 数据可视化：定制开发web程序或使用kettle等产品

顶一下

(0)

踩一下

(0)

相关评论

我要评论

kettle导出excel例子(kettle导出表结构和数据)

1. kettle导出表结构和数据

2. kettle资源库表结构说明

3. kettle excel导入数据库

4. kettle导出资源库

5. kettle 获取表结构

excel一直在访问打印机(为什么打开excel总是出现访问打印机)

软件导出excel失败的原因(excel导出失败怎么办)

行政excel字体规范(政府excel表格字体要求)

如何查看excel的打开记录(怎么查看excel打开记录)

excel行高不能超过409(excel解除限定行高409)

最小二乘法excel(最小二乘法计算器在线)

为什么苹果excel打不开(苹果系统excel无法打开)

excel怎么换下一页(表格怎么切换下一页)

mac能用几年(mac能用wallpaper engine吗)

excel文本溢出(excel公式的结果产生溢出)