kettle导出excel例子(kettle导出表结构和数据)

Excel表格网 2022-10-08 19:15 编辑:祝馨 248阅读

1. kettle导出表结构和数据

Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。 ETL工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、Trinity、AICloudETL、DataStage、Repository Explorer、Beeload、Kettle、DataSpider

目前,ETL工具的典型代表有:Informatica、Datastage、OWB、微软DTS、Beeload、Kettle……

开源的工具有eclipse的etl插件。cloveretl.

数据集成:快速实现ETL

ETL的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个特性。而影响质量问题的原因有很多,由系统集成和历史数据造成的原因主要包括:业务系统不同时期系统之间数据模型不一致;业务系统不同时期业务过程有变化;旧系统模块在运营、人事、财务、办公系统等相关信息的不一致;遗留系统和新业务、管理系统数据集成不完备带来的不一致性。

实现ETL,首先要实现ETL转换的过程。它可以集中地体现为以下几个方面:

1、空值处理:可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。

2、规范化数据格式:可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式。

3、拆分数据:依据业务需求对字段可进行分解。例,主叫号 861082585313-8148,可进行区域码和电话号码分解。

4、验证数据正确性:可利用Lookup及拆分功能进行数据验证。例如,主叫号861082585313-8148,进行区域码和电话号码分解后,可利用Lookup返回主叫网关或交换机记载的主叫地区,进行数据验证。

5、数据替换:对于因业务因素,可实现无效数据、缺失数据的替换。

6、Lookup:查获丢失数据 Lookup实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性。

7、建立ETL过程的主外键约束:对无依赖性的非法数据,可替换或导出到错误数据文件中,保证主键唯一记录的加载。


2. kettle资源库表结构说明

一、概述

开源产品总是让人欢喜让人忧。喜的是低成本,忧的是低成熟度。所以,不少有Java基础的K友都在研究源代码。掌控源代码,当然是最靠谱的,但对技术水平要求非常高。笔者希望通过介绍Kettle程序启动的基本原理,为源代码研究者打开一扇窗户,一窥源代码的究竟。

以下内容以Spoon为例,但原理适用于Kitchen、Pan、Carte等所有其他应用。

二、环境

硬件:处理器 Intel i7-7700HQ 2.8GHz 内存32G

操作系统:Windows 7 x64 旗舰版。内部版本6.1.7601,SP1

Java版本:1.8.0_181 HotSpot<TM> 64-Bit mixed mode

三、原理解析

1、批处理文件set-pentaho-env.bat

批处理文件一般不会单独执行,因为它的功能是进行环境配置。但是大多数Kettle相关的批处理都会先执行此脚本,以设置以下两个环境变量:

_PENTAHO_JAVA_HOME

_PENTAHO_JAVA

前者是Java环境路径,一般是JDK/JRE所在绝对路径;后者表示启动Java进程需要的java.exe/javaw.exe文件所在绝对路径。由于并不确定用户到底需要使用java.exe还是javaw.exe,所以脚本单独定义了__LAUNCHER环境变量表达此选择。

脚本将按照以下顺序搜索__LAUNCHER的位置:

第一个命令行参数的bin文件夹下

PENTAHO_JAVA_HOME环境变量的bin文件夹下

当前路径下的jre/bin文件夹下

当前路径下的java/bin文件夹下

当前路径上级目录下的jre/bin文件夹下

当前路径上级目录下的java/bin文件夹下

当前路径上上级目录下的jre/bin文件夹下

当前路径上上级目录下的java/bin文件夹下

JAVA_HOME环境变量的bin文件夹下

JRE_HOME环境变量的bin文件夹下

2、批处理文件Spoon.bat

首先会调用相同路径下的批处理文件set-pentaho-env.bat以设置环境变量。接下来一个重要的工作是查找合适的GUI依赖库。

由于Spoon中涉及GUI图形界面,其实现技术为SWT。而SWT的库是依赖于操作系统的,Linux、苹果os、Windows32和Windows


3. kettle excel导入数据库

如果导出xls可以再内容页签 选择分页数 如果想到处xlsx,可以用插件 Microsoft Excel Writer


4. kettle导出资源库

ETL,Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。ETL工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、AICloudETL、DataStage、Repository Explorer、Beeload、Kettle、DataSpider


5. kettle 获取表结构

大数据开发步骤:

第一步:需求:数据的输入和数据的产出;

第二步:数据量、处理效率、可靠性、可维护性、简洁性;

第三步:数据建模;

第四步:架构设计:数据怎么进来,输出怎么展示,最最重要的是处理流出数据的架构;

第五步:再次思考大数据系统和企业IT系统的交互;

第六步:最终确定选择、规范等;

第七步:基于数据建模写基础服务代码;

第八步:正式编写第一个模块;

第九步:实现其它的模块,并完成测试和调试等;

第十步:测试和验收;

大数据流程:

从流程角度上看,整个大数据处理可分成4个主要步骤。

第一步是数据的搜集与存储;

第二步是通过数据分析技术对数据进行探索性研究,包括无关数据的剔除,即数据清洗,与寻找数据的模式探索数据的价值所在;

第三步为在基本数据分析的基础上,选择和开发数据分析算法,对数据进行建模。从数据中提取有价值的信息,这其实是真正的阿里云大数据的学习过程。这当中会涉及很多算法和技术,比如机器学习算法等;

最后一步是对模型的部署和应用,即把研究出来的模型应用到生产环境之中。

1) 数据采集:定制开发采集程序,或使用开源框架flume

2) 数据预处理:定制开发mapreduce程序运行于hadoop集群

3) 数据仓库技术:基于hadoop之上的Hive

4) 数据导出:基于hadoop的sqoop数据导入导出工具

5) 数据可视化:定制开发web程序或使用kettle等产品


顶一下
(0)
0%
踩一下
(0)
0%
相关评论
我要评论
点击我更换图片