Kettle（PDI）轉(zhuǎn)換中輸出之自動文檔輸出詳解

述

Automatic documentation output（自動文檔輸出）此步驟用于為一個或多個轉(zhuǎn)換或作業(yè)生成描述性文檔。這可以用來自動生成關于作業(yè)和轉(zhuǎn)換用途的文檔，或者在它們隨時間變化時存檔它們的行為。

它接受文件名和文件類型(轉(zhuǎn)換或作業(yè))的列表作為輸入，并生成一組相應的文檔文件，這些文件可選地包含諸如轉(zhuǎn)換名稱、描述、創(chuàng)建日期、作業(yè)或轉(zhuǎn)換圖、日志配置細節(jié)等詳細信息。

此步驟可用于查詢基于文件的資源庫和數(shù)據(jù)庫或DI資源庫，并與獲取資源庫配置步驟結(jié)合使用。

選項

自動文檔輸出

Automatic documentation output（自動文檔輸出）步驟有以下選項：

Step name（步驟名稱）：在畫布上指定Automatic documentation output（自動文檔輸出）步驟的唯一名稱。您可以自定義名稱或?qū)⑵浔Ａ魹槟J名稱。

File name field（文件名字段）：選擇包含要為其生成文檔的文件名稱的輸入字段。

File type field（文件類型字段）：選擇包含文件類型(轉(zhuǎn)換或作業(yè))的輸入字段。

Target filename（目標文件名）：為生成的文檔指定目標位置和文件名。

Output type（輸出類型）：為生成的文檔選擇輸出類型(PDF、HTML、DOC、Excel、CSV或METADATA)。注意：輸出類型METADATA返回一個名為meta的字段，該字段是對象的序列化實例，具體取決于對象類型，例如TransMeta或JobMeta。

Include the name?（包含名稱）：定義是否在生成的文檔中包含文件名。

Include the description?（包含描述）：選擇在生成的文檔中包含描述(可以通過編輯->設置來修改描述)。

Include the extended description?（包含擴展描述）：選擇在生成的文檔中包含擴展的描述(可以通過編輯->設置來修改擴展的描述)。

Include the creation date and user?（包含用戶名和文檔生成日期）：選擇在生成的文檔中包含創(chuàng)建者的創(chuàng)建日期和用戶名。

Include the modification date and user?（包含用戶名和文檔修改日期）：選擇包含對文件進行最后修改的日期和修改它的用戶。

Include the image?（包含圖片）：選擇在生成的文檔中包含作業(yè)或轉(zhuǎn)換圖。

Include logging configuration details?（包含詳細日志設置）：選擇包含用于在轉(zhuǎn)換或作業(yè)中進行日志記錄的連接的摘要。

Include the last execution result?（包含上一次執(zhí)行結(jié)果）：選擇包含最后一次執(zhí)行結(jié)果的摘要，例如它是成功完成還是失敗結(jié)束。

示例

1.從示例目錄(和子文件夾)收集ktrs和kjbs列表。

首先添加一個獲取文件名的輸入步驟，并在已經(jīng)選擇文件名中添加：文件或目錄：/data-integration/samples/transformations和data-integration/samples/jobs/run_all，正則表達式：Run.*\.kjb$|General.*\.ktr$

然后點擊獲取文件名，進行測試獲取的文件名列表。

2.將擴展名映射到文件類型(轉(zhuǎn)換或作業(yè))

添加一個轉(zhuǎn)換中的值映射步驟。并在獲取文件名步驟到值映射步驟之間建立一個節(jié)點連接。

建立節(jié)點連接

在值映射的步驟上配置使用的字段名為extension,目標字段名（空=覆蓋）：FileType,字段值設置：源值為：ktr，目標值為：Transformation；源值為：kjb，目標值為：Job。

3.從數(shù)據(jù)流中刪除不必要的字段

添加一個轉(zhuǎn)換中的字段選擇步驟，并建立從值映射到字段選擇步驟的節(jié)點連接。

建立節(jié)點連接

在字段選擇的步驟上，點擊獲取選擇的字段，獲取上一步驟中的所有字段列表，然后刪除多余字段，只保留filename和FileType。

選擇獲取的字段名

4.為所有輸入行生成HTML文檔

添加一個輸出中的自動文檔輸出步驟，并建立從字段選擇步驟到自動文檔輸出步驟的節(jié)點連接。

建立節(jié)點連接

在自動文檔輸出步驟上設置文件名字段：filename;文件類型字段：FileType,目標文件名：F:/kettle-autodoc.html；輸出類型為：HTML。選擇包含名稱、包含描述、包含用戶名和文檔修改日期、包含圖片。

設置自動文檔輸出

最后點擊運行，執(zhí)行文檔自動生成。

運行效果

生成文檔

注意：示例目錄中的一些示例要求您在運行示例數(shù)據(jù)集之前設置它們。如果沒有設置示例數(shù)據(jù)，運行此示例時可能會出現(xiàn)錯誤，表明MySQL中的數(shù)據(jù)庫不存在。可以將已經(jīng)選擇文件名列表更改為指向另一個包含您希望為其生成文檔的ktrs和kjbs的位置。

介： Kettle是一款開源的ETL工具，純Java實現(xiàn)，可以在Windows、Unix和Linux上運行，提供圖形化的操作界面，可以通過拖拽控件的方式，方便地定義數(shù)據(jù)傳輸?shù)耐負??；局v介紹基于Kettle的MaxCompute插件實現(xiàn)數(shù)據(jù)上云。

Kettle版本：8.2.0.0-342

MaxCompute JDBC driver版本：3.2.8

Setup

下載并安裝Kettle
下載MaxCompute JDBC driver
將MaxCompute JDBC driver置于Kettle安裝目錄下的lib子目錄（data-integration/lib）
下載并編譯MaxCompute Kettle plugin：https://github.com/aliyun/aliyun-maxcompute-data-collectors
將編譯后的MaxCompute Kettle plugin置于Kettle安裝目錄下的lib子目錄（data-integration/lib）
啟動spoon

Job

我們可以通過Kettle + MaxCompute JDBC driver來實現(xiàn)對MaxCompute中任務的組織和執(zhí)行。

首先需要執(zhí)行以下操作：

新建Job
新建Database Connection
JDBC連接串格式為：jdbc:odps:?project=
JDBC driver class為：com.aliyun.odps.jdbc.OdpsDriver
Username為阿里云AccessKey Id
Password為阿里云AccessKey Secret
JDBC更多配置見：https://help.aliyun.com/document_detail/161246.html

之后，可以根據(jù)業(yè)務需要，通過SQL節(jié)點訪問MaxCompute。下面我們以一個簡單的ETL過程為例：

Create table節(jié)點的配置如下：

需要注意：

這里Connection需要選擇我們配置好的
不要勾選Send SQL as single statement

Load from OSS節(jié)點配置如下：

需要注意的點同Create table節(jié)點。有關更多Load的用法，見：https://help.aliyun.com/document_detail/157418.html

Processing節(jié)點配置如下：

需要注意的點同Create table節(jié)點。

Transformation

我們可以通過MaxCompute Kettle plugin實現(xiàn)數(shù)據(jù)流出或流入MaxCompute。

首先新建Transformation，之后新建Aliyun MaxCompute Input節(jié)點，配置如下：

在MaxCompute中新建一張空表，schema與test_partition_table一致。

新建Aliyun MaxCompute Output節(jié)點，配置如下：

執(zhí)行Transformation，數(shù)據(jù)便從test_partition_table被下載，后被上傳至test_partition_table_2。

其他

置MaxCompute flags設

如圖，在執(zhí)行DDL/DML/SQL之前，可以通過set key=value;的方式配置flags。

Script模式

暫時無法支持

「鏈接」

本文為阿里云原創(chuàng)內(nèi)容，未經(jīng)允許不得轉(zhuǎn)載。

介： Kettle是一款開源的ETL工具，純java實現(xiàn)，可以運行于Windows, Unix, Linux上運行，提供圖形化的操作界面，可以通過拖拽控件的方式，方便地定義數(shù)據(jù)傳輸?shù)耐負?。Kettle支持豐富的數(shù)據(jù)輸入輸出源，數(shù)據(jù)庫支持Oracle，MySql，DB2等，也支持業(yè)界各種開源的大數(shù)據(jù)系統(tǒng)，例如HDFS, HBase, Cassandra, MongoDB等。本文將介紹如何利用MaxCompute的插件無縫對接阿里云的大數(shù)據(jù)計算平臺——MaxCompute。

Setup

下載并安裝Kettle
下載MaxCompute JDBC driver
將MaxCompute JDBC driver置于Kettle安裝目錄下的lib子目錄（data-integration/lib）
啟動spoon

Job

我們可以通過Kettle + MaxCompute JDBC driver來實現(xiàn)對MaxCompute中任務的組織和執(zhí)行。

首先需要執(zhí)行以下操作：

新建Job
新建Database Connection
JDBC連接串格式為：jdbc:odps:<maxcompute_endpoint>?project=<maxcompute_project_name>
JDBC driver class為：com.aliyun.odps.jdbc.OdpsDriver
Username為阿里云AccessKey Id
Password為阿里云AccessKey Secret
JDBC更多配置見：https://help.aliyun.com/document_detail/161246.html

之后，可以根據(jù)業(yè)務需要，通過SQL節(jié)點訪問MaxCompute。下面我們以一個簡單的ETL過程為例：

Create table節(jié)點的配置如下：

需要注意：

這里Connection需要選擇我們配置好的
不要勾選Send SQL as single statement

Load from OSS節(jié)點配置如下：

需要注意的點同Create table節(jié)點。有關更多Load的用法，見：https://help.aliyun.com/document_detail/157418.html

Processing節(jié)點配置如下：

需要注意的點同Create table節(jié)點。

「鏈接」

本文為阿里云原創(chuàng)內(nèi)容，未經(jīng)允許不得轉(zhuǎn)載。

在線咨詢

上一篇：為什么伺服電批會出現(xiàn)顫動的現(xiàn)象？「已解答」
下一篇：html網(wǎng)頁基本組成結(jié)構(gòu)（DOM節(jié)點、元素、屬性和文

您的項目需求

*請認真填寫需求信息，我們會在24小時內(nèi)與您取得聯(lián)系。

整合營銷服務商

Kettle（PDI）轉(zhuǎn)換中輸出之自動文檔輸出詳解

述

選項

示例

Setup

Job

Transformation

其他

Setup

Job

您的項目需求