Pentaho Data Integration 資料整合,專案名稱為 Kettle,
主要為以Spoon為主的資料整合開發環境,Pentaho資料整合支援部署在一個雲或是叢集架構的單一電腦上。
Data Integration
Pentaho Data Integration (PDI) 為一個資料整合 ETL(Extract-Transform-Load) 開發環境,以圖形化介面提供使用者定義資料整合工作(Job)與移轉(Transformation)。
資料整合提供了大量的 Plugins以開發執行Job與Transformation,Job通常可依排程以批次模式在設定時間區間自動執行。
主要模組:
- Spoon: 是PDI主要設計環境,以圖形化介面讓使用者能設計並執行Job與Transformation。
- Carte: 一個簡單Web Server讓您遠端執行Job與Transformation。可建置Cluster以分散Job與Transformation的執行。
- Pan: 命令列式的Transformation執行引擎。
- Kitchen: 命令列式的Job執行引擎。
- Encr: 提供PDI可進行文字加密。
設計內容:
- Transformation: 從來源到目的進行資料項的搬動、轉移,可被平行執行。
- Job: 主要在於流程控制,包含執行Transformations、發送E-mail、處理ftp檔案等,依順序執行。
Data Integration Server
Data Integration Server 為資料整合執行引擎,可與LDAP或AD整合,可排程與監控,提供Job與Transformation的內容管理。
Data Integration Server只在EE版本提供。
Instaview
Instaview 是Pentaho Big Data分析應用程式,
讓設計人員在找尋、視覺化、探索各式大量資料時明顯地降低所需的時間。
Instaview為領先Big Data資料來源,如Hadoop、Cassandra、HBase、MongoDB等提供自我服務分析。
將分析Big Data的時間由平均數日、數週加速至數分、數時。
Instaview只在EE版本提供,並整合於Data Integration中。
|