Apache Gobblin 是一个通用的分布式数据集成框架,用于从各种数据源(数据库,REST API,FTP / SFTP服务器,文件管理器等)提取,转换和加载大量数据到Hadoop上。使得大数据集成变得更加简单,例如批处理数据生态系统的数据摄取,复制,组织和生命周期管理。gobblin由LinkedIn开源,现为Apache的孵化项目。


编译安装

下载

下载gobblin的发布包,下载地址为:https://github.com/apache/incubator-gobblin/releases,本文档下载的版本为release-0.14.0,包名称为:incubator-gobblin-release-0.14.0.tar.gz

解压编译

  • 解压源码tar包,进入解压文件夹
# tar -xzvf incubator-gobblin-release-0.14.0.tar.gz -C /opt/module/
# cd /opt/module/incubator-gobblin-release-0.14.0
  • 编译
./gradlew :gobblin-distribution:buildDistributionTar

编译过程大概几分钟,编译完成后会生成一个build文件夹,进入该文件夹会看到生成的tar包名称为:apache-gobblin-incubating-bin-0.14.0.tar.gz

# cd /opt/module/incubator-gobblin-release-0.14.0/build/gobblin-distribution/distributions

安装

将上面编译好的tar包解压,解压后的文件名称为gobblin-dist

# tar -xzvf gobblin-incubating-bin-0.14.0.tar.gz  -C /opt/module/
# ll
drwxr-xr-x 2 root root 4096 3月 22 17:35 bin
drwxr-xr-x 6 root root 4096 3月 22 17:35 conf
drwxr-xr-x 2 root root 16384 3月 22 17:35 lib

TODO