分布式数据集成框架gobblin快速入门
Apache Gobblin 是一个通用的分布式数据集成框架,用于从各种数据源(数据库,REST API,FTP / SFTP服务器,文件管理器等)提取,转换和加载大量数据到Hadoop上。使得大数据集成变得更加简单,例如流和批处理数据生态系统的数据摄取,复制,组织和生命周期管理。gobblin由LinkedIn开源,现为Apache的孵化项目。
编译安装
下载
下载gobblin的发布包,下载地址为:https://github.com/apache/incubator-gobblin/releases,本文档下载的版本为release-0.14.0,包名称为:incubator-gobblin-release-0.14.0.tar.gz
解压编译
- 解压源码tar包,进入解压文件夹
# tar -xzvf incubator-gobblin-release-0.14.0.tar.gz -C /opt/module/ |
- 编译
./gradlew :gobblin-distribution:buildDistributionTar |
编译过程大概几分钟,编译完成后会生成一个build文件夹,进入该文件夹会看到生成的tar包名称为:apache-gobblin-incubating-bin-0.14.0.tar.gz
# cd /opt/module/incubator-gobblin-release-0.14.0/build/gobblin-distribution/distributions |
安装
将上面编译好的tar包解压,解压后的文件名称为gobblin-dist
# tar -xzvf gobblin-incubating-bin-0.14.0.tar.gz -C /opt/module/ |
TODO
公众号『大数据技术与数仓』,回复『资料』领取大数据资料包
- 本文链接:https://jiamaoxiang.top/2020/03/22/分布式数据集成框架gobblin快速入门/
- 版权声明:本文为博主原创文章,遵循CC BY-SA 4.0版权协议,转载请附上原文出处链接和本声明
分享