datahub—基于 Java 开发的元数据治理平台现代数据堆栈的数据发现平台,可接入 Hive、Kafka、ES、MySQL 等数据源。随着公司业务的发展,数据的复杂度会呈指数倍增长,通过文档和口口相传的方式管datahub-project·Java·3 years ago1.6k
doris—高性能的分析数据库一个基于 MPP 架构的高性能、实时的分析型数据库,尤其是在海量数据和高并发场景下表现优异。目前,在众多知名企业中均有使用,可用来构建用户分析、日志检索分析、用apache·Java·2 years ago1.7k
bigdata_analyse—大数据分析实战项目集合大数据分析实战项目的集合。该项目包含了淘宝、租房、招聘等数据的分析实例,不仅有 Python、SQL、HQL 的实例代码,还附上了数据集下载地址。想学习大数据的TurboWay·Python·3 years ago1.1k
incubator-streampark—一站式流数据处理平台,Flink/Spark 极速开发框架提供开箱即用的流式大数据开发体验,可在平台上统一管理配置、开发、测试、部署、监控、运维的整个过程。apache·Java·3 years ago1.4k
Addax—多种异构数据源离线同步工具这是一个支持主流数据库的通用数据采集工具,可快速实现 MySQL、HDFS、Hive、HBase 等数据源之间的数据同步,主要用于离线采集各类数据到数据仓库或者wgzhao·Java·3 years ago982
gota—Go 语言的数据处理库该库提供了类似 Python 语言 Pandas 库的功能,以及 Series 和 DataFrames 的数据结构,支持用列的方式高效地处理数据。go-gota·Go·3 years ago688
octosql—用 SQL 的方式查询多个数据源的命令行工具支持用 SQL 查询 CSV、JSON 文件和多种数据库中的数据,甚至可以在它们之间自由 JOIN。cube2222·Go·3 years ago569
tabix—一款 ClickHouse 的可视化查询和分析平台它可以在浏览器上轻松查询 CH 的数据,还有丰富的图表帮助分析数据,最后还可选择内网搭建或者在线使用。tabixio·TypeScript·4 years ago473