Databricks
历史时间线
- 2009-2013年: Matei Zaharia 在 UC Berkeley AMPLab 创建 Apache Spark
- 2013年: 联合创始人在 Spark 基础上成立 Databricks
- 2016年: 推出 Databricks Unified Analytics Platform
- 2019年: 推出 Delta Lake — 开源数据存储层
- 2021年: 提出 Lakehouse 架构概念,统一数据湖与数据仓库
- 2023年: 推出 DBRX 开源大模型,展示 AI 平台能力
- 2024年: 估值 430 亿,准备 IPO
商业模式
基于 Apache Spark 构建的云数据分析平台。核心产品包括 Databricks Lakehouse Platform、Unity Catalog(数据治理)、MLflow(ML 生命周期管理)。与 Snowflake 在数据处理和 AI 领域直接竞争。
护城河分析
- Apache Spark 创始人团队,开源社区深厚根基
- Delta Lake 开放标准,避免供应商锁定
- Lakehouse 架构融合数据湖灵活性与数据仓库性能
- MLflow 成为 ML 生命周期管理事实标准
关键数据
2024 年 ARR 约 19 亿美元,同比增长约 40%。估值 430 亿美元(2023 年 9 月融资),拥有 10,000+ 客户。
有趣事实
- 联合创始人 Ali Ghodsi 是 UC Berkeley 教授,Matei Zaharia 是 Spark 原作者
- Databricks 这个名字来自"data" + "bricks",暗示构建数据基础设施的"砖块"
- DBRX 模型在发布时超越了 GPT-3.5 在多项基准上的表现