クラウド時代のデータ基盤を“なぜ難しいのか”から丁寧にほどくガイドが完成しました。 Ingestion / LakeFlow / DLT / CDC をやさしく体系化し、 Airbyte × Databricks の真価を引き出す設計思想まで詰め込んだ一冊です。 Airbyteアーキテクチャ基礎 Extract → Normalize → ...
データ基盤では「大量のデータを集める」ことよりも「正しいデータを維持する」ことが最重要です。Databricksでは NOT NULL, CHECK, UNIQUE といったSQL標準の制約に加え、Expectation句(DLTの品質ルール) を利用してデータ品質を担保できます。 NOT NULL:必須項目 ...
Databricksは、カルフォルニア州立大学バークレー校において、CEO兼共同設立者のアリ・ゴディシ(Ali Ghodsi)氏をはじめ、データとAIなどを研究するOSSの分散処理フレームワーク「Apache Spark」のクリエイター20人により、2013年にサンフランシスコで創業した。