データ基盤では「大量のデータを集める」ことよりも「正しいデータを維持する」ことが最重要です。Databricksでは NOT NULL, CHECK, UNIQUE といったSQL標準の制約に加え、Expectation句(DLTの品質ルール) を利用してデータ品質を担保できます。 NOT NULL:必須項目 ...
データエンジニアがPythonを使ってDelta Live Tables (DLT) パイプラインを開発しています。 複雑な変換ロジックを整理するために、中間データを一時的に定義したいと考えていますが、このデータは永続化する必要がなく、パイプライン実行終了後には破棄されて ...
Databricksは、カルフォルニア州立大学バークレー校において、CEO兼共同設立者のアリ・ゴディシ(Ali Ghodsi)氏をはじめ、データとAIなどを研究するOSSの分散処理フレームワーク「Apache Spark」のクリエイター20人により、2013年にサンフランシスコで創業した。