Databricksは、カルフォルニア州立大学バークレー校において、CEO兼共同設立者のアリ・ゴディシ(Ali Ghodsi)氏をはじめ、データとAIなどを研究するOSSの分散処理フレームワーク「Apache Spark」のクリエイター20人により、2013年にサンフランシスコで創業した。
2. SQLエディタとNotebook:AIが「隣」にいる安心感 エディタ周りは、一般的なSQLコンソールに慣れている人なら学習コストほぼゼロで入り込めます。 直感的なUI:左側にカタログ(テーブル一覧)、中央にエディタという構成で、迷うことなく操作できます。
冒頭、ゴディシ氏は企業が直面する課題として、データとAIインフラの複雑さを挙げた。「過去10〜15年間で最も学んだことは、複雑なアーキテクチャが組織の動きを遅らせ、高コストとベンダーロックインを引き起こしていることだ」と指摘。 Databricksは ...
1. データスキュー対策の基本 ─ SaltingとCo-partitioningの考え方 Spark SQLのボトルネックの一つがデータスキュー(データ偏り)です。 特定のキーにデータが集中すると、あるExecutorだけが重い処理を担当し、全体の処理が遅延します。 この問題を解消する代表 ...