先週、社内の開発定例でエンジニアが「Speculative Decodingを有効にしたら推論コストが半分以下になった」と言っていた。うなずいたが、正直まったくわかっていなかった。 AIの応答が速くなる話は聞く。でもなぜ速くなるのか、品質は落ちないのか──そこ ...