【Kafka】Stream

积雪粮满城风絮

【Kafka】Stream

Kafka 和 Kafka Streams 的区别主要体现在定位、功能和应用场景上，以下是两者的核心差异：

定位与核心功能

Kafka
是一个 分布式消息系统 和 流处理平台，主要用于构建实时数据管道，提供高吞吐、持久化的消息发布与订阅服务。
- 核心能力：数据存储、消息传输、副本容错（通过多副本机制确保数据高可用）。
- 典型场景：日志聚合、事件源、系统解耦、削峰填谷。
Kafka Streams
Kafka Streams 是一个用于处理和分析存储在 Kafka 系统中的数据的客户端库。是 Kafka 的 客户端库（非独立平台），专为流处理设计，提供实时数据转换、聚合等高级操作。
核心能力：流处理逻辑（如窗口计算、状态管理、连接操作）、支持事件时间语义、Exactly-Once 处理。
典型场景：实时监控告警、流式 ETL、复杂事件处理。

数据处理模型

Kafka
- 以 消息队列 为核心，数据按主题（Topic）分区存储，支持顺序读写和持久化。
- 不处理数据内容，仅负责传输和存储。
Kafka Streams
- 提供 流处理抽象（如 KStream 和 KTable），支持动态处理数据流：
  - KStream：代表无限数据集，每条记录独立处理（如过滤、映射）。
  - KTable：动态表结构，支持聚合更新（如计数、窗口统计）。
- 内置状态存储（State Store），实现有状态计算（如 Join 操作）。

依赖与部署

Kafka
- 需独立部署集群（Broker 节点），依赖 ZooKeeper 管理元数据。
- 作为基础设施，与其他系统（如 Spark、Flink）解耦。
Kafka Streams
- 以 轻量级库 形式嵌入应用（仅需 Kafka 依赖），无需额外部署资源管理器或调度器。
- 直接利用 Kafka 的分区机制实现水平扩展，通过 Consumer Rebalance 动态调整并行度。

时间语义支持

Kafka
- 提供消息的时间戳（事件时间或摄入时间），但不参与时间相关的计算。
Kafka Streams
- 支持 事件时间（Event Time） 和 处理时间（Processing Time），通过 TimestampExtractor 接口定义时间语义。
- 实现基于时间的窗口操作（如滑动窗口、会话窗口），并处理迟到数据。

适用场景对比

场景	Kafka	Kafka Streams
数据传输	高吞吐消息队列（如日志传输）	不适用
实时计算	需配合其他框架（如 Flink）	直接处理（如实时聚合、复杂事件处理）
状态管理	无	内置状态存储（如窗口计数）
端到端 Exactly-Once	需手动实现	原生支持（通过事务和幂等 Producer）

总结

Kafka 是流式数据的“高速公路”，负责高效传输与存储；而 Kafka Streams 是“实时处理引擎”，直接在数据流上执行计算逻辑。两者结合可构建端到端的实时数据处理管道，例如：Kafka 接收原始数据 → Kafka Streams 处理并生成结果 → 结果写回 Kafka 供下游消费。

comments powered by Disqus