Согласно документации, можно совершить смещение в кафку из (scala) искрообразования. Я хотел бы получить такую же функциональность от pyspark.
Или, по крайней мере, сохраните раздел kafka, смещенный во внешний хранилище данных (РСУБД и т.д.).
Однако pyspark api для интеграции kafka предоставляет только RDD(offset, value)]
вместо RDD[ConsumerRecord]
(как в scala). Есть ли способ получить (topic, partition, offset)
из RDD python? И упорствовать там еще где?
Мы можем обрабатывать смещение несколькими способами. Одним из способов сохранения значения Offset в пути Zookeeper при каждой успешной обработке данных и считывания этого значения при повторном создании потока. Фрагмент кода, как показано ниже.
from kazoo.client import KazooClient
zk = KazooClient(hosts='127.0.0.1:2181')
zk.start()
ZOOKEEPER_SERVERS = "127.0.0.1:2181"
def get_zookeeper_instance():
from kazoo.client import KazooClient
if 'KazooSingletonInstance' not in globals():
globals()['KazooSingletonInstance'] = KazooClient(ZOOKEEPER_SERVERS)
globals()['KazooSingletonInstance'].start()
return globals()['KazooSingletonInstance']
def save_offsets(rdd):
zk = get_zookeeper_instance()
for offset in rdd.offsetRanges():
path = f"/consumers/{var_topic_src_name}"
print(path)
zk.ensure_path(path)
zk.set(path, str(offset.untilOffset).encode())
var_offset_path = f'/consumers/{var_topic_src_name}'
try:
var_offset = int(zk.get(var_offset_path)[0])
except:
print("The spark streaming started First Time and Offset value should be Zero")
var_offset = 0
var_partition = 0
enter code here
topicpartion = TopicAndPartition(var_topic_src_name, var_partition)
fromoffset = {topicpartion: var_offset}
print(fromoffset)
kvs = KafkaUtils.createDirectStream(ssc,\
[var_topic_src_name],\
var_kafka_parms_src,\
valueDecoder=serializer.decode_message,\
fromOffsets = fromoffset)
kvs.foreachRDD(handler)
kvs.foreachRDD(save_offsets)
С уважением
Картикеян Расипалаям Дурайрадж