У меня есть очень большой файл CSV, содержащий только два поля (id, url). Я хочу сделать некоторую индексацию в поле url с помощью python, я знаю, что есть некоторые инструменты, такие как Whoosh или Pylucene. но я не могу заставить примеры работать. может кто-нибудь мне помочь с этим?
PyLucene очень прост в работе, но поскольку вы не разместили свой пример, я не уверен, с какими проблемами вы сталкиваетесь.
Альтернативно, если у вас есть только ключ: тип данных данных, может быть лучше, чем Pylucene будет DB, например Berkeley DB (привязки python pybsddb). Он будет работать как словарь python и должен быть больше или быстрее, чем lucene, вы можете попробовать это.
file.csv содержимое:
a,b
d,f
g,h
Python script, который загружает все это в один гигантский словарь:
#Python 3.1
giant_dict = {id.strip(): url.strip() for id, url in (line.split(',') for line in open('file.csv', 'r'))}
print(giant_dict)
{'a': 'b', 'd': 'f', 'g': 'h'}