Индексирование содержимого файла CSV в Python

1

У меня есть очень большой файл CSV, содержащий только два поля (id, url). Я хочу сделать некоторую индексацию в поле url с помощью python, я знаю, что есть некоторые инструменты, такие как Whoosh или Pylucene. но я не могу заставить примеры работать. может кто-нибудь мне помочь с этим?

  • 1
    Что вы имеете в виду под индексированием?
Теги:
indexing
whoosh
full-text-indexing

2 ответа

1

PyLucene очень прост в работе, но поскольку вы не разместили свой пример, я не уверен, с какими проблемами вы сталкиваетесь.

Альтернативно, если у вас есть только ключ: тип данных данных, может быть лучше, чем Pylucene будет DB, например Berkeley DB (привязки python pybsddb). Он будет работать как словарь python и должен быть больше или быстрее, чем lucene, вы можете попробовать это.

0

file.csv содержимое:

a,b
d,f
g,h

Python script, который загружает все это в один гигантский словарь:

#Python 3.1
giant_dict = {id.strip(): url.strip() for id, url in (line.split(',') for line in open('file.csv', 'r'))}

print(giant_dict)
{'a': 'b', 'd': 'f', 'g': 'h'}
  • 1
    Уважаемый господин, почему вы анализируете это самостоятельно вместо использования модуля CSV ??
  • 0
    проблема в том, что этот файл будет больше 5GB. поэтому я не могу загрузить его в память сразу!
Показать ещё 4 комментария

Ещё вопросы

Сообщество Overcoder
Наверх
Меню