Википедия категории для статей по id

1

Я хотел бы получить список категорий статей в Википедии. В настоящее время я использую этот api

http://en.wikipedia.org/w/api.php?action=query&prop=categories&pageids=17566205|39952380&inprop=url&format=xml

Тем не менее, мне нужны категории для более чем 4M статей и интересно, если есть данные свалки вокруг для такой задачи. Мне не нужен текстовый контент страницы, только ее категории.

Спасибо.

  • 0
    dumps.wikimedia.org/backup-index.html Пожалуйста, выберите язык и затем найдите категории dump.
  • 0
    То, что полезно (для программиста), не может быть здесь не по теме.
Теги:
wikipedia
wikipedia-api

1 ответ

2
Лучший ответ

В схеме базы данных MediaWiki имеется таблица categorylinks cl_from, которая содержит (среди прочих) поля cl_from (идентификатор страницы) и cl_to (название категории):

+-------------------+------------------------------+------+-----+-------------------+-----------------------------+
| Field             | Type                         | Null | Key | Default           | Extra                       |
+-------------------+------------------------------+------+-----+-------------------+-----------------------------+
| cl_from           | int(10) unsigned             | NO   | PRI | 0                 |                             |
| cl_to             | varbinary(255)               | NO   | PRI |                   |                             |
| cl_sortkey        | varbinary(230)               | NO   |     |                   |                             |
| cl_sortkey_prefix | varbinary(255)               | NO   |     |                   |                             |
| cl_timestamp      | timestamp                    | NO   |     | CURRENT_TIMESTAMP | on update CURRENT_TIMESTAMP |
| cl_collation      | varbinary(32)                | NO   | MUL |                   |                             |
| cl_type           | enum('page','subcat','file') | NO   |     | page              |                             |
+-------------------+------------------------------+------+-----+-------------------+-----------------------------+

Данные этой таблицы доступны из Wikimedia отвалов страницу как SQL дамп (например, enwiki-20140903-categorylinks.sql.gz).

  • 0
    Спасибо, есть текстовый дамп или только sql
  • 0
    Только SQL. Поэтому наиболее удобный способ, если вам нужен другой формат, - это сначала импортировать его в какую-либо БД. Однажды я создал парсер, который будет читать напрямую из дампов MediaWiki SQL и конвертировать его для моих нужд, но это PITA, и я определенно не рекомендую его.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню