Я хотел бы получить список категорий статей в Википедии. В настоящее время я использую этот api
http://en.wikipedia.org/w/api.php?action=query&prop=categories&pageids=17566205|39952380&inprop=url&format=xml
Тем не менее, мне нужны категории для более чем 4M статей и интересно, если есть данные свалки вокруг для такой задачи. Мне не нужен текстовый контент страницы, только ее категории.
Спасибо.
В схеме базы данных MediaWiki имеется таблица categorylinks
cl_from
, которая содержит (среди прочих) поля cl_from
(идентификатор страницы) и cl_to
(название категории):
+-------------------+------------------------------+------+-----+-------------------+-----------------------------+
| Field | Type | Null | Key | Default | Extra |
+-------------------+------------------------------+------+-----+-------------------+-----------------------------+
| cl_from | int(10) unsigned | NO | PRI | 0 | |
| cl_to | varbinary(255) | NO | PRI | | |
| cl_sortkey | varbinary(230) | NO | | | |
| cl_sortkey_prefix | varbinary(255) | NO | | | |
| cl_timestamp | timestamp | NO | | CURRENT_TIMESTAMP | on update CURRENT_TIMESTAMP |
| cl_collation | varbinary(32) | NO | MUL | | |
| cl_type | enum('page','subcat','file') | NO | | page | |
+-------------------+------------------------------+------+-----+-------------------+-----------------------------+
Данные этой таблицы доступны из Wikimedia отвалов страницу как SQL дамп (например, enwiki-20140903-categorylinks.sql.gz
).