Как получить данные Википедии о Википроектах?

Question

Как получить данные Википедии о Википроектах?

1

Недавно я обнаружил, что в Википедии есть Wikiprojects, которые классифицируются на основе discipline (https://en.wikipedia.org/wiki/Category:WikiProjects_by_discipline). Как показано в ссылке, она имеет 34 дисциплины.

Я хотел бы знать, возможно ли получить все статьи Википедии, связанные с каждой из этих wikipedia disciplines.

Например, рассмотрим WikiProject Computer science‎. Можно ли получить все компьютерные науки, связанные с использованием Википедии статьи WikiProject Computer science‎ категории? Если так, есть ли какие-либо дампы данных, связанные с этим, или есть какой-либо другой способ получить эти данные?

В настоящее время я использую python (то есть pywikibot и pymediawiki). Однако я рад получить ответы и на других языках.

Я рад предоставить более подробную информацию, если это необходимо.

Emi 17 фев. 2019, в 03:18

Источник

0

Может быть, вы можете использовать API Википедии, чтобы получить ресурсы, которые вы хотите из Википедии, перейдите по этой ссылке
Ali CSE 17 фев. 2019, в 04:33
0

@AliCSE Спасибо за комментарий. Я не мог понять, как API MediaWiki можно использовать для выполнения этой задачи. У Вас есть какие-то предложения? :)
EmJ 17 фев. 2019, в 05:06
1

Как вы хотите контент? Является ли формат html в порядке? Если да, я могу сделать код для этого, используя Selenium или некоторые API-библиотеки для получения этой статьи, но стиль документа не будет правильным?
Ali CSE 17 фев. 2019, в 12:47
0

@AliCSE Большое спасибо за комментарий. Учитывая ссылку на википроект (например, в области компьютерных наук это en.wikipedia.org/wiki/… ), я хочу получить only the name of the pages сайта (в приведенной выше ссылке их всего 7 186 страниц). то есть `Talk: .dbf, Talk: .onion, Talk: (1 + ε) -приближенный поиск ближайших соседей, Talk: / bin, Talk: / bin / bash, ......` и т. д. Пожалуйста, дайте мне Знай свои мысли. Я рад предоставить более подробную информацию, если это необходимо. Спасибо еще раз :)
EmJ 17 фев. 2019, в 13:19
1

Я добавил код, но в JavaScript. Вы можете использовать его в качестве справочного материала и получать данные, используя программу по вашему выбору. Дайте мне знать, если у вас есть какие-либо сомнения в этом ... Спасибо ...
Ali CSE 17 фев. 2019, в 16:31

Показать ещё 3 комментария

Теги:

python

wikipedia

wikipedia-api

mediawiki

mediawiki-api

2 ответа

2

Вы можете использовать API: Categorymembers для получения списка подкатегорий и страниц. установите параметр "cmtype" в "subcat", чтобы получить подкатегории, и "cmnamespace" в "0", чтобы получить статьи.

Также вы можете получить список из базы данных (информация об иерархии категорий в таблице ссылок и информация о статьях в таблице страниц).

arash 17 фев. 2019, в 08:03

0

Большое спасибо за ответ. Было бы здорово, если бы вы могли показать мне, как я могу это сделать с помощью кода (поскольку я все еще пытаюсь понять, как использовать API и базу данных). С нетерпением жду Вашего ответа. Спасибо еще раз :)
EmJ 17 фев. 2019, в 11:46
0

Если cmtitle быть WikiProject Computer science‎ ? :)
EmJ 17 фев. 2019, в 12:00
0

Для cmtitle должно быть установлено значение Category: YourCategory ...
Arash 19 фев. 2019, в 17:07
0

Я думаю, что вы должны проверить инструмент PetScan в Meta. petscan может перечислять страницы в деревьях категорий, с определенными шаблонами или ссылками с / на определенные страницы: petscan.wmflabs.org, вы можете найти исходный код здесь: bitbucket.org/magnusmanske/petscan
Arash 19 фев. 2019, в 17:09

Показать ещё 2 комментария

Ещё вопросы

Может быть, вы можете использовать API Википедии, чтобы получить ресурсы, которые вы хотите из Википедии, перейдите по этой ссылке
@AliCSE Спасибо за комментарий. Я не мог понять, как API MediaWiki можно использовать для выполнения этой задачи. У Вас есть какие-то предложения? :)
Как вы хотите контент? Является ли формат html в порядке? Если да, я могу сделать код для этого, используя Selenium или некоторые API-библиотеки для получения этой статьи, но стиль документа не будет правильным?
@AliCSE Большое спасибо за комментарий. Учитывая ссылку на википроект (например, в области компьютерных наук это en.wikipedia.org/wiki/… ), я хочу получить only the name of the pages сайта (в приведенной выше ссылке их всего 7 186 страниц). то есть `Talk: .dbf, Talk: .onion, Talk: (1 + ε) -приближенный поиск ближайших соседей, Talk: / bin, Talk: / bin / bash, ......` и т. д. Пожалуйста, дайте мне Знай свои мысли. Я рад предоставить более подробную информацию, если это необходимо. Спасибо еще раз :)
Я добавил код, но в JavaScript. Вы можете использовать его в качестве справочного материала и получать данные, используя программу по вашему выбору. Дайте мне знать, если у вас есть какие-либо сомнения в этом ... Спасибо ...
Большое спасибо за ответ. Было бы здорово, если бы вы могли показать мне, как я могу это сделать с помощью кода (поскольку я все еще пытаюсь понять, как использовать API и базу данных). С нетерпением жду Вашего ответа. Спасибо еще раз :)
Если cmtitle быть WikiProject Computer science‎ ? :)
Для cmtitle должно быть установлено значение Category: YourCategory ...
Я думаю, что вы должны проверить инструмент PetScan в Meta. petscan может перечислять страницы в деревьях категорий, с определенными шаблонами или ссылками с / на определенные страницы: petscan.wmflabs.org, вы можете найти исходный код здесь: bitbucket.org/magnusmanske/petscan

Ali CSE · Accepted Answer · 2019-02-17T13-39-00.000Z

Как я предложил и добавил к ответу @arash, вы можете использовать API Википедии для получения данных Википедии. Вот ссылка с описанием того, как это сделать, API: Categorymembers # GET_request

Как вы отметили, что вам нужно получить данные с помощью программы, ниже приведен пример кода на JavaScript. Он извлечет первые 500 имен из Category:WikiProject_Computer_science_articles и отобразит их в виде выходных данных. Вы можете преобразовать язык по вашему выбору на основе этого примера:

// Importing the module
const fetch = require('node-fetch');

// URL with resources to fetch
const url = "https://en.wikipedia.org/w/api.php?action=query&format=json&list=categorymembers&cmtitle=Category%3AWikiProject_Computer_science_articles&cmprop.ids=1&cmlimit=500";

// Fetching using 'node-fetch'
fetch(url).then(res => res.json()).then(t => {
    // Getting the length of the returned array
    let len = t.query.categorymembers.length;
    // Iterating over all the response data
    for(let i=0;i<len;i++) {
        // Printing the names
        console.log(t.query.categorymembers[i].title);
    }
});

Чтобы записать данные в файл, вы можете сделать, как показано ниже:

//Importing the modules
const fetch = require('node-fetch');
const fs = require('fs');

//URL with resources to fetch
const url = "https://en.wikipedia.org/w/api.php?action=query&format=json&list=categorymembers&cmtitle=Category%3AWikiProject_Computer_science_articles&cmprop.ids=1&cmlimit=500";

//Fetching using 'node-fetch'
fetch(url).then(res => res.json()).then(t => {
    // Getting the length of the returned array
    let len = t.query.categorymembers.length;
    // Initializing an empty array
    let titles = [];
    // Iterating over all the response data
    for(let i=0;i<len;i++) {
        // Printing the names
        let title = t.query.categorymembers[i].title;
        console.log(title);
        titles[i] = title;
    }
    fs.writeFileSync('pathtotitles\\titles.txt', titles);
});

Выше один будет хранить данные в файл с , отделенным, потому что мы с помощью массива JavaScript там. Если вы хотите хранить в каждой строке без запятых, то вам нужно сделать так:

//Importing the modules
const fetch = require('node-fetch');
const fs = require('fs');

//URL with resources to fetch
const url = "https://en.wikipedia.org/w/api.php?action=query&format=json&list=categorymembers&cmtitle=Category%3AWikiProject_Computer_science_articles&cmprop.ids=1&cmlimit=500";

//Fetching using 'node-fetch'
fetch(url).then(res => res.json()).then(t => {
    // Getting the length of the returned array
    let len = t.query.categorymembers.length;
    // Initializing an empty array
    let titles = '';
    // Iterating over all the response data
    for(let i=0;i<len;i++) {
        // Printing the names
        let title = t.query.categorymembers[i].title;
        console.log(title);
        titles += title + "\n";
    }
    fs.writeFileSync('pathtotitles\\titles.txt', titles);
});

Используя cmlimit, мы не можем получить более 500 заголовков, поэтому нам нужно использовать cmcontinue для проверки и получения следующих страниц...

Попробуйте приведенный ниже код, который выбирает все заголовки определенной категории и печатает, добавляет данные в файл:

//Importing the modules
const fetch = require('node-fetch');
const fs = require('fs');
//URL with resources to fetch
var url = "https://en.wikipedia.org/w/api.php?action=query&format=json&list=categorymembers&cmtitle=Category%3AWikiProject_Computer_science_articles&cmlimit=500";

// Method to fetch and append the data to a file 
var fetchTheData = async (url, index) => {
    return await fetch(url).then(res => res.json()).then(data => {
        // Getting the length of the returned array
        let len = data.query.categorymembers.length;
        // Initializing an empty string
        let titles = '';
        // Iterating over all the response data
        for(let i=0;i<len;i++) {
            // Printing the names
            let title = data.query.categorymembers[i].title;
            console.log(title);
            titles += title + "\n";
        }
        // Appending to the file
        fs.appendFileSync('pathtotitles\\titles.txt', titles);
        // Handling an end of error fetching titles exception
        try {
            return data.continue.cmcontinue;
        } catch(err) {
            return "===>>> Finished Fetching...";
        }
    });
}

// Method which will construct the next URL with next page to fetch the data
var constructNextPageURL = async (url) => {
    // Getting the next page token
    let nextPage = await fetchTheData(url);
    for(let i=1;i<=14;i++) {
        await console.log("=> The next page URL is : "+(url + '&cmcontinue=' + nextPage));
        // Constructing the next page URL with next page token and sending the fetch request
        nextPage = await fetchTheData(url + '&cmcontinue=' + nextPage);
    }
}

// Calling to begin extraction
constructNextPageURL(url);

Я надеюсь, что это помогает...

Большое спасибо. Я запусту этот код и сообщу, как он работает :)
Пожалуйста, дайте мне знать. Если вышеприведенное не сработает, я постараюсь реализовать решение на вашем языке python ...
Большое спасибо за ваш комментарий. Однако я все еще не смог запустить ваш код (так как я новичок в JS и мне нужно прочитать, как настроить среду для запуска). Я дам вам знать, смогу ли я запустить ваш код в ближайшие 2-3 часа (как я сейчас на лекции) :)
Конечно, вот некоторая информация - скачайте node js и npm , установите node-fetch и попробуйте запустить приведенный выше код.
Большое спасибо. Это очень полезно. Я попробую это и дам вам знать :)
Большое спасибо. Я мог бы успешно запустить код. Просто интересно, можно ли записать результаты в текстовый файл без печати в командной строке. С нетерпением жду Вашего ответа. Спасибо еще раз :)
Добро пожаловать ... Да, мы можем записать данные в файл с помощью модуля NodeJS fs . Я обновил код, проверьте и дайте мне знать, если вам что-то нужно ... Вы можете прокомментировать эту часть печати, если хотите ...
Это потрясающе. Большое спасибо. Это сработало :)
Привет, еще один вопрос. Если мне нужно получить 7559 результатов по этой ссылке, как мне изменить вышеуказанный код? tools.wmflabs.org/enwp10/cgi-bin/… Я с нетерпением жду вашего ответа . Спасибо :)
Проверьте обновленный код и дайте мне знать, хотите вы этого или нет? Спасибо...
Большое спасибо. Это впечатляет. Еще один вопрос (так как я новичок в JS). Если я хочу изменить URL-адрес на этот tools.wmflabs.org/enwp10/cgi-bin/… , какие изменения я должен внести в приведенный выше код? С нетерпением жду Вашего ответа. Большое спасибо еще раз :)
Давайте продолжим эту дискуссию в чате .
Я пытался использовать API, который вы мне предоставили. Тем не менее, он не возвращает список Article по Computer Science wikiproject tools.wmflabs.org/enwp10/cgi-bin/… Просто интересно, почему это происходит. Будем рады услышать от вас :)