Вставка базы данных Wikipedia Graph

Question

Вставка базы данных Wikipedia Graph

0

Я пытаюсь создать базу данных из dbpedia RDF троек. У меня есть таблица Categories, которая содержит все Категории в Википедии. Чтобы сохранить категоризации, я создал таблицу с полями child и parent, оба внешних ключа в таблице Categories. Чтобы загрузить категории из NTriples iam, используя следующий SQL-запрос

INSERT INTO CatToCat (`child`, `parent`)
values((SELECT id FROM Categories WHERE BINARY identifier='Bar'),
       (SELECT id FROM Categories WHERE BINARY identifier='Bar'));

Но вставка очень медленная.. Вставка 2.5Million отношений займет очень много времени.. есть ли лучший способ оптимизировать запрос, схему

z33m 21 янв. 2011, в 13:20

Источник

0

Ваш вопрос на самом деле не имеет смысла для меня. Вы говорите, что используете SQL для запроса NTriples, что не имеет особого смысла. Я предполагаю, что у вас уже есть данные, импортированные в базу данных SQL. Что частично вызывает вопрос, почему? Возможно, вам было бы гораздо лучше поместить стол в RDF / Triple Store и использовать рассуждения для вывода отношений.
RobV 21 янв. 2011, в 13:54
0

Я пытаюсь загрузить данные из NTriples в базу данных SQL. Моему приложению не требуются все данные RDF, например, предикаты. Я мог бы просто извлечь это непосредственно из Википедии, но я думал, что будет быстрее загружать из дампов dbpedia nt. Мне просто нужна иерархия категорий. Я думал, что триплет может быть излишним, так как мне не нужно использовать SPARQL и тому подобное.
z33m 21 янв. 2011, в 14:05
0

Какие типы индексов вы создали в таблице CatToCat?
Manuel Salvadores 21 янв. 2011, в 14:31
0

просто автоинкрементный идентификатор в CatToCat .. в категориях я проиндексировал идентификатор, который является уникальной строкой идентификатора для категории
z33m 21 янв. 2011, в 14:45
0

Хорошо, это имеет больше смысла вашего вопроса
RobV 24 янв. 2011, в 09:41

Показать ещё 3 комментария

Теги:

mysql

sql

wikipedia

rdf

3 ответа

2

вы можете попробовать базу данных графиков, такую как Neo4j, с верхними слоями RDF, например, реализация Tinkerpop SAIL, см. https://github.com/tinkerpop/blueprints/wiki/Sail-Implementation

Это должно работать немного лучше, чем RDBMS, по крайней мере для Neo4j.

/питер

Peter Neubauer 21 янв. 2011, в 17:30

1

Рассмотрим загрузку SELECT id, indentifier from Categories в хеш-таблицу (или trie) на стороне клиента и используя ее для заполнения CatToCat. В базе данных размер википедии, я ожидаю увидеть огромную разницу в производительности между постоянными хэш-поисками и trie lookups (которые являются постоянными по отношению к количеству разных элементов данных) и log n B-Tree lookups. (Конечно, вам нужно иметь доступную память.)
Рассмотрите возможность использования одного PreparedStatement с привязкой к параметрам, чтобы MySQL не нуждался в повторном анализе и повторной оптимизации запроса для каждой вставки.

Вам нужно будет сравнить эти показатели, чтобы выяснить, насколько они на самом деле улучшены.

Ken Bloom 21 янв. 2011, в 17:37

Ещё вопросы

Ваш вопрос на самом деле не имеет смысла для меня. Вы говорите, что используете SQL для запроса NTriples, что не имеет особого смысла. Я предполагаю, что у вас уже есть данные, импортированные в базу данных SQL. Что частично вызывает вопрос, почему? Возможно, вам было бы гораздо лучше поместить стол в RDF / Triple Store и использовать рассуждения для вывода отношений.
Я пытаюсь загрузить данные из NTriples в базу данных SQL. Моему приложению не требуются все данные RDF, например, предикаты. Я мог бы просто извлечь это непосредственно из Википедии, но я думал, что будет быстрее загружать из дампов dbpedia nt. Мне просто нужна иерархия категорий. Я думал, что триплет может быть излишним, так как мне не нужно использовать SPARQL и тому подобное.
Какие типы индексов вы создали в таблице CatToCat?
просто автоинкрементный идентификатор в CatToCat .. в категориях я проиндексировал идентификатор, который является уникальной строкой идентификатора для категории
Хорошо, это имеет больше смысла вашего вопроса

z33m · Accepted Answer · 2011-01-21T18-57-00.000Z

Я решил проблему. Были некоторые проблемы с индексацией. Сделал идентификатор в категориях уникальным и двоичным. Думаю, это ускорило два выбора.