scandir () в PHP слишком медленный

Question

scandir () в PHP слишком медленный

0

Целевой каталог содержит 10 million+ текстовых файлов. using $a = scandir() на веб-странице смертельно медленное. Требуется массив результатов менее чем за две секунды. Фильтрация не работает (также просматривает весь список)

все, что я могу придумать, это использовать программу perl или c для предварительной обработки и заполнения x тысяч имен файлов из целевого каталога в файл, пометить имена файлов в целевом каталоге, выбранном с помощью .pi в конце (или что-то), и использовать php file() чтобы получить список из файла.

Мне нужно открыть и работать с каждым файлом, прежде чем он будет забит в таблицу. FYI. Я не могу дождаться более 1-2 секунд, чтобы массив работал, чтобы быть доступным. Любая помощь была оценена. Память не является проблемой. hdd пространство не является проблемой, мощность процессора не является проблемой. проблема заключается в получении списка в массиве Fast при использовании интерфейса веб-страницы. Я не могу ждать, потому что я устал ждать.

Я попытался использовать краткую быструю программу c с opendir и readdir но даже для сканирования списка каталогов требуется почти 4 минуты. по крайней мере, я мог бы поставить на него губернатора, чтобы ограничить файлы x.

Кажется, что ответ заключается в вызове программы perl или c которую я могу ограничить файлами x, и я могу назвать это с помощью system() или backticks. Затем этот список можно открыть с помощью file()... OTF... имеет смысл?

JamesAD-0 27 март 2015, в 05:41

Источник

6

Любой отдельный каталог с 10 миллионами файлов будет медленным - ужасно медленным. Как правило, тысячи файлов - это слишком много. Вам нужно реорганизовать каталог, а не беспокоиться о переопределении в C ( scandir() реализован в C - это не будет иметь большого значения).
Jonathan Leffler 27 март 2015, в 04:25
0

да, подумал об этом ... вы правы, мне, вероятно, придется переписать его в сборке, и к тому времени, когда я получу это, scandir () будет готово :-)
JamesAD-0 27 март 2015, в 04:29
0

В opendir() вы будете использовать системные вызовы opendir() и readdir() , и это займет много времени. Вам, вероятно, нужна многоуровневая иерархия каталогов. Простая схема будет принимать первый символ для первого уровня, второй (или первый и второй символы) для второго уровня и с учетом размера системы, возможно, третий (или с первого по третий) символов для третьего уровня. Если первые три символа являются алфавитными и более или менее равномерно распределены по 26-буквенному алфавиту (довольно маловероятно), вы получите около 600 файлов на каждый подподкаталог третьего уровня.
Jonathan Leffler 27 март 2015, в 04:34
2

Какую файловую систему вы используете?
Schwern 27 март 2015, в 05:43
0

Спасибо, парни! Тем временем большинство файлов сбрасывается в обходной путь папки tmp. php's scandir () довольно хорошо работает с 200K-файлами за раз. Решением C является определение конечного направления ... няня не так уж и плоха ... как только scandir () делает 200K-фрагмент файлов, в который помещается другой 200-килобайтный фрагмент, и т.д. Я использую раздел XFS FS на / var и операционную систему Fedora 21 на 7-ТБ массиве raid 5, управляемом картой Adaptec 5805Z, которую я взял и использовал на eBay за 80 долларов. Все вместе довольны этой настройкой. Это в основном продвинутый товарный сервер ...
JamesAD-0 28 март 2015, в 15:36
0

«Мне, вероятно, придется переписать его в сборке». Вы упускаете суть. Вы злоупотребили файловой системой, имея так много записей в одном каталоге. Какой бы язык вы ни выбрали (и ничто, вероятно, не будет значительно быстрее хорошо написанного C), не будет иметь никакого значения для скорости базовой файловой системы.
Borodin 27 май 2018, в 21:17
0

«Я использую раздел XFS FS на / var и операционную систему Fedora 21 на 7-ТБ массиве raid 5, управляемом картой 5805Z Adaptec, которую я собрал и использовал на eBay за 80 долларов». Вы серьезно упустили этот момент. ARID 5 не предназначен для скорости и вы, вероятно, разделяете диски по одному соединению. Не просите скорости у бюджетной файловой системы с миллионами файлов в одном каталоге.
Borodin 27 май 2018, в 21:25

Показать ещё 5 комментариев

Теги:

php

c

perl

readdir

scandir

2 ответа

Ещё вопросы

Любой отдельный каталог с 10 миллионами файлов будет медленным - ужасно медленным. Как правило, тысячи файлов - это слишком много. Вам нужно реорганизовать каталог, а не беспокоиться о переопределении в C ( scandir() реализован в C - это не будет иметь большого значения).
да, подумал об этом ... вы правы, мне, вероятно, придется переписать его в сборке, и к тому времени, когда я получу это, scandir () будет готово :-)
В opendir() вы будете использовать системные вызовы opendir() и readdir() , и это займет много времени. Вам, вероятно, нужна многоуровневая иерархия каталогов. Простая схема будет принимать первый символ для первого уровня, второй (или первый и второй символы) для второго уровня и с учетом размера системы, возможно, третий (или с первого по третий) символов для третьего уровня. Если первые три символа являются алфавитными и более или менее равномерно распределены по 26-буквенному алфавиту (довольно маловероятно), вы получите около 600 файлов на каждый подподкаталог третьего уровня.
Какую файловую систему вы используете?
Спасибо, парни! Тем временем большинство файлов сбрасывается в обходной путь папки tmp. php's scandir () довольно хорошо работает с 200K-файлами за раз. Решением C является определение конечного направления ... няня не так уж и плоха ... как только scandir () делает 200K-фрагмент файлов, в который помещается другой 200-килобайтный фрагмент, и т.д. Я использую раздел XFS FS на / var и операционную систему Fedora 21 на 7-ТБ массиве raid 5, управляемом картой Adaptec 5805Z, которую я взял и использовал на eBay за 80 долларов. Все вместе довольны этой настройкой. Это в основном продвинутый товарный сервер ...
«Мне, вероятно, придется переписать его в сборке». Вы упускаете суть. Вы злоупотребили файловой системой, имея так много записей в одном каталоге. Какой бы язык вы ни выбрали (и ничто, вероятно, не будет значительно быстрее хорошо написанного C), не будет иметь никакого значения для скорости базовой файловой системы.
«Я использую раздел XFS FS на / var и операционную систему Fedora 21 на 7-ТБ массиве raid 5, управляемом картой 5805Z Adaptec, которую я собрал и использовал на eBay за 80 долларов». Вы серьезно упустили этот момент. ARID 5 не предназначен для скорости и вы, вероятно, разделяете диски по одному соединению. Не просите скорости у бюджетной файловой системы с миллионами файлов в одном каталоге.

Schwern · Answer 1 · 2015-03-27T04-08-00.000Z

Проблема в том, что меньше PHP и больше файловой системы. Большинство файловых систем не работают с 10 миллионами файлов в одном каталоге, и производительность начинает сильно страдать. Вероятно, вы вряд ли получите гораздо лучшую производительность из-за перезаписи на C или Perl, потому что файловая система просто перегружена, а ее производительность стала патологической.

Сначала переключитесь с scandir на opendir и readdir. Это позволяет избежать создания массива из 10 миллионов элементов. Это также позволяет вашей программе начать работу сразу же, перед тем, как кропотливо прочитать 10 миллионов имен файлов.

if ($dh = opendir($dir)) {
    while (($file = readdir($dh)) !== false) {
        ...do your work...
    }
    closedir($dh);
}

Во-вторых, измените структуру своего каталога на наличие как минимум двух уровней подкаталогов на основе первых букв имен файлов. Например, t/h/this.is.an.example. Это уменьшит количество файлов в одном каталоге до уровня, который может лучше обрабатывать файловая система.

Grokify · Answer 2 · 2015-03-27T03-53-00.000Z

Вы можете написать программу на языке C которая вызывает getdents getdents. Используйте большой размер буфера, например 5 МБ, и пропустите записи с inode == 0, чтобы значительно повысить производительность.

Решения, которые полагаются на libc readdir(), медленны, потому что они ограничены чтением 32K кусков записей в каталоге за раз.

Этот подход описан в блоге Olark Developers Corner, приведенном ниже.

Рекомендации: