Измерение временной сложности некоторых алгоритмов сортировки

Question

Измерение временной сложности некоторых алгоритмов сортировки

1

Я пишу демо-класс в Java для анализа следующих алгоритмов сортировки:

сортировка вставками
сортировка выбор
BubbleSort
Сортировка слиянием
QuickSort

которые я реализовал как статические методы в другом классе с именем Sort.

Я хочу сравнить Best-, Average- и Worst-Cases каждого алгоритма, определив время выполнения с аналитической сложностью, используя формулу омикрона.

В демо-классе я хочу только определить время (в наносекундах), каждый алгоритм должен сортировать массив целых чисел с разной длиной в порядковых номерах Best-, Average- и Worst-Case в массиве.

        //Best-Case
    int[] arrbc0 = {1};
    int[] arrbc1 = {1, 2};
    int[] arrbc2 = {1, 2, 3};
    int[] arrbc3 = {1, 2, 3, 4, 5};
    int[] arrbc4 = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10};
    int[] arrbc5 = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15};

    //Average-Case
    int[] arrac1 = {1, 2};
    int[] arrac2 = {3, 1, 2};
    int[] arrac3 = {4, 2, 3, 1, 5};
    int[] arrac4 = {9, 1, 10, 6, 2, 4, 8, 3, 7, 5};
    int[] arrac5 = {13, 12, 1, 15, 5, 6, 7, 2, 14, 10, 3, 8, 4, 9, 11};

    //Worst-Case
    int[] arrwc1 = {2, 1};
    int[] arrwc2 = {3, 2, 1};
    int[] arrwc3 = {5, 4, 3, 2, 1};
    int[] arrwc4 = {10, 9, 8, 7, 6, 5, 4, 3, 2, 1};
    int[] arrwc5 = {15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1};

    //InsertionSort:
    isNanoTime(arrbc0); //first load
    isNanoTime(arrbc1);
    isNanoTime(arrbc2);
    //...

    public static void isNanoTime(int[] arr) {
    long a1 = System.nanoTime();
    Sort.insertionSort(arr);
    long a2 = System.nanoTime() - a1;
    System.out.println(a2);
    }

Теперь у меня есть некоторые вопросы:

Могу ли я использовать эти массивы для всех Best-, Average- и наихудших случаев этих алгоритмов или имеет худший пример MergeSort другого порядка?!
Есть ли простой способ отменить массивы после их сортировки один раз?
Это в любом случае "правильный путь", чтобы определить сложность времени (может быть, у кого-то есть лучшая идея)?

monty.py 02 янв. 2015, в 18:12

Источник

0

Он может (вроде) демонстрировать сложность времени, но я не думаю, что он может это определить. Время выполнения и сложность времени связаны между собой, но разные животные.
hatchet 02 янв. 2015, в 17:13
1

По многим причинам это будет непросто , не в последнюю очередь это stackoverflow.com/questions/504103/…
NPE 02 янв. 2015, в 17:22

Теги:

java

arrays

algorithm

sorting

time-complexity

3 ответа

Ещё вопросы

Он может (вроде) демонстрировать сложность времени, но я не думаю, что он может это определить. Время выполнения и сложность времени связаны между собой, но разные животные.
По многим причинам это будет непросто , не в последнюю очередь это stackoverflow.com/questions/504103/…

Jean Logeart · Answer 1 · 2015-01-02T14-46-00.000Z

Массивы слишком короткие: для любого "современного" процессора не потребуется времени для сортировки, даже в худшем случае
Чтобы иметь соответствующие временные вариации, основанные на случайной случайности ввода, вам необходимо установить фиксированный размер входного сигнала и дать вам измеримое время (вероятно, в секундах)
Вероятно, вам нужно сгенерировать набор из тысяч случайных массивов, добавить, возможно, какой-то конкретный массив в этот набор (отсортированный, отменивший сортировку,...). Затем вы можете запускать каждый алгоритм на каждом массиве из этого набора и измерять время, необходимое для их сортировки. Таким образом, вы можете получить хороший график распределения для каждого алгоритма, по которому вы можете видеть поведение каждого алгоритма (сортировка пузырьков очень высока, в то время как heapsort довольно стабилен...). Наихудший вход для одного алгоритма не обязательно является одним и тем же для другого алгоритма, следовательно, множество.

monty.py · Answer 2 · 2015-01-02T18-27-00.000Z

0

@MBo @Jean Logeart

Что ты об этом думаешь:

//Main:
for(int n = 100_000; n <= 1_000_000; n = n + 100_000) {
    //f.e. average case of insertion sort:
    int[] arr = randomArray(n);
    insertionSortWithRuntime(arr);
}

/**
 * For best cases using sorted numbers.
 * @param n- the length in which the array should be created.
 * @return
 */
public static int[] sortedArray(int n) {
    int[] arr = new int[n];

    for (int i = 0; i < n; i++) {
        arr[i] = i;
    }
    return arr;
}

/**
 * For average cases using random numbers.
 * @param n - the length in which the array should be created.
 * @return
 */
public static int[] randomArray(int n) {
    int[] arr = new int[n];

    for (int i = 0; i < n; i++) {
        arr[i] = (int) (Math.random() * 9 + 1);
    }
    return arr;
}

/**
 * For worst cases using reversed sorted numbers.
 * @param n - the length in which the array should be created.
 * @return
 */
public static int[] reversedSortedArray(int n) {
    int[] arr = new int[n];

    int length = n - 1;

    for (int i = 0; i < n; i++) {
        arr[i] = length;
        length--;
    }
    return arr;
}

Вы представляли это так?

monty.py 02 янв. 2015, в 18:27

0

Я предложил слишком большой размер для квадратичных алгоритмов (вставка / пузырьковые сортировки). Размер 1000-10000 будет разумным.
MBo 02 янв. 2015, в 20:27
0

Хорошо, я использую это сейчас: для (int n = 10_000; n <= 100_000; n = n + 10_000) {...} У меня есть еще один вопрос: теперь я хочу сравнить эмпирические с аналитическими данными путем передачи данных вручную в Excel (и показать график), например, для вставки сортировки Average- и Worst-Case, большие обозначения O: O (n²), поэтому для массива длиной 10.000 вы ожидаете время 100.000.000 миллионов ( какой блок ?!) и я получаю, например, 93 миллисекунды ?! Я сейчас немного растерялся .. @Жан Ложарт
monty.py 02 янв. 2015, в 20:50
0

для n = 10000, 20000, 30000, 40000 вы получите времена, такие как 100 мс, 400 мс, 900 мс, 1600 мс и т. д. - это квадратичная зависимость, и график (время против N) будет выглядеть как парабола
MBo 02 янв. 2015, в 21:05
0

Но как вы узнаете, что 10.000 полей в массиве являются вводом 10 (миллисекунд) в большую букву O? Тогда для O (n) это должно быть 10, 20, 30, но что-то вроде 100, 200, 300 .. здесь подойдет лучше
monty.py 02 янв. 2015, в 21:09
0

Также любопытно, что QuickSort не нужно больше 62 миллисекунд даже для массивов длиной от 10.000 до 1.000.000 ?!
monty.py 02 янв. 2015, в 21:48
0

Вы не можете измерить большую O реализации алгоритма с одним входным размером. Чтобы оценить (не точно измерить) большие значения O, вам нужны временные интервалы для серий с разным входным размером. Я бы порекомендовал книгу Седжвика «Алгоритмы на Java».
MBo 03 янв. 2015, в 08:21
0

Я знаю, что большой O представляет только самые сильные компоненты ... для лучшей оценки вам нужно что-то вроде c * g (n) + k ... но для меня приемлемо просто использовать большой O с одним входным размером, n. Я только хочу знать, как преобразовать массив в n? В некоторых случаях вы преуспеваете с 10.000 = 10, в других это выглядит лучше с 10.000 = 100 ?! Может быть, есть таблица или что-то, что говорит, что вам нужно 10 миллисекунд на 1 поле или что-то еще ?! Я надеюсь, вы понимаете, о чем я.
monty.py 03 янв. 2015, в 16:15

Показать ещё 5 комментариев

MBo · Answer 3 · 2015-01-02T15-44-00.000Z

Такие массивы могут демонстрировать худшие и лучшие случаи для InsertionSort и BubbleSort. Типичные реализации MergeSort и SelectionSort имеют одинаковую сложность для всех массивов. Наихудший пример для простой реализации QuickSort - сортированный (или отсортированный) массив.
Страница Wiki с полезной таблицей
Обратите внимание, что эти массивы слишком короткие, чтобы заметить разницу во времени выполнения. Создавайте массивы с 10 ^ 3-10 ^ 6 элементами (для медленных и быстрых алгоритмов соответственно).
Посмотрите на Fisher-Yates, чтобы получить случайную последовательность