Интерпретация тестов в C, Clojure, Python, Ruby, Scala и других [закрыт]

Question

Интерпретация тестов в C, Clojure, Python, Ruby, Scala и других [закрыт]

93

Отказ

Я знаю, что искусственные тесты являются злыми. Они могут показывать результаты только для очень узкой ситуации. Я не предполагаю, что один язык лучше другого из-за какой-то глупой скамьи. Однако мне интересно, почему результаты настолько разные. Пожалуйста, см. Мои вопросы внизу.

Математическое сравнительное описание

Бенчмарк - это простые математические вычисления, чтобы найти пары простых чисел, которые отличаются на 6 (так называемые сексуальные штрихи) Например. сексуальные простые числа ниже 100 будут: (5 11) (7 13) (11 17) (13 19) (17 23) (23 29) (31 37) (37 43) (41 47) (47 53) (53 59) (61 67) (67 73) (73 79) (83 89) (97 103)

Таблица результатов

В таблице: время вычисления в секундах Запуск: все, кроме Factor, выполнялось в VirtualBox (нестабильный гостевой компьютер Debian amd64, хост для Windows 7 x64) Процессор: AMD A4-3305M

  Sexy primes up to:        10k      20k      30k      100k               

  Bash                    58.00   200.00     [*1]      [*1]

  C                        0.20     0.65     1.42     15.00

  Clojure1.4               4.12     8.32    16.00    137.93

  Clojure1.4 (optimized)   0.95     1.82     2.30     16.00

  Factor                    n/a      n/a    15.00    180.00

  Python2.7                1.49     5.20    11.00       119     

  Ruby1.8                  5.10    18.32    40.48    377.00

  Ruby1.9.3                1.36     5.73    10.48    106.00

  Scala2.9.2               0.93     1.41     2.73     20.84

  Scala2.9.2 (optimized)   0.32     0.79     1.46     12.01

[* 1] - Я боюсь представить, сколько времени займет это

Списки кодов

С

int isprime(int x) {
  int i;
  for (i = 2; i < x; ++i)
    if (x%i == 0) return 0;
  return 1;
}

void findprimes(int m) {
  int i;
  for ( i = 11; i < m; ++i)
    if (isprime(i) && isprime(i-6))
      printf("%d %d\n", i-6, i);
}

main() {
    findprimes(10*1000);
}

Ruby:

def is_prime?(n)
  (2...n).all?{|m| n%m != 0 }
end

def sexy_primes(x)
  (9..x).map do |i|
    [i-6, i]
  end.select do |j|
    j.all?{|j| is_prime? j}
  end
end

a = Time.now
p sexy_primes(10*1000)
b = Time.now
puts "#{(b-a)*1000} mils"

Scala:

def isPrime(n: Int) =
  (2 until n) forall { n % _ != 0 }

def sexyPrimes(n: Int) = 
  (11 to n) map { i => List(i-6, i) } filter { _ forall(isPrime(_)) }

val a = System.currentTimeMillis()
println(sexyPrimes(100*1000))
val b = System.currentTimeMillis()
println((b-a).toString + " mils")

Scala opimized isPrime (та же идея, что и в оптимизации Clojure):

import scala.annotation.tailrec

@tailrec // Not required, but will warn if optimization doesn't work
def isPrime(n: Int, i: Int = 2): Boolean = 
  if (i == n) true 
  else if (n % i != 0) isPrime(n, i + 1)
  else false

Clojure:

(defn is-prime? [n]
  (every? #(> (mod n %) 0)
    (range 2 n)))

(defn sexy-primes [m]
  (for [x (range 11 (inc m))
        :let [z (list (- x 6) x)]
        :when (every? #(is-prime? %) z)]
      z))

(let [a (System/currentTimeMillis)]
  (println (sexy-primes (* 10 1000)))
  (let [b (System/currentTimeMillis)]
    (println (- b a) "mils")))

Clojure оптимизирован is-prime?:

(defn ^:static is-prime? [^long n]
  (loop [i (long 2)] 
    (if (= (rem n i) 0)
      false
      (if (>= (inc i) n) true (recur (inc i))))))

Python

import time as time_

def is_prime(n):
  return all((n%j > 0) for j in xrange(2, n))

def primes_below(x):
  return [[j-6, j] for j in xrange(9, x+1) if is_prime(j) and is_prime(j-6)]

a = int(round(time_.time() * 1000))
print(primes_below(10*1000))
b = int(round(time_.time() * 1000))
print(str((b-a)) + " mils")

Фактор

MEMO:: prime? ( n -- ? )
n 1 - 2 [a,b] [ n swap mod 0 > ] all? ;

MEMO: sexyprimes ( n n -- r r )
[a,b] [ prime? ] filter [ 6 + ] map [ prime? ] filter dup [ 6 - ] map ;

5 10 1000 * sexyprimes . .

Bash (ЗШ):

#!/usr/bin/zsh
function prime {
  for (( i = 2; i < $1; i++ )); do
    if [[ $[$1%i] == 0 ]]; then
      echo 1
      exit
    fi
  done
  echo 0
}

function sexy-primes {
  for (( i = 9; i <= $1; i++ )); do
    j=$[i-6]
    if [[ $(prime $i) == 0 && $(prime $j) == 0 ]]; then
      echo $j $i
    fi
  done
}

sexy-primes 10000

Вопросы

Почему Scala работает так быстро? Это из-за статического ввода? Или он просто использует JVM очень эффективно?
Почему такая огромная разница между Ruby и Python? Я думал, что эти два не совсем разные. Может быть, мой код ошибочен. Пожалуйста, просветите меня! Спасибо. UPD Да, это была ошибка в моем коде. Python и Ruby 1.9 довольно равны.
Действительно впечатляющий скачок производительности между версиями Ruby.
Могу ли я оптимизировать код Clojure, добавив объявления типов? Это поможет?

defhlt 25 июль 2012, в 00:19

Источник

1

1) Ваш вопрос не подходит для ТАК, имхо. 2) Почему вы не предоставили версии Clojure и Scala?
om-nom-nom 25 июль 2012, в 00:34
0

@pst Я имею в виду языковые версии, такие как 2.8, 2.9, ...
om-nom-nom 25 июль 2012, в 00:36
1

Не могли бы вы добавить параметры компилятора для каждого языка?
christangrant 25 июль 2012, в 00:39
0

Не то чтобы это как-то связано с вашими проверками производительности, но с точки зрения алгоритма вам действительно нужно проверить что-то вроде n/2 чтобы узнать, простое это или нет (хотя это, вероятно, не будет иметь большого значения) ,
mgilson 25 июль 2012, в 00:47
0

Если вы посмотрите на shootout.alioth.debian.org, вы увидите, что все ваши результаты находятся в типичных относительных диапазонах
0__ 25 июль 2012, в 00:49
6

@mgilson на самом деле до sqrt(n) но это может занять некоторое время для вычисления. Также ваш C-код распечатывает простые числа по мере их нахождения, тогда как ваши другие языки вычисляют их в списки, а затем распечатывают их. Неудивительно, что C - самый быстрый, но вы можете получить его быстрее.
Russ 25 июль 2012, в 00:54
0

@Russ - действительно, sqrt(n) ? Я думаю, это имеет смысл ... Круто. Я бы хотел добавить этот комментарий в избранное, чтобы всегда помнить его (или, по крайней мере, найти его). Я просто наивно думал, поэтому я сказал n/2 (это просто сдвиг, так что это должно быть быстро для вычисления).
mgilson 25 июль 2012, в 00:59
2

(И, конечно, Сито Эратосфена ... но этот микропроцесс является в значительной степени стресс-тестом итерационных и математических операций. Однако они все еще не "честны", так как в некоторых более ленивы.)
user166390 25 июль 2012, в 00:59
1

Могу ли я выслать вам исходный код Go для запуска на вашем VirtualBox? Я получаю очень быстрый результат на своем ноутбуке, но это, очевидно, совсем другая конфигурация, и я хотел бы знать, как она сравнивается с другими языками в вашей конфигурации.
Sebastián Grignoli 25 июль 2012, в 01:18
2

Я просто запустил и свою версию Go, и вашу версию C (которая очень похожа), и я практически получил одинаковую скорость в обеих из них. Я только попробовал 100k версию: C: 2.723s Go: 2.743s .
Sebastián Grignoli 25 июль 2012, в 01:30
2

С 1000 * 1000 (1M вместо 100K): C: 3m35.458s Go: 3m36.259s
Sebastián Grignoli 25 июль 2012, в 02:06
1

Добавлена версия PHP. 100K: PHP: 1m3.766s Действительно медленный по сравнению с C и Go.
Sebastián Grignoli 25 июль 2012, в 02:07
1

@Russ - sqrt() обычно является хорошо оптимизированной библиотечной функцией. Я думаю, что стоимость одного sqrt() для одного значения с плавающей точкой будет намного дешевле, чем повторные операции с модулями, которые не нужны, и чем больше число проверяемых значений, тем больше экономия. Я просто попробовал код из своего ответа и изменил проверку sqrt() на n - 1 а время выполнения более чем удвоилось (до 19 секунд).
steveha 25 июль 2012, в 02:09
1

@mgilson - я попробовал вашу оптимизацию (проверьте на n / 2), и она сократила время до половины во всех случаях. Очевидно, что пропорционально соотношение производительности между языками было таким же, как и раньше, но я думаю, что вы доказали свою точку зрения: с точки зрения производительности написание умного кода важнее, чем выбор быстрого языка.
Sebastián Grignoli 25 июль 2012, в 02:25
1

@mgilson: подождите, пока не услышите о детерминированных вариантах теста первичности Миллера-Рабина . Они относительно просты в реализации, например, код Python Франки при обсуждении проблемы 387 на projecteuler.net .
jfs 25 июль 2012, в 03:54
0

Для фактора, пожалуйста, посмотрите на словарь math.primes . У него уже есть очень хорошо оптимизированное prime? слово.
missingfaktor 25 июль 2012, в 06:30
3

Вам не нужно вычислять sqrt для этой проверки. Вы можете вычислить квадрат i как for (i = 2; i * i <= x; ++i) ...
ivant 25 июль 2012, в 11:40
0

может перейти на codegolf.stack ... и попытаться выяснить, какой язык быстрее, или кто может реализовать самый быстрый для каждого языка и т. д. Я думаю, что было бы интересно увидеть там лучшие предложения
woliveirajr 25 июль 2012, в 20:13
0

Сравнение производительности - это весело, но, в частности, это будет опираться на произвольные детали реализации, специфичные только для этой проблемы.
Matt Joiner 26 июль 2012, в 12:08
3

Я предлагаю вам аннотировать Scala - оптимизированный isPrime с @tailrec , чтобы убедиться , что вы используете хвостовую рекурсию. Легко ошибочно сделать что-то, что предотвращает рекурсию хвоста, и эта аннотация должна предупредить вас, если это произойдет.
Daniel C. Sobral 26 июль 2012, в 13:04
0

@ DanielC.Sobral Хороший вопрос! Для этого я должен import scala.annotation.tailrec
defhlt 26 июль 2012, в 16:30
0

@pst: код Python, в котором используется неоптимизированный Sieve of Eratosthenes, выполняется за 0.03 секунды ( 30 миллисекунд) на 100K то есть в 500 раз быстрее, чем версия C выше.
jfs 27 июль 2012, в 05:29
0

@JFSebastian Да, это здорово. Но вы используете лучший алгоритм. Дело было в том, чтобы понять, насколько хорошо мы можем оптимизировать простой (глупый) алгоритм на разных языках.
defhlt 27 июль 2012, в 14:24
0

@ArtemIce: я это понимаю. Вот почему комментарий для @ pst, который упомянул этот алгоритм.
jfs 27 июль 2012, в 16:59
0

Кстати, типизированная версия Python с явным циклом for в 15-20 раз быстрее (принятый ответ для Clojure также использует типы). Эта версия использует точно такой же алгоритм.
jfs 28 июль 2012, в 13:50
0

Я опубликовал результаты запуска теста на RPython, Pypy, Cython, Jython, CPython 2.x, CPython 3.
jfs 28 июль 2012, в 15:16
0

В ревизии 11 эта ошибка вставки указывает на то, что вы, должно быть, удалили аннотацию типа : Boolean из метода isPrime (требуется в рекурсивных методах из-за ограничений в выводе типов). Сайт вызова { _ forall isPrime } должен быть в порядке с любой версией Scala
Luigi Plinge 01 авг. 2012, в 04:46
0

Я добавил ваш чистый C-код в тест . Основанный на Cython вариант имеет почти такую же производительность, что и C. Примечание: единственное различие между чистыми вариантами Python и Cython заключается в @cython.locals(n=int, j=int) который сообщает Cython о статических типах, т. @cython.locals(n=int, j=int) на оптимизированный код Clojure в этом отношении (но быстрее).
jfs 15 сен. 2012, в 01:22

Показать ещё 26 комментариев

Теги:

python

ruby

scala

clojure

benchmarking

13 ответов

21

Я отвечу только на # 2, так как это единственное, что у меня есть что-то разумное, чтобы сказать, но для вашего кода на Python вы создаете промежуточный список в is_prime, тогда как вы используете .map в вашем all в Ruby, который просто повторяется.

Если вы измените свой is_prime на:

def is_prime(n):
    return all((n%j > 0) for j in range(2, n))

они находятся на уровне.

Я мог бы оптимизировать Python дальше, но мой Ruby недостаточно хорош, чтобы знать, когда я дал больше преимуществ (например, использование xrange заставляет Python побеждать на моей машине, но я не помню, если используемый вами диапазон Ruby создает весь диапазон в памяти или нет).

РЕДАКТИРОВАТЬ: Не слишком глупо, делая код Python похожим:

import time

def is_prime(n):
    return all(n % j for j in xrange(2, n))

def primes_below(x):
    return [(j-6, j) for j in xrange(9, x + 1) if is_prime(j) and is_prime(j-6)]

a = int(round(time.time() * 1000))
print(primes_below(10*1000))
b = int(round(time.time() * 1000))
print(str((b-a)) + " mils")

который не меняется намного больше, ставит его на 1,5 секунды для меня и, будучи лишним глупым, запускает его с PyPy, ставит его на 0,3 с для 10K и 21s для 100K.

Julian 25 июль 2012, в 01:30

1

Генератор имеет большое значение, так как он позволяет функции переключаться на первое значение False (хороший улов).
mgilson 25 июль 2012, в 00:45
0

Я действительно с нетерпением жду, когда они получат кайф от PyPy ... Это будет круто.
mgilson 25 июль 2012, в 01:01
0

Не могли бы вы запустить мой ответ в PyPy? Мне интересно, насколько быстрее это будет.
steveha 25 июль 2012, в 02:15
1

Вы абсолютно правы в отношении итерации и xrange ! Я исправил и теперь Python и Ruby показывают одинаковые результаты.
defhlt 25 июль 2012, в 02:27
1

@steveha Я сделаю это, только если вы пообещаете сейчас выйти и загрузить PyPy самостоятельно :)! У pypy.org/download.html есть двоичные файлы для всех распространенных операционных систем, и, несомненно, у вашего менеджера пакетов. В любом случае, что касается вашего теста, со случайной реализацией lru_cache для 2.7, найденной в AS, 100K работает за 2.3 с.
Julian 25 июль 2012, в 02:33
0

@Julian, я уже скачал PyPy, но мне не удалось загрузить его с начальной загрузкой, я занялся и никогда не возвращался. Я должен попробовать это снова ... PyPy действительно круто.
steveha 25 июль 2012, в 02:38
0

(n%j != 0) или просто n % j может быть более читабельным, чем (n%j > 0)
jfs 25 июль 2012, в 03:57
0

очень крошечная оптимизация: переключите is_prime(j) и is_prime(j-6) в primes_below .)
yedpodtrzitko 25 июль 2012, в 13:45
0

Я опубликовал результаты выполнения тестов на RPython, Pypy, Cython, Jython, CPython 2.x, CPython 3. Типизированная версия Cython в 15-20 раз быстрее.
jfs 28 июль 2012, в 15:16

Показать ещё 7 комментариев

20

Вот быстрая версия Clojure, используя те же основные алгоритмы:

(set! *unchecked-math* true)

(defn is-prime? [^long n]
  (loop [i 2]
    (if (zero? (unchecked-remainder-int n i))
      false
      (if (>= (inc i) n)
        true
        (recur (inc i))))))

(defn sexy-primes [m]
  (for [x (range 11 (inc m))
        :when (and (is-prime? x) (is-prime? (- x 6)))]
    [(- x 6) x]))

Он работает примерно на 20 раз быстрее, чем ваш оригинал на моей машине. И здесь версия, которая использует новую библиотеку редукторов в 1.5 (требует Java 7 или JSR 166):

(require '[clojure.core.reducers :as r]) ;'

(defn sexy-primes [m]
  (->> (vec (range 11 (inc m)))
       (r/filter #(and (is-prime? %) (is-prime? (- % 6))))
       (r/map #(list (- % 6) %))
       (r/fold (fn ([] []) ([a b] (into a b))) conj)))

Это работает примерно в 40 раз быстрее, чем ваш оригинал. На моей машине это 100k за 1,5 секунды.

Justin Kramer 25 июль 2012, в 06:35

2

Использование unchecked-remainder-int или просто rem вместо mod вместе со статической типизацией приводит к увеличению производительности в 4 раза. Ницца!
defhlt 25 июль 2012, в 11:04

16

Вы можете сделать Scala намного быстрее, изменив метод isPrime на

  def isPrime(n: Int, i: Int = 2): Boolean = 
    if (i == n) true 
    else if (n % i != 0) isPrime(n, i + 1)
    else false

Не совсем лаконично, но программа работает в 40% случаев!

Мы вырезаем лишние Range и анонимные объекты Function, компилятор Scala распознает хвостовую рекурсию и превращает ее в цикл while, который JVM может превратить в более или менее оптимальный машинный код, поэтому он не должен быть слишком далеко от версии C.

См. также: Как оптимизировать для-понятий и циклов в Scala?

Luigi Plinge 25 июль 2012, в 02:31

2

2х улучшение. И хорошая ссылка!
defhlt 25 июль 2012, в 03:15
0

Кстати, тело этого метода идентично i == n || n % i != 0 && isPrime(n, i + 1) , который короче, хотя и немного сложнее для чтения
Luigi Plinge 25 июль 2012, в 05:26
1

Вы должны были добавить аннотацию @tailrec , чтобы обеспечить ее оптимизацию.
Daniel C. Sobral 26 июль 2012, в 13:06

Показать ещё 1 комментарий

8

Вот моя версия scala как параллельная, так и не параллельная, просто для удовольствия: (В моем двухъядерном вычислении параллельная версия занимает 335 мс, а непараллельная версия занимает 655 мс).

object SexyPrimes {
  def isPrime(n: Int): Boolean = 
    (2 to math.sqrt(n).toInt).forall{ n%_ != 0 }

  def isSexyPrime(n: Int): Boolean = isPrime(n) && isPrime(n-6)

  def findPrimesPar(n: Int) {
    for(k <- (11 to n).par)
      if(isSexyPrime(k)) printf("%d %d\n",k-6,k)
  }

  def findPrimes(n: Int) {
    for(k <- 11 to n)
      if(isSexyPrime(k)) printf("%d %d\n",k-6,k)
  }


  def timeOf(call : =>Unit) {
    val start = System.currentTimeMillis
    call
    val end = System.currentTimeMillis
    println((end-start)+" mils")
  }

  def main(args: Array[String]) {
    timeOf(findPrimes(100*1000))
    println("------------------------")
    timeOf(findPrimesPar(100*1000))
  }
}

EDIT: Согласно предложению Эмиля Х, я изменил свой код, чтобы избежать эффектов разогрева IO и jvm:

Результат показан в моем вычислении:

Список (3432, 1934, 3261, 1716, 3229, 1654, 3214, 1700)

object SexyPrimes {
  def isPrime(n: Int): Boolean = 
    (2 to math.sqrt(n).toInt).forall{ n%_ != 0 }

  def isSexyPrime(n: Int): Boolean = isPrime(n) && isPrime(n-6)

  def findPrimesPar(n: Int) {
    for(k <- (11 to n).par)
      if(isSexyPrime(k)) ()//printf("%d %d\n",k-6,k)
  }

  def findPrimes(n: Int) {
    for(k <- 11 to n)
      if(isSexyPrime(k)) ()//printf("%d %d\n",k-6,k)
  }


  def timeOf(call : =>Unit): Long = {
    val start = System.currentTimeMillis
    call
    val end = System.currentTimeMillis
    end - start 
  }

  def main(args: Array[String]) {
    val xs = timeOf(findPrimes(1000*1000))::timeOf(findPrimesPar(1000*1000))::
             timeOf(findPrimes(1000*1000))::timeOf(findPrimesPar(1000*1000))::
             timeOf(findPrimes(1000*1000))::timeOf(findPrimesPar(1000*1000))::
             timeOf(findPrimes(1000*1000))::timeOf(findPrimesPar(1000*1000))::Nil
    println(xs)
  }
}

Eastsun 25 июль 2012, в 08:19

1

На прогрев jvm влияет код? Например, isSexyPrime может быть (более) оптимизирован при вызове из findPrimesPar и не так сильно при вызове из findPrimes
Emil H 25 июль 2012, в 08:17
0

@ EmilH Достаточно справедливо. Я изменил свой код, чтобы избежать эффекта разогрева io и jvm.
Eastsun 25 июль 2012, в 09:23
0

Хорошей оптимизацией является только переход к sqrt (n), но теперь вы тестируете другой алгоритм.
Luigi Plinge 25 июль 2012, в 15:39

Показать ещё 1 комментарий

7

Не обращайте внимания на контрольные показатели; проблема заинтересовала меня, и я сделал несколько быстрых трюков. Это использует декоратор lru_cache, который запоминает функцию; поэтому, когда мы называем is_prime(i-6), мы в основном получаем эту первичную проверку бесплатно. Это изменение сокращает работу примерно вдвое. Кроме того, мы можем совершать вызовы range() через только нечетные числа, сокращая работу примерно в два раза.

http://en.wikipedia.org/wiki/Memoization

http://docs.python.org/dev/library/functools.html

Для этого требуется Python 3.2 или новее получить lru_cache, но может работать с более старым Python, если вы установите рецепт Python, который предоставляет lru_cache. Если вы используете Python 2.x, вы должны использовать xrange() вместо range().

http://code.activestate.com/recipes/577479-simple-caching-decorator/

from functools import lru_cache
import time as time_

@lru_cache()
def is_prime(n):
    return n%2 and all(n%i for i in range(3, n, 2))

def primes_below(x):
    return [(i-6, i) for i in range(9, x+1, 2) if is_prime(i) and is_prime(i-6)]

correct100 = [(5, 11), (7, 13), (11, 17), (13, 19), (17, 23), (23, 29),
        (31, 37), (37, 43), (41, 47), (47, 53), (53, 59), (61, 67), (67, 73),
        (73, 79), (83, 89)]
assert(primes_below(100) == correct100)

a = time_.time()
print(primes_below(30*1000))
b = time_.time()

elapsed = b - a
print("{} msec".format(round(elapsed * 1000)))

Вышеизложенное заняло очень мало времени для редактирования. Я решил сделать это еще на один шаг и сделать тест на простые числа, только попробуйте простые делители и только до квадратного корня от тестируемого числа. То, как я это делал, работает только в том случае, если вы проверяете цифры в порядке, чтобы он мог накапливать все простые числа; но эта проблема уже проверяла номера в порядке, чтобы это было хорошо.

На моем ноутбуке (ничего особенного, процессор - 1,5 ГГц AMD Turion II "K625" ), эта версия произвела ответ на 100K менее чем за 8 секунд.

from functools import lru_cache
import math
import time as time_

known_primes = set([2, 3, 5, 7])

@lru_cache(maxsize=128)
def is_prime(n):
    last = math.ceil(math.sqrt(n))
    flag = n%2 and all(n%x for x in known_primes if x <= last)
    if flag:
        known_primes.add(n)
    return flag

def primes_below(x):
    return [(i-6, i) for i in range(9, x+1, 2) if is_prime(i) and is_prime(i-6)]

correct100 = [(5, 11), (7, 13), (11, 17), (13, 19), (17, 23), (23, 29),
        (31, 37), (37, 43), (41, 47), (47, 53), (53, 59), (61, 67), (67, 73),
        (73, 79), (83, 89)]
assert(primes_below(100) == correct100)

a = time_.time()
print(primes_below(100*1000))
b = time_.time()

elapsed = b - a
print("{} msec".format(round(elapsed * 1000)))

Вышеприведенный код довольно легко писать в Python, Ruby и т.д., но будет больнее в C.

Вы не можете сравнивать номера в этой версии с номерами других версий, не переписывая другие, чтобы использовать аналогичные трюки. Я ничего здесь не пытаюсь доказать; Я просто подумал, что проблема была забавной, и я хотел посмотреть, какие легкие улучшения производительности я мог бы почерпнуть.

steveha 25 июль 2012, в 02:14

0

lru_cache определенно lru_cache . Для определенных классов задач, таких как генерация последовательных чисел Фибоначчи, это может значительно ускорить процесс, просто добавив в функцию один декоратор строк! Вот ссылка на доклад Рэймонда Хеттингера, который охватывает lru_cache около 26 минут. Blip.tv/pycon-us-videos-2009-2010-2011/…
steveha 25 июль 2012, в 02:33
3

Используя lru_cache, вы фактически используете другой алгоритм, а не необработанный код. Таким образом, производительность связана с алгоритмом, а не с самим языком.
Eastsun 25 июль 2012, в 02:54
1

@Eastsun - я не понимаю, что вы имеете в виду. lru_cache избегает повторения вычислений, которые уже были сделаны недавно, и это все; Я не понимаю, как это «фактически использует [другой] алгоритм». А Python страдает от медлительности, но выигрывает от таких классных вещей, как lru_cache ; Я не вижу ничего плохого в использовании полезных частей языка. И я сказал, что нельзя сравнивать время выполнения моего ответа с другими языками, не внося аналогичные изменения в другие. Итак, я не понимаю, что вы имеете в виду.
steveha 25 июль 2012, в 03:46
0

@Eastsun прав, но, с другой стороны, удобство языка более высокого уровня должно быть разрешено, если не заданы дополнительные ограничения. lru_cache жертвует памятью ради скорости и корректирует алгоритмическую сложность.
Matt Joiner 26 июль 2012, в 12:03
0

Я скопировал ваш последний скрипт, скачал реализацию lru_cache с code.activestate.com/recipes/… и запустил ваш скрипт на PyPy 1.8.0, и он завершился за 1.213 секунды. Не так уж и плохо!
stw_dev 26 июль 2012, в 22:57
2

если вы используете другой алгоритм, вы можете попробовать Sieve of Eratosthenes. Версия Python выдала ответ за 100 КБ менее чем за 0.03 секунды ( 30 мс) .
jfs 27 июль 2012, в 05:34

Показать ещё 4 комментария

6

Не забудьте Фортран! (В основном шутит, но я бы ожидал, что сработает с C). Заявления с восклицательными знаками являются необязательными, но хорошими. (! является символом комментария в fortran 90)

logical function isprime(n)
IMPLICIT NONE !
integer :: n,i
do i=2,n
   if(mod(n,i).eq.0)) return .false.
enddo
return .true.
end

subroutine findprimes(m)
IMPLICIT NONE !
integer :: m,i
logical, external :: isprime

do i=11,m
   if(isprime(i) .and. isprime(i-6))then
      write(*,*) i-6,i
   endif
enddo
end

program main
findprimes(10*1000)
end

mgilson 25 июль 2012, в 14:00

5

Я не мог устоять перед некоторыми из наиболее очевидных оптимизаций для версии C, в результате которой тест 100k теперь принимает 0,3 секунды на моей машине (в 5 раз быстрее, чем версия C в вопросе, оба скомпилированы с MSVC 2010/Ox).

int isprime( int x )
{
    int i, n;
    for( i = 3, n = x >> 1; i <= n; i += 2 )
        if( x % i == 0 )
            return 0;
    return 1;
}

void findprimes( int m )
{
    int i, s = 3; // s is bitmask of primes in last 3 odd numbers
    for( i = 11; i < m; i += 2, s >>= 1 ) {
        if( isprime( i ) ) {
            if( s & 1 )
                printf( "%d %d\n", i - 6, i );
            s |= 1 << 3;
        }
    }
}

main() {
    findprimes( 10 * 1000 );
}

Вот идентичная реализация в Java:

public class prime
{
    private static boolean isprime( final int x )
    {
        for( int i = 3, n = x >> 1; i <= n; i += 2 )
            if( x % i == 0 )
                return false;
        return true;
    }

    private static void findprimes( final int m )
    {
        int s = 3; // s is bitmask of primes in last 3 odd numbers
        for( int i = 11; i < m; i += 2, s >>= 1 ) {
            if( isprime( i ) ) {
                if( ( s & 1 ) != 0 )
                    print( i );
                s |= 1 << 3;
            }
        }
    }

    private static void print( int i )
    {
        System.out.println( ( i - 6 ) + " " + i );
    }

    public static void main( String[] args )
    {
        // findprimes( 300 * 1000 ); // for some JIT training
        long time = System.nanoTime();
        findprimes( 10 * 1000 );
        time = System.nanoTime() - time;
        System.err.println( "time: " + ( time / 10000 ) / 100.0 + "ms" );
    }
}

С Java 1.7.0_04 это выполняется почти так же быстро, как версия C. Клиентская или серверная VM не показывают большой разницы, за исключением того, что обучение JIT, по-видимому, помогает серверной VM немного (~ 3%), хотя она практически не влияет на клиентскую VM. Вывод в Java кажется медленнее, чем на C. Если в обеих версиях выход заменяется статическим счетчиком, версия Java работает немного быстрее, чем версия C.

Это мои времена для запуска 100k:

319ms C скомпилировано с /Ox и выводится в > NIL:
312ms C, скомпилированный с /Ox и статическим счетчиком
324ms Java-клиент VM с выходом в > NIL:
299ms виртуальная машина Java со статическим счетчиком

и 1M run (результаты 16386):

24.95s C скомпилировано с /Ox и статическим счетчиком
25.08s Java-клиент VM со статическим счетчиком
24.86s Java-сервер VM со статическим счетчиком

Хотя это не отвечает на ваши вопросы, это показывает, что небольшие настройки могут иметь заметное влияние на производительность. Поэтому, чтобы иметь возможность действительно сравнивать языки, вы должны стараться избегать всех алгоритмических различий как можно больше.

Он также дает подсказку, почему Scala выглядит довольно быстро. Он работает на виртуальной машине Java и, таким образом, выигрывает от впечатляющей производительности.

x4u 25 июль 2012, в 16:29

1

Для функции простой проверки быстрее перейти к sqrt (x) вместо x >> 1.
Eve Freeman 25 июль 2012, в 19:20

4

В Scala попробуйте использовать Tuple2 вместо List, он должен идти быстрее. Просто удалите слово "List", так как (x, y) является Tuple2.

Tuple2 специализируется на Int, Long и Double, что означает, что ему не нужно вставлять/распаковывать эти исходные типы данных. Источник Tuple2. Список не специализируется. Источник списка.

Tomas Lazaro 25 июль 2012, в 01:24

0

Тогда ты не сможешь позвонить по этому forall . Я также подумал, что это может быть не самый эффективный код (в большей степени потому, что большая строгая коллекция создается для больших n а не просто с использованием представления), но он, безусловно, короткий + элегантный, и я был удивлен, насколько хорошо он работал, несмотря на использование много функционального стиля.
0__ 25 июль 2012, в 00:52
0

Вы правы, я думал, что "все" был там. Тем не менее, должно быть большое улучшение по сравнению с List, и было бы неплохо иметь эти 2 звонка.
Tomas Lazaro 25 июль 2012, в 00:54
2

это действительно быстрее, с def sexyPrimes(n: Int) = (11 to n).map(i => (i-6, i)).filter({ case (i, j) => isPrime(i) && isPrime(j) }) здесь примерно на 60% быстрее, так что стоит побить код C :)
0__ 25 июль 2012, в 01:03
0

Хм, я получаю только увеличение производительности на 4 или 5%
Luigi Plinge 25 июль 2012, в 01:10
0

Да, я также получаю огромные колебания относительно исходного теста при повторном запуске (сейчас я видел скорость от 0% до 100% :)
0__ 25 июль 2012, в 01:25
0

Почему вы положили содержимое фильтра в футляр? filter((i, j) => isPrime(i) && isPrime(j)) достаточно. Я также попытался бы (11 to n) collect { case i if isPrime(i-6) && isPrime(i) => (i-6, i) }
Tomas Lazaro 25 июль 2012, в 01:56
0

Поскольку filter получает Function1 , аргумент которого является Tuple2 который должен быть извлечен, вы не можете использовать Function2 . Сначала я создал кортеж, поэтому i-6 не появляется дважды, но, конечно, ваш пример с collect тоже работает.
0__ 25 июль 2012, в 02:09
0

Конечно, вы правы. filter(p => isPrime(p._1) && isPrime(p._2)) должен был быть немного уродливым.
Tomas Lazaro 25 июль 2012, в 02:16
1

Я считаю, collect существенно медленнее. Быстрее, если сначала сделать фильтр, а затем карту. withFilter немного быстрее, потому что он на самом деле не создает промежуточные коллекции. (11 to n) withFilter (i => isPrime(i - 6) && isPrime(i)) map (i => (i - 6, i))
Luigi Plinge 25 июль 2012, в 03:32

Показать ещё 7 комментариев

3

На основе x4u answer я написал версию scala, используя рекурсию, и я улучшил ее, только перейдя к sqrt вместо x/2 для функция первичной проверки. Я получаю ~ 250 мс за 100 КБ и ~ 600 мс за 1М. Я пошел вперед и пошел к 10M в ~ 6s.

import scala.annotation.tailrec

var count = 0;
def print(i:Int) = {
  println((i - 6) + " " + i)
  count += 1
}

@tailrec def isPrime(n:Int, i:Int = 3):Boolean = {
  if(n % i == 0) return false;
  else if(i * i > n) return true;
  else isPrime(n = n, i = i + 2)
}      

@tailrec def findPrimes(max:Int, bitMask:Int = 3, i:Int = 11):Unit = {
  if (isPrime(i)) {
    if((bitMask & 1) != 0) print(i)
    if(i + 2 < max) findPrimes(max = max, bitMask = (bitMask | (1 << 3)) >> 1, i = i + 2)
  } else if(i + 2 < max) {
    findPrimes(max = max, bitMask = bitMask >> 1, i = i + 2)
  }
}

val a = System.currentTimeMillis()
findPrimes(max=10000000)
println(count)
val b = System.currentTimeMillis()
println((b - a).toString + " mils")

Я также вернулся и написал версию CoffeeScript (V8 JavaScript), которая получает ~ 15 мс для 100 тыс., 250 мс для 1М и 6 с для 10М, используя счетчик (игнорируя ввод-вывод). Если я включаю вывод, то он принимает ~ 150 мс для 100 кБ, 1 с для 1М и 12 с для 10М. Невозможно использовать хвостовую рекурсию здесь, к сожалению, поэтому мне пришлось преобразовать ее обратно в циклы.

count = 0;
print = (i) ->
  console.log("#{i - 6} #{i}")
  count += 1
  return

isPrime = (n) ->
  i = 3
  while i * i < n
    if n % i == 0
      return false
    i += 2
  return true

findPrimes = (max) ->
  bitMask = 3
  for i in [11..max] by 2
    prime = isPrime(i)
    if prime
      if (bitMask & 1) != 0
        print(i)
      bitMask |= (1 << 3)
    bitMask >>= 1
  return

a = new Date()
findPrimes(1000000)
console.log(count)
b = new Date()
console.log((b - a) + " ms")

Eve Freeman 25 июль 2012, в 20:26

3

Просто для удовольствия, вот параллельная версия Ruby.

require 'benchmark'

num = ARGV[0].to_i

def is_prime?(n)
  (2...n).all?{|m| n%m != 0 }
end

def sexy_primes_default(x)
    (9..x).map do |i|
        [i-6, i]
    end.select do |j|
        j.all?{|j| is_prime? j}
    end
end

def sexy_primes_threads(x)
    partition = (9..x).map do |i|
        [i-6, i]
    end.group_by do |x|
        x[0].to_s[-1]
    end
    threads = Array.new
    partition.each_key do |k|
       threads << Thread.new do
            partition[k].select do |j|
                j.all?{|j| is_prime? j}
            end
        end
    end
    threads.each {|t| t.join}
    threads.map{|t| t.value}.reject{|x| x.empty?}
end

puts "Running up to num #{num}"

Benchmark.bm(10) do |x|
    x.report("default") {a = sexy_primes_default(num)}
    x.report("threads") {a = sexy_primes_threads(num)}
end

На моем 1.8GHz Core i5 MacBook Air результаты работы:

# Ruby 1.9.3
$ ./sexyprimes.rb 100000
Running up to num 100000
                 user     system      total        real
default     68.840000   0.060000  68.900000 ( 68.922703)
threads     71.730000   0.090000  71.820000 ( 71.847346)

# JRuby 1.6.7.2 on JVM 1.7.0_05
$ jruby --1.9 --server sexyprimes.rb 100000
Running up to num 100000
                user     system      total        real
default    56.709000   0.000000  56.709000 ( 56.708000)
threads    36.396000   0.000000  36.396000 ( 36.396000)

# JRuby 1.7.0.preview1 on JVM 1.7.0_05
$ jruby --server sexyprimes.rb 100000
Running up to num 100000
             user     system      total        real
default     52.640000   0.270000  52.910000 ( 51.393000)
threads    105.700000   0.290000 105.990000 ( 30.298000)

Похоже, JVM JIT дает рубину хорошее повышение производительности в случае по умолчанию, в то время как истинная многопоточность помогает JRuby выполнять на 50% быстрее в поточном корпусе. Что еще более интересно, так это то, что JRuby 1.7 улучшает рейтинг JRuby 1.6 здоровыми 17%!

Georgios Gousios 25 июль 2012, в 13:37

3

Здесь код для версии Go (golang.org):

package main

import (
    "fmt"
)


func main(){
    findprimes(10*1000)
}

func isprime(x int) bool {
    for i := 2; i < x; i++ {
        if x%i == 0 {
            return false
        }
    }
    return true
}

func findprimes(m int){
    for i := 11; i < m; i++ {
        if isprime(i) && isprime(i-6) {
            fmt.Printf("%d %d\n", i-6, i)
        }
    }
}

Он работал так же быстро, как версия C.

Использование Asus u81a Intel Core 2 Duo T6500 2,1 ГГц, 2 МБ кэш-памяти второго уровня, частота FSB 800 МГц. Оперативная память 4 ГБ

Версия 100k: C: 2.723s Go: 2.743s

С 1000000 (1M вместо 100K): C: 3m35.458s Go: 3m36.259s

Но я думаю, что было бы справедливо использовать Go, встроенный в возможности многопоточности, и сравнить эту версию с обычной версией C (без многопоточности), просто потому, что почти легко сделать многопоточность с Go.

Обновление: я сделал параллельную версию, используя Goroutines в Go:

package main

import (
  "fmt"
  "runtime"
)

func main(){
    runtime.GOMAXPROCS(4)
    printer := make(chan string)
    printer2 := make(chan string)
    printer3 := make(chan string)
    printer4 := make(chan string)
    finished := make(chan int)

    var buffer, buffer2, buffer3 string

    running := 4
    go findprimes(11, 30000, printer, finished)
    go findprimes(30001, 60000, printer2, finished)
    go findprimes(60001, 85000, printer3, finished)
    go findprimes(85001, 100000, printer4, finished)

    for {
      select {
        case i := <-printer:
          // batch of sexy primes received from printer channel 1, print them
          fmt.Printf(i)
        case i := <-printer2:
          // sexy prime list received from channel, store it
          buffer = i
        case i := <-printer3:
          // sexy prime list received from channel, store it
          buffer2 = i
        case i := <-printer4:
          // sexy prime list received from channel, store it
          buffer3 = i
        case <-finished:
          running--
          if running == 0 {
              // all goroutines ended
              // dump buffer to stdout
              fmt.Printf(buffer)
              fmt.Printf(buffer2)
              fmt.Printf(buffer3)
              return
          }
      }
    }
}

func isprime(x int) bool {
    for i := 2; i < x; i++ {
        if x%i == 0 {
            return false
        }
    }
    return true
}

func findprimes(from int, to int, printer chan string, finished chan int){
    str := ""
    for i := from; i <= to; i++ {
        if isprime(i) && isprime(i-6) {
            str = str + fmt.Sprintf("%d %d\n", i-6, i)
      }
    }
    printer <- str
    //fmt.Printf("Finished %d to %d\n", from, to)
    finished <- 1
}

~~Распараллеливаемая версия используется в среднем 2,743 секунды, в то же время, что и обычная версия.~~

Распараллеленная версия завершена за 1,706 секунды. Он использовал менее 1,5 МБ оперативной памяти.

Одна вещь: мой двухъядерный процессор kubuntu 64bit никогда не достигал пика в обоих ядрах. Похоже, что Go использовал только одно ядро. Исправлено с вызовом runtime.GOMAXPROCS(4)

Обновление: я выполнил параллелизированную версию до 1M номеров. Один из моих ядер процессора был на 100% все время, а другой не использовался вообще (нечетно). Это заняло целую минуту больше, чем C и обычные версии Go.: (С >

С 1000000 (1M вместо 100K):

C: 3m35.458s Go: 3m36.259s Go using goroutines: ~~3m27.137s~~ 2m16.125s

Версия 100k:

C: 2.723s Go: 2.743s Go using goroutines: 1.706s

Sebastián Grignoli 25 июль 2012, в 04:34

0

Сколько ядер вы использовали между прочим?
om-nom-nom 25 июль 2012, в 07:59
2

У меня Asus u81a Intel Core 2 Duo T6500 2,1 ГГц, 2 МБ кэш-памяти второго уровня, 800 МГц FSB. 4 ГБ ОЗУ
Sebastián Grignoli 25 июль 2012, в 13:53
0

Вы на самом деле скомпилировали версию C с включенной оптимизацией? Компилятор Go по умолчанию не встроен и обычно подвергается значительному снижению производительности по сравнению с оптимизированным C в подобных сравнениях. Добавьте -O3 или лучше.
Matt Joiner 26 июль 2012, в 12:05
0

Я просто сделал, не раньше, и версия 100K заняла одинаковое количество времени с -O3 или без
Sebastián Grignoli 26 июль 2012, в 13:34
0

То же самое для версии 1M. Может быть, эти конкретные операции (мы тестируем очень маленькое подмножество) по умолчанию хорошо оптимизированы.
Sebastián Grignoli 26 июль 2012, в 15:13

Показать ещё 3 комментария

1

Ответ на ваш вопрос № 1 заключается в том, что Да, JVM невероятно быстр и дается статическая типизация.

JVM должен работать быстрее, чем C в конечном итоге, возможно, даже быстрее, чем обычный язык ассемблера. Конечно, вы всегда можете вручную оптимизировать сборку, чтобы бить что угодно, выполняя рутинное профилирование во время выполнения и создавая отдельную версию для каждого процессора, вы просто должны быть удивительно хорошими и узнаваемыми.

Причины для скорости Java:

JVM может анализировать ваш код во время его запуска и вручную оптимизировать его - например, если у вас есть метод, который можно было бы статически проанализировать во время компиляции, чтобы быть истинным, и JVM заметила, что вы часто вызывали его с теми же параметрами, он МОЖЕТ на самом деле полностью отказаться от вызова и просто ввести результаты из последнего вызова (я не уверен, что Java действительно делает это именно так, но он делает много всего, как это).

Из-за статической типизации JVM может много узнать о вашем коде во время компиляции, это позволяет заранее оптимизировать немного вещей. Он также позволяет компилятору оптимизировать каждый класс отдельно, не зная, как другой класс планирует его использовать. Также у Java нет произвольных указателей на расположение памяти, она ЗНАЕТ, какие значения в памяти могут и не могут быть изменены и могут быть оптимизированы соответственно.

Распределение кучи MUCH более эффективно, чем C, распределение кучи Java больше похоже на распределение стека C в скорости - но более универсальное. Много времени прошло в разных альтроитах, используемых здесь, это искусство - например, все объекты с коротким сроком службы (например, переменные стека С) распределяются по "известному" свободному местоположению (без поиска свободного места с достаточным пространством) и все они освобождаются вместе за один шаг (например, стек pop).

JVM может знать причуды о вашей архитектуре процессора и генерировать машинный код специально для данного CPU.

JVM может быстро ускорить ваш код после его отправки. Подобно тому, как перенос программы на новый процессор может ускорить ее, перенос ее в новую версию JVM также может дать вам огромные скорости, которые можно было бы использовать для процессоров, которые даже не существовали, когда вы первоначально скомпилировали свой код, что-то c физически не может делать без рекомендации.

Кстати, большая часть плохой репутации для скорости java исходит из длительного времени запуска для загрузки JVM (когда-нибудь кто-то построит JVM в ОС, и это уйдет!) и тот факт, что многие разработчики действительно плохо при написании кода GUI (особенно в потоковом режиме), который заставил Java GUI часто становиться невосприимчивым и глючным. Простые в использовании языки, такие как Java и VB, имеют свои недостатки, усиленные тем, что возможности среднего программиста имеют тенденцию быть ниже, чем более сложные языки.

Bill K 25 июль 2012, в 18:03

0

Сказать, что выделение кучи JVM гораздо эффективнее, чем C бессмысленно, учитывая, что JVM написана на C ++.
Daniel C. Sobral 26 июль 2012, в 13:08
5

@ DanielC.Sobral язык не так важен, как имплементация - код реализации Java "Heap" не похож на C. Java - это сменная многоэтапная система с высокой степенью оптимируемости для различных целей, требующая многих человеко-лет усилий в области исследований, включая современные методы, разрабатываемые сегодня, C использует кучу - простая структура данных, разработанная много лет назад. Систему Java невозможно реализовать для C, учитывая, что C допускает указатели, поэтому она никогда не сможет гарантировать «безопасные» перемещения произвольно выделенных фрагментов памяти без изменения языка (не делая это больше C)
Bill K 26 июль 2012, в 19:25
0

Безопасность не имеет значения - вы не утверждали, что это было безопаснее , вы утверждали, что это было более эффективно . Кроме того, ваше описание в комментарии о том, как работает «куча», не имеет отношения к реальности.
Daniel C. Sobral 27 июль 2012, в 20:40
0

Вы, должно быть, неправильно поняли мое значение «Безопасный» - Java может перемещать любой произвольный блок памяти в любое время, потому что знает, что это возможно, C не может изменить расположение памяти, поскольку может существовать указатель, который может ссылаться на него. Также куча AC обычно реализуется как куча, которая является структурой данных. Кучи C ++ раньше были реализованы со структурами кучи, такими как C (отсюда и название «Heap»). Я не проверял C ++ в течение нескольких лет, так что это может больше не быть правдой, но она все еще ограничена неспособностью переставлять небольшие куски выделенной памяти пользователя по желанию.
Bill K 27 июль 2012, в 23:09

Показать ещё 2 комментария

Ещё вопросы

1) Ваш вопрос не подходит для ТАК, имхо. 2) Почему вы не предоставили версии Clojure и Scala?
@pst Я имею в виду языковые версии, такие как 2.8, 2.9, ...
Не могли бы вы добавить параметры компилятора для каждого языка?
Не то чтобы это как-то связано с вашими проверками производительности, но с точки зрения алгоритма вам действительно нужно проверить что-то вроде n/2 чтобы узнать, простое это или нет (хотя это, вероятно, не будет иметь большого значения) ,
Если вы посмотрите на shootout.alioth.debian.org, вы увидите, что все ваши результаты находятся в типичных относительных диапазонах
@mgilson на самом деле до sqrt(n) но это может занять некоторое время для вычисления. Также ваш C-код распечатывает простые числа по мере их нахождения, тогда как ваши другие языки вычисляют их в списки, а затем распечатывают их. Неудивительно, что C - самый быстрый, но вы можете получить его быстрее.
@Russ - действительно, sqrt(n) ? Я думаю, это имеет смысл ... Круто. Я бы хотел добавить этот комментарий в избранное, чтобы всегда помнить его (или, по крайней мере, найти его). Я просто наивно думал, поэтому я сказал n/2 (это просто сдвиг, так что это должно быть быстро для вычисления).
(И, конечно, Сито Эратосфена ... но этот микропроцесс является в значительной степени стресс-тестом итерационных и математических операций. Однако они все еще не "честны", так как в некоторых более ленивы.)
Могу ли я выслать вам исходный код Go для запуска на вашем VirtualBox? Я получаю очень быстрый результат на своем ноутбуке, но это, очевидно, совсем другая конфигурация, и я хотел бы знать, как она сравнивается с другими языками в вашей конфигурации.
Я просто запустил и свою версию Go, и вашу версию C (которая очень похожа), и я практически получил одинаковую скорость в обеих из них. Я только попробовал 100k версию: C: 2.723s Go: 2.743s .
С 1000 * 1000 (1M вместо 100K): C: 3m35.458s Go: 3m36.259s
Добавлена версия PHP. 100K: PHP: 1m3.766s Действительно медленный по сравнению с C и Go.
@Russ - sqrt() обычно является хорошо оптимизированной библиотечной функцией. Я думаю, что стоимость одного sqrt() для одного значения с плавающей точкой будет намного дешевле, чем повторные операции с модулями, которые не нужны, и чем больше число проверяемых значений, тем больше экономия. Я просто попробовал код из своего ответа и изменил проверку sqrt() на n - 1 а время выполнения более чем удвоилось (до 19 секунд).
@mgilson - я попробовал вашу оптимизацию (проверьте на n / 2), и она сократила время до половины во всех случаях. Очевидно, что пропорционально соотношение производительности между языками было таким же, как и раньше, но я думаю, что вы доказали свою точку зрения: с точки зрения производительности написание умного кода важнее, чем выбор быстрого языка.
@mgilson: подождите, пока не услышите о детерминированных вариантах теста первичности Миллера-Рабина . Они относительно просты в реализации, например, код Python Франки при обсуждении проблемы 387 на projecteuler.net .
Для фактора, пожалуйста, посмотрите на словарь math.primes . У него уже есть очень хорошо оптимизированное prime? слово.
Вам не нужно вычислять sqrt для этой проверки. Вы можете вычислить квадрат i как for (i = 2; i * i <= x; ++i) ...
может перейти на codegolf.stack ... и попытаться выяснить, какой язык быстрее, или кто может реализовать самый быстрый для каждого языка и т. д. Я думаю, что было бы интересно увидеть там лучшие предложения
Сравнение производительности - это весело, но, в частности, это будет опираться на произвольные детали реализации, специфичные только для этой проблемы.
Я предлагаю вам аннотировать Scala - оптимизированный isPrime с @tailrec , чтобы убедиться , что вы используете хвостовую рекурсию. Легко ошибочно сделать что-то, что предотвращает рекурсию хвоста, и эта аннотация должна предупредить вас, если это произойдет.
@ DanielC.Sobral Хороший вопрос! Для этого я должен import scala.annotation.tailrec
@pst: код Python, в котором используется неоптимизированный Sieve of Eratosthenes, выполняется за 0.03 секунды ( 30 миллисекунд) на 100K то есть в 500 раз быстрее, чем версия C выше.
@JFSebastian Да, это здорово. Но вы используете лучший алгоритм. Дело было в том, чтобы понять, насколько хорошо мы можем оптимизировать простой (глупый) алгоритм на разных языках.
@ArtemIce: я это понимаю. Вот почему комментарий для @ pst, который упомянул этот алгоритм.
Кстати, типизированная версия Python с явным циклом for в 15-20 раз быстрее (принятый ответ для Clojure также использует типы). Эта версия использует точно такой же алгоритм.
Я опубликовал результаты запуска теста на RPython, Pypy, Cython, Jython, CPython 2.x, CPython 3.
В ревизии 11 эта ошибка вставки указывает на то, что вы, должно быть, удалили аннотацию типа : Boolean из метода isPrime (требуется в рекурсивных методах из-за ограничений в выводе типов). Сайт вызова { _ forall isPrime } должен быть в порядке с любой версией Scala
Я добавил ваш чистый C-код в тест . Основанный на Cython вариант имеет почти такую же производительность, что и C. Примечание: единственное различие между чистыми вариантами Python и Cython заключается в @cython.locals(n=int, j=int) который сообщает Cython о статических типах, т. @cython.locals(n=int, j=int) на оптимизированный код Clojure в этом отношении (но быстрее).
Генератор имеет большое значение, так как он позволяет функции переключаться на первое значение False (хороший улов).
Я действительно с нетерпением жду, когда они получат кайф от PyPy ... Это будет круто.
Не могли бы вы запустить мой ответ в PyPy? Мне интересно, насколько быстрее это будет.
Вы абсолютно правы в отношении итерации и xrange ! Я исправил и теперь Python и Ruby показывают одинаковые результаты.
@steveha Я сделаю это, только если вы пообещаете сейчас выйти и загрузить PyPy самостоятельно :)! У pypy.org/download.html есть двоичные файлы для всех распространенных операционных систем, и, несомненно, у вашего менеджера пакетов. В любом случае, что касается вашего теста, со случайной реализацией lru_cache для 2.7, найденной в AS, 100K работает за 2.3 с.
@Julian, я уже скачал PyPy, но мне не удалось загрузить его с начальной загрузкой, я занялся и никогда не возвращался. Я должен попробовать это снова ... PyPy действительно круто.
(n%j != 0) или просто n % j может быть более читабельным, чем (n%j > 0)
очень крошечная оптимизация: переключите is_prime(j) и is_prime(j-6) в primes_below .)
Я опубликовал результаты выполнения тестов на RPython, Pypy, Cython, Jython, CPython 2.x, CPython 3. Типизированная версия Cython в 15-20 раз быстрее.
Использование unchecked-remainder-int или просто rem вместо mod вместе со статической типизацией приводит к увеличению производительности в 4 раза. Ницца!
Кстати, тело этого метода идентично i == n || n % i != 0 && isPrime(n, i + 1) , который короче, хотя и немного сложнее для чтения
Вы должны были добавить аннотацию @tailrec , чтобы обеспечить ее оптимизацию.
На прогрев jvm влияет код? Например, isSexyPrime может быть (более) оптимизирован при вызове из findPrimesPar и не так сильно при вызове из findPrimes
@ EmilH Достаточно справедливо. Я изменил свой код, чтобы избежать эффекта разогрева io и jvm.
Хорошей оптимизацией является только переход к sqrt (n), но теперь вы тестируете другой алгоритм.
lru_cache определенно lru_cache . Для определенных классов задач, таких как генерация последовательных чисел Фибоначчи, это может значительно ускорить процесс, просто добавив в функцию один декоратор строк! Вот ссылка на доклад Рэймонда Хеттингера, который охватывает lru_cache около 26 минут. Blip.tv/pycon-us-videos-2009-2010-2011/…
Используя lru_cache, вы фактически используете другой алгоритм, а не необработанный код. Таким образом, производительность связана с алгоритмом, а не с самим языком.
@Eastsun - я не понимаю, что вы имеете в виду. lru_cache избегает повторения вычислений, которые уже были сделаны недавно, и это все; Я не понимаю, как это «фактически использует [другой] алгоритм». А Python страдает от медлительности, но выигрывает от таких классных вещей, как lru_cache ; Я не вижу ничего плохого в использовании полезных частей языка. И я сказал, что нельзя сравнивать время выполнения моего ответа с другими языками, не внося аналогичные изменения в другие. Итак, я не понимаю, что вы имеете в виду.
@Eastsun прав, но, с другой стороны, удобство языка более высокого уровня должно быть разрешено, если не заданы дополнительные ограничения. lru_cache жертвует памятью ради скорости и корректирует алгоритмическую сложность.
Я скопировал ваш последний скрипт, скачал реализацию lru_cache с code.activestate.com/recipes/… и запустил ваш скрипт на PyPy 1.8.0, и он завершился за 1.213 секунды. Не так уж и плохо!
если вы используете другой алгоритм, вы можете попробовать Sieve of Eratosthenes. Версия Python выдала ответ за 100 КБ менее чем за 0.03 секунды ( 30 мс) .
Для функции простой проверки быстрее перейти к sqrt (x) вместо x >> 1.
Тогда ты не сможешь позвонить по этому forall . Я также подумал, что это может быть не самый эффективный код (в большей степени потому, что большая строгая коллекция создается для больших n а не просто с использованием представления), но он, безусловно, короткий + элегантный, и я был удивлен, насколько хорошо он работал, несмотря на использование много функционального стиля.
Вы правы, я думал, что "все" был там. Тем не менее, должно быть большое улучшение по сравнению с List, и было бы неплохо иметь эти 2 звонка.
это действительно быстрее, с def sexyPrimes(n: Int) = (11 to n).map(i => (i-6, i)).filter({ case (i, j) => isPrime(i) && isPrime(j) }) здесь примерно на 60% быстрее, так что стоит побить код C :)
Хм, я получаю только увеличение производительности на 4 или 5%
Да, я также получаю огромные колебания относительно исходного теста при повторном запуске (сейчас я видел скорость от 0% до 100% :)
Почему вы положили содержимое фильтра в футляр? filter((i, j) => isPrime(i) && isPrime(j)) достаточно. Я также попытался бы (11 to n) collect { case i if isPrime(i-6) && isPrime(i) => (i-6, i) }
Поскольку filter получает Function1 , аргумент которого является Tuple2 который должен быть извлечен, вы не можете использовать Function2 . Сначала я создал кортеж, поэтому i-6 не появляется дважды, но, конечно, ваш пример с collect тоже работает.
Конечно, вы правы. filter(p => isPrime(p._1) && isPrime(p._2)) должен был быть немного уродливым.
Я считаю, collect существенно медленнее. Быстрее, если сначала сделать фильтр, а затем карту. withFilter немного быстрее, потому что он на самом деле не создает промежуточные коллекции. (11 to n) withFilter (i => isPrime(i - 6) && isPrime(i)) map (i => (i - 6, i))
Сколько ядер вы использовали между прочим?
У меня Asus u81a Intel Core 2 Duo T6500 2,1 ГГц, 2 МБ кэш-памяти второго уровня, 800 МГц FSB. 4 ГБ ОЗУ
Вы на самом деле скомпилировали версию C с включенной оптимизацией? Компилятор Go по умолчанию не встроен и обычно подвергается значительному снижению производительности по сравнению с оптимизированным C в подобных сравнениях. Добавьте -O3 или лучше.
Я просто сделал, не раньше, и версия 100K заняла одинаковое количество времени с -O3 или без
То же самое для версии 1M. Может быть, эти конкретные операции (мы тестируем очень маленькое подмножество) по умолчанию хорошо оптимизированы.
Сказать, что выделение кучи JVM гораздо эффективнее, чем C бессмысленно, учитывая, что JVM написана на C ++.
@ DanielC.Sobral язык не так важен, как имплементация - код реализации Java "Heap" не похож на C. Java - это сменная многоэтапная система с высокой степенью оптимируемости для различных целей, требующая многих человеко-лет усилий в области исследований, включая современные методы, разрабатываемые сегодня, C использует кучу - простая структура данных, разработанная много лет назад. Систему Java невозможно реализовать для C, учитывая, что C допускает указатели, поэтому она никогда не сможет гарантировать «безопасные» перемещения произвольно выделенных фрагментов памяти без изменения языка (не делая это больше C)
Безопасность не имеет значения - вы не утверждали, что это было безопаснее , вы утверждали, что это было более эффективно . Кроме того, ваше описание в комментарии о том, как работает «куча», не имеет отношения к реальности.
Вы, должно быть, неправильно поняли мое значение «Безопасный» - Java может перемещать любой произвольный блок памяти в любое время, потому что знает, что это возможно, C не может изменить расположение памяти, поскольку может существовать указатель, который может ссылаться на него. Также куча AC обычно реализуется как куча, которая является структурой данных. Кучи C ++ раньше были реализованы со структурами кучи, такими как C (отсюда и название «Heap»). Я не проверял C ++ в течение нескольких лет, так что это может больше не быть правдой, но она все еще ограничена неспособностью переставлять небольшие куски выделенной памяти пользователя по желанию.

mikera · Accepted Answer · 2012-07-25T02-38-00.000Z

Грубые ответы:

Scala статическая типизация помогает здесь совсем немного - это означает, что он использует JVM довольно эффективно без особых усилий.
Я не совсем уверен в различии Ruby/Python, но я подозреваю, что (2...n).all? в функции is-prime?, скорее всего, будет хорошо оптимизирован в Ruby (EDIT: похоже, что это действительно так, см. Джулиан отвечает за более подробно...)
Ruby 1.9.3 намного лучше оптимизирован.
Clojure код, безусловно, может быть ускорен! В то время как Clojure является динамическим по умолчанию, вы можете использовать подсказки типов, примитивные математические данные и т.д., Чтобы приблизиться к Scala/чистой скорости Java во многих случаях, когда вам нужно.

Самая важная оптимизация в коде Clojure заключалась бы в использовании типизированных математических примитивов в is-prime?, например:

(set! *unchecked-math* true) ;; at top of file to avoid using BigIntegers

(defn ^:static is-prime? [^long n]
  (loop [i (long 2)] 
    (if (zero? (mod n i))
      false
      (if (>= (inc i) n) true (recur (inc i))))))

С этим улучшением я получаю Clojure завершение 10k за 0,635 секунд (т.е. второй самый быстрый в вашем списке, избивающий Scala)

PS обратите внимание, что у вас есть код печати внутри вашего теста в некоторых случаях - не очень хорошая идея, так как искажает результаты, особенно если использовать функцию типа print в первый раз вызывает инициализацию подсистем IO или что-то в этом роде!

Я не думаю, что немного о Ruby и Python обязательно верно, но +1 в противном случае ..
Набор текста не показал какого-либо измеримого стабильного результата, но ваш новый is-prime? показывает улучшение в 2 раза. ;)
нельзя ли сделать это быстрее, если бы был непроверенный мод?
@ Хендекагон - наверное! не уверен, насколько хорошо это оптимизируется текущим компилятором Clojure, возможно, есть место для улучшения. Clojure 1.4 определенно очень помогает для такого рода вещей, 1.5, вероятно, будет еще лучше.
(zero? (mod ni)) должен быть быстрее, чем (= (mod ni) 0)