thedeemon: (Default)
[personal profile] thedeemon
Чё-то потянуло меня на прошлой неделе опять посмотреть на язык Swift и попробовать на нем пописать. Меня интересовало каково это жить, когда всякие массивы и прочие структуры данных это value типы с copy-on-write. Но обнаружил, что сам язык сейчас выглядит весьма симпатично по своему набору фич: тут тебе и обычные классы и структуры, и алгебраические типы с паттерн матчингом, и multiparameter type classes, и всякие мелкие удобства. Думал, что бы такое написать, вспомнил, что давно хотел реализовать Byte Pair Encoding и натравить на enwik8 (100 MB старого дампа английской википедии). Написал. Потом думаю: а интересно сравнить насколько этот Свифт тормозной по сравнению с другими языками. Правда, программа тут получилась такая, где его потенциальные проблемы с подсчетом ссылок и реализацией генериков себя не проявляют, а все упирается в скорость хэш-таблиц и optional/nullable типов. Взял Claude.ai и напильник, и напилил переводы одной и той же программы на восьми языках. И получилось местами довольно любопытно, особенно неожиданно то, что Свифт всех обогнал. Я обычно на JVM-targeted языках не пишу, и допускаю, что что-то или все сделал или запускал неправильно, хотя вроде бы перевод получился довольно прямой, и что в нем не так - неясно. Но в итоге Скала на JVM это какой-то позор. Что Свифт и Раст делают за минуту, то Скала делает за 15. В пять раз медленнее Котлина на той же самой JVM! Который вдвое медленнее чем C#, съедая в 15-30 раз больше памяти. Можно, конечно, меньше памяти им давать, так тоже работает, но дольше. С++ тут проиграл многим языкам, ибо стандартные его хэш таблицы совершенно позорные, это давно известно. А заменять кастомными я не стал, везде брал что есть из коробки.

Табличка результатов на файле в 1 МБ:
| Language      | Time, s    | Max Memory, MB |
| ------------- | ---------- | -------------- | 
| Swift         |  57        |   33           |
| Rust          |  59        |   20           |
| C#            |  73        |   75           |
| D             | 132        |   55           |
| Kotlin*       | 162        | 2057           | 
| Go            | 178        |   35           |
| Kotlin        | 201        | 1070           |
| Java          | 262        |  725           |
| C++           | 270        |   27           |
| OCaml         | 600        |   90           |
| Scala         | 941        |  977           |

(Kotlin* - это тот же jar файл, но запущенный с другими параметрами JVM)

Исходники и ключи сборки тут: https://github.com/thedeemon/bpe-comparison/

Date: 2024-08-02 03:50 pm (UTC)
juan_gandhi: (Default)
From: [personal profile] juan_gandhi

Любопытно. Что-то нездоровое, конечно, насчёт скалы. А джаву ещё добавить?

Моё единственное объяснение - что котлинский компилятор сильно лучше. Скальный, насколько мне кажется, с массивами ничего не упрощает и не сокращает. Мне пришлось операции с массивами перепереть на джаву чисто из-за скального перформенса.

Edited Date: 2024-08-02 03:57 pm (UTC)

Date: 2024-08-02 05:46 pm (UTC)
chaource: (Default)
From: [personal profile] chaource
Когда-то я переписалъ короткiй скриптъ съ Пайтона на Скалу. Работа скрипта замедлилась раза въ 3. Объясненiе - главная работа была на hash maps. И Пайтонъ реализуетъ hash map черезъ С++ очень быстро, а Скала медленно.

Date: 2024-08-02 06:10 pm (UTC)
From: [personal profile] sassa_nf
Are the results identical for all languages?

Eg scala doesn't seem to read the file correctly (if it literally refers to java.io.FileInputStream), so I wonder if it is processing the same data as everyone else.

Date: 2024-08-03 12:03 pm (UTC)
juan_gandhi: (Default)
From: [personal profile] juan_gandhi

Вот! У меня примерно такие же были наблюдения, когда я линейную алгебру имплементировывал.

Profile

thedeemon: (Default)
Dmitry Popov

December 2025

S M T W T F S
 12 3456
789101112 13
14151617181920
21222324252627
28293031   

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 31st, 2026 01:03 pm
Powered by Dreamwidth Studios