yigal_s

Profile

Valgrind is in essence a virtual machine using just-in-time (JIT) compilation techniques, including dynamic recompilation. Nothing from the original program ever gets run directly on the host processor. Instead, Valgrind first translates the program into a temporary, simpler form called Intermediate Representation (IR), which is a processor-neutral, SSA-based form. After the conversion, a tool (see below) is free to do whatever transformations it would like on the IR, before Valgrind translates the IR back into machine code and lets the host processor run it. Even though it could use dynamic translation (that is, the host and target processors are from different architectures), it doesn't. Valgrind recompiles binary code to run on host and target (or simulated) CPUs of the same architecture.

Мне стыдно, что не знал этого раньше. Эти черти перехватывают каждое обращение к памяти, на уровне базовой платформы инструментации (под которую можно писать клиенты-плагины), после чего поиск data-races - вполне решаемая задача, что собственно, уже и имплементировано. О всякой прочей фигне, вроде поиска дедлоков, мемликов и говорить не приходится. До кучи, решаются задачи поиска обращений к непроинициализированной памяти и выхода за пределы памяти проаллоцированной. Вот так. Одним махом.

Еще, правда, не понятно как они делают на этой платформе профайлер, раз уж они пределывают весь код процесса. Неужели же эмулируют конвеер процессора? ))).

Flat | Top-Level Comments Only

From:

spamsink.livejournal.com

Вот так живешь и не знаешь, какую чуть не с детства известную вещь стоит рассказывать в ЖЖ, а какую - нет, потому что баянистом обзовут. Я участвовал в написании упрощенного варианта этого (многопоточность была, JIT был, инструментовка была, IR не было) для СПАРКа 15-16 лет назад http://compilers.iecc.com/comparch/article/97-10-153 вместе с этим Грегом Люком.

From:

yigal_s

а, то есть идея перетранслировать весь код - это еще до valgrind было?

Здорово!

From:

spamsink.livejournal.com

Еще бы! А как иначе разработчикам процессоров экспериментировать с разными механизмами кеширования, префетчинга, предсказания переходов и т.п.?

From:

yigal_s

я извиняюсь, но для моделирования процессоров, тем более для их аккуратного и точного моделирования, не нужна высокая скорость,
равно как и не нужен JIT - достаточно просто бежать по исходным байтам команд и их интерпретировать.

А вот то, что nulgrind бежит всего-то раз в 5 медленнее аппликции, равно как то, что на Google детектор мультитредных багов еще несколько подразогнали по сравнению с helgrind - это как раз область интересов не разработчиков процессоров, а программеров, мне кажется.

From:

spamsink.livejournal.com

Если ждать, пока весь SPECint и весь SPECfp проинтерпретируется тупым интерпретатором - можно раньше сдохнуть. А даже первая версия SPARC Shade в 1993 году была вот какая: Running on a SPARC and simulating a SPARC, SPEC 89 benchmarks run about 2.3 times slower for floating-point programs and 6.2 times slower for integer programs.

From:

yigal_s

не, ну SPARC Shade быстро может бежать, а вот как быстро может бежать Нечто с моделированием префетчинга, кеширования и чего там еще в потрохах?

Если всерьез моделировать внутреннюю функциональность, то мне кажется, о JIT можно забыть, нет?

Edited Date: 2013-08-03 03:23 am (UTC)

From:

spamsink.livejournal.com

Так ведь инструментация задается статически, поэтому JIT просто вставляет необходимые вызовы моделирующих функций в генерируемые линейные участки, и только для команд, требующих моделирования (скажем, кеша - для чтений/записей, предсказания переходов - для команд перехода, и т.п.), делов-то.

From:

yigal_s

да не, я не против использования JIT, вопрос только даст ли это существенный выигрыш, когда моделирующие функции дорогие.

Впрочем, ну о чем мы спорим, скажите мне, что для моделирования процессоров разработчики процессоров действительно применяют JIT, а не интерпретатор - и мне останется лишь согласиться.

From:

spamsink.livejournal.com

Уже 20 лет как применяют, говорю как краевед. Сам по себе JIT по сравнению с интерпретацией дает выигрыш на порядки; чтобы этот выигрыш перестал быть существенным, моделирующие функции должны быть ну о-о-очень дорогие.

From:

yigal_s

не, ну моей самоуверенности не хватит, чтоб с фактами спорить )))

From:

spamsink.livejournal.com

Профайлер по умолчанию считает функции и инструкции, но можно еще и кэш симулировать.

From:

yigal_s

то есть просто "считает", без учета времени выполнения каждой инструкции?
Это, по идее, для x86 никак не подходит.

Edited Date: 2013-08-03 02:15 am (UTC)

From:

spamsink.livejournal.com

Вопрос, начиная с какой точности симуляции получаются diminishing results. Много ли толку от профиля, например, который на 5% точнее, но работает в 10 раз медленнее?

From:

yigal_s

не, ну если там более-менее сумели добиться реалистичных результатов, то чего уж там... снимаю шляпу. Просто какой-то совершенно неожиданный подход к профайлингу, сразу трудно переварить.

From:

igor-abramov.livejournal.com

Я вот тут подумал немного на эту тему. На самом деле, абсолютно точная оптимизация на уровне ИСХОДНОГО кода с учетом всех тонкостей конвееров и прочего нужна не так часто (порываюсь написать, что исключительно редко).

Дело в том, что платформы для исполнения постоянно меняются и у каждой свои тонкие особенности. Отражать эти вещи на уровне исходного кода дело неблагодарное, все очень непостоянно, и, более того, на практике часто надо поддерживать несколько платформ одновременно (разные функции порождать? генерировать их темплейтами или препроцессором? Уж очень все громоздко и неэлегантно).

А вот оптимизировать для некоторой единой абстрактной машины, не так уж далеко ушедшей от реального железа, но существенно более гладкой --- пожалуй разумный компромисс. Эта машина будет соответствовать некому образу процессора, имеющемуся в голове озабоченного микроэффективностью С/С++ программиста.

Ну о оптимизации на уровне исходного кода для таких вещей имеют обычно более благообразный вид.

From:

yigal_s

я не разбираюсь никак в оптимизации на конвеерных архитектурах, но из общих соображений мне кажется, что конвееры могут существенным образом изменять динамику исполнения кода. Т.е. может быть, не нужно учитывать всех тонкостей конвееров, но отдельные их свойства учитывать все же нужно, чтобы оценить скорость выполнения той или иной последовательности команд или чтобы их оптимизировать.

From:

igor-abramov.livejournal.com

Если мы программируем на C/C++ мало чем можем влиять на конвееры, потому, что компилятор весьма агрессивно переупорядочивает код. (За очевидными исключениями, когда мы используем asm директивы, ну и некоторые интринсики могут необосновано смутить кодогенератор).

Улучшенные интелом версии gcc одно время давали выигрыш процентов до 20. Вроде gcc и clang прибавили в последнее время, но я не изучал текущее положение дел.

Вот за чем можно следить, так это за локальностью и порядком обращений к памяти. Правильно разложенные (и выровненные) поля в структурах данных, возможно, даже поля следующие в порядке обращения к ним в самом типичном случае.

From:

yigal_s

Когда нужно ускорить какой-то кусок кода раза в 2-10, можно по ошибке заняться "разгоном" того, что дает не очень существенную нагрузку на процессор.

ИМХО, что дает такую нагрузку, а что нет - в нетривиальных случаях можно определить практически только на реальной архитектуре, а не на грубой модели, не учитывающей конвеерности, в частности. И кэширования, как отметили вы. Т.е. какой-то кусок кода по понятиям "моделирующего" профайлера может давать 70% нагрузки, а реально - лишь 10%.

Edited Date: 2013-08-04 05:03 pm (UTC)

From:

igor-abramov.livejournal.com

Чисто теоретически, да, такая аномалия возможна, особенно на уже изрядно прооптимизированном коде.
Ну на этот случай есть Intel Vtune . Я его очень успешно использовал для оптимизации кода, генерируемого Just-In-Time.

From:

yigal_s

так мы и обсуждаем тут, как это под valgrind кто-то умудрился выпустить профайлер, когда valgrind код апплиации полностью переделывает.

А с Vtune в общем да, вариант хороший.

From:

igor-abramov.livejournal.com

Фишка в том, что Vtune строит весьма точный профиль но под конкретный процессор. А вот процессоры разных микроархитектур от интела (про АМД не вспоминаем, но так уж давно и это было очень актуально) умеют отличаться, и в некоторых областях (достаточно экзотических, правда) очень сильно.

И вот в ситуации, когда мне нужно профильнуть код относительно многих процессорных семейств, в том числе и не вышедших, штука типа Valgrind может оказаться более полезной.

Edited Date: 2013-08-04 09:30 pm (UTC)

From:

yigal_s

Я не знаю, какие способы оценки времени выполнения команд заложены в valgrind.

Но только это может определить в конечном итоге, пригоден ли он для грубой усредненной оценки по семейству процессоров, или даже хороший профалинг под конкретный процессор дает лучший результат и на семейство.

Edited Date: 2013-08-04 09:59 pm (UTC)

Flat | Top-Level Comments Only

восторг

Profile

восторг

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject