yigal_s: (Default)
[personal profile] yigal_s
до сих пор не осознавал четко, что время в каждом процессоре бежит по-своему и что никакого опреденного порядка доступа к памяти нет, а есть только видимость с точки зрения каждого процессора.

Ну, скажем, в Intel x86 можно считать, что на каждой команде записи в память стоит release-барьер, а на каждой команде чтения из памяти стоит acquire-барьер, а на каждой lock-инструкции стоит двусторонний барьер, но вот что означает слово "total" в предложении "locked instructions have a total order", и почему об этом вообще надо отдельно говорить, до меня как-то не доходило.

Вот, скажем, и по этой ссылке http://www.bluebytesoftware.com/blog/2008/07/17/LoadsCannotPassOtherLoadsIsAMyth.aspx далеко не последний человек в Микрософте и автор толстенной книжки по мультитреду выглядит смущенным фактом того, что не существует самого по себе "общего порядка", "total order" исполнения операций процессорами. Тот факт, что два процессора могут быть несогласны относительно того, кто из них раньше, а кто позже выполнил свою операцию записи в память он трактует как то, что операции чтения из памяти могут переупорядочиваться (мол, вопреки обещаниям компинии Intel и вопреки спекам процессора). Меж тем, никакого абсолютного "раньше и позже" тут нет, поскольку речь идет о чтении данных, записанных двумя разными процессорами. И в этом всё дело.

Date: 2010-09-19 05:45 am (UTC)
From: [identity profile] panchul.livejournal.com
Все становится еще более интересным, если учесть, что у каждого процессора как правило есть собственный L1 кэш и данные в кэшах разных процессоров, использующих общую главную память, могут не совпадать. Именно для решения этой проблемы в многоядерных MIPS имеется coherence management unit, который делает кэши когерентными, чтобы программисты с ума не сошли.

Date: 2010-09-19 05:51 am (UTC)
From: [identity profile] spamsink.livejournal.com
в многоядерных MIPS

В отличие от...?

Date: 2010-09-19 06:09 am (UTC)
From: [identity profile] panchul.livejournal.com
Некогерентные мульпроцессорные кластеры существовали (я читал статью об этом, но не помню названий), но оказались непопулярными среди программистов. Я сказал MIPS потому что не уверен, что этот unit во всех архитектурах называется одинаково (coherence management unit).

Date: 2010-09-19 06:26 am (UTC)
From: [identity profile] panchul.livejournal.com
Фишка заключается в том, что при дизайне систем дизайнер может _в_принципе_ сделать интерфейс к памяти со всякими глюкавыми эффектами - если дизайнеру есть от этого очень сильная выгода в увеличении производительности. Например в процессорах MIPS (я в MIPS работаю, поэтому приведу в качестве примера) помимо общего интерфейса к памяти и memory-mapped io через кэш и шину OCP - имеется несколько вспомогательных интерфейсов (DSPRAM, ITC), на которые можно навешать custom логику, в которой правила могут не соблюдаться. Обычно DSPRAM ставится как очень быстрая память вместо одного из ways кэша, а ITC - это адреса, обращение к которым позволяет реализовать mailboxes/fifos и семафоры при коммуникации между хардверно-поддерживаемыми тредами. Но на самом деле в принципе дизайнер может сделать custom версию процессора, в котором эти интерфейсы будут использоваться для чего-нибудь другого - например для коммуникации между ядрами некогерентным образом.

Date: 2010-09-19 06:04 am (UTC)
From: [identity profile] juan-gandhi.livejournal.com
Наличие "общего порядка" означало бы существование Единого Времени (что противоречит теории относительности) и подразумевало бы Аксиому Выбора (что противоречит небулевости нашего мира).

Date: 2010-09-19 07:24 am (UTC)
From: [identity profile] juan-gandhi.livejournal.com
Аксиома выбора состоит в том, что каждое множество вполне упорядочить.

Date: 2010-09-19 08:06 am (UTC)
From: [identity profile] heller-i.livejournal.com
Всё же не так. Она утверждает что из семейства множеств можно выбрать по одному элементу :)

Date: 2010-09-19 05:06 pm (UTC)
From: [identity profile] juan-gandhi.livejournal.com
Эти две разные вещи странным образом оказываются очень близки когда мы имеем дело с математическими моделями физических явлений - в смысле, с программированием.

Date: 2010-09-20 05:36 am (UTC)
From: [identity profile] juan-gandhi.livejournal.com
В модели, где время строго линейно, и возможна универсальная линейка, сама эта идея линейного порядка на времени, видимо, берётся из предположения наличия аксиомы выбора. Вот Вы тут помянули "множество действительных чисел", видимо, полагая, что это единственная возможная модель для времени. Подумайте, как это так получается, что аксиоматика Цермело-Френкеля просто жизненно необходима для изображения моментов времени. Тут, конечно, возникнет вопрос - а для времени континуум-гипотеза должна выполняться или нет? Ну, всё-таки физическая реальность; вряд ли физическая реальность будет допускать альтернативные аксиоматики, верно?

Date: 2010-09-21 04:50 am (UTC)
From: [identity profile] juan-gandhi.livejournal.com
Ой, пардон, обсчитался насчёт порядка.

Date: 2010-09-19 06:47 am (UTC)
From: [identity profile] heller-i.livejournal.com
Разве отсутствие "общего порядка" не следствие работы store buffers и L1 кеша?
Если бы процессоры работали с памятью напрямую без кеширования и перестановок инструкций, общий порядок достигался бы автоматически.
Но говорить о "total order" нужно потому что хотя load/stores одного потока не переупорядочиваются, переупорядочивание может возникнуть между потоками, (обычно это демонстрируют парами инструкций в 2х разных потоках).
Т.е. store/load имеют total order внутри 1 потока(процессора), а locked инструкции - между всеми.

Date: 2010-09-19 09:01 am (UTC)
From: [identity profile] heller-i.livejournal.com
согласен

Date: 2010-09-19 07:21 am (UTC)
From: [identity profile] graynm.livejournal.com
Ну да, товарищ похоже просто невнимательно читал, в Intel`овской whitepaper ровно это и написано. Только там это немножко не акцентировано, хотя стоило бы.

Date: 2010-09-19 08:15 am (UTC)
From: [identity profile] graynm.livejournal.com
8) Это следует из изначальной логики операции: она называется "запись значения в память". Следовательно до памяти она должна в итоге дойти и, соответственно, стать видимой для остальных. А все навороты с кэшами только несколько можифицируют её путь, но не отменяют исходной задачи.

Написано это например в описании команды move: "the destination operand can be a general-purpose register, segment register or memory location". Никаких кэшей как видишь, запись именно в память. ;)

Date: 2010-09-19 09:00 am (UTC)
From: [identity profile] graynm.livejournal.com
Вообще-то будет. 8))
Но дальше кэша не уйдёт. Кэш и есть его хранилище для часто используемых переменных. А вот чтобы в кэше значение когда надо менялось, за этим механизм синхронизации кэшей следит.

Мне помнится где-то в Intel`овских доках на глаза попадалась фраза, что дескать мы стараемся по мере возможности поддерживать для софта иллюзию того, что он выполняется на тупом CPU без всяких кэшей и прочих наворотов. Но навскидку сейчас не помню где.

Date: 2010-09-19 05:40 pm (UTC)
From: [identity profile] graynm.livejournal.com
8) А вот это как раз следует из того, что ты обозвал философией.
Пока не специально не оговорено, наличие в описании команды фразы "the destination operand can be a ... memory location", означает, что в результате её выполнения данные доходят до оперативки.
Аналогично с чтением.

Т.е. суть в том, что логика команд соответствует описанию. И процессор не будет пытаться её изменить, а только лишь слегка хитрит. Поэтому пока явно не написано: "CPU будет забивать на чтение данных из переменной, если он туда не пишет", то следует считать, что команда будет выполнять чтение каждый раз.

Короче, это написано в Instruction Set Reference. ;)