Wąskie gardło przy liczeniu na GPU

Zaczęty przez tito, 11 Styczeń 2015, 13:41

tito

Problem:
Posiadam XEON 1235V2 + 8GB RAM 1600 oraz kartę 7950@1100
Przy liczeniu Einsteina, aby osiągnąć jak największy RAC ustawiłem 3 WU jednocześnie - musiałem również zwolnić 3 wątku CPU, aby wykarmić GPU.
Ponieważ Einstein ma problemy z serwerem przerzuciłem GPU na PG PPS i tu niespodzianka - pomimo, że zapotrzebowanie tegoż projektu na CPU jest niewielkie, musiałem zwolnić 4 wątki, aby GPU osiągnął przyzwoite obciążenie.
Dlaczego? Co jest wąskim gardłem? PCIe 3.0 x16 nie wyrabia? RAM? Jakaś szyna danych? Pytania są z natury teoretycznych, lecz może ktoś ma pomysł?

Krzysiak

Sprawdź czy to samo dzieje się na niepodkręconym GPU


>>Moja szczegółowa sygnatur<< %)                                      >> Spis moich odkrytych liczb pierwszych << :whistle:

LQG

Cytat: tito w 11 Styczeń 2015, 13:41
Problem:
Posiadam XEON 1235V2 + 8GB RAM 1600 oraz kartę 7950@1100
Przy liczeniu Einsteina, aby osiągnąć jak największy RAC ustawiłem 3 WU jednocześnie - musiałem również zwolnić 3 wątku CPU, aby wykarmić GPU.
Ponieważ Einstein ma problemy z serwerem przerzuciłem GPU na PG PPS i tu niespodzianka - pomimo, że zapotrzebowanie tegoż projektu na CPU jest niewielkie, musiałem zwolnić 4 wątki, aby GPU osiągnął przyzwoite obciążenie.
Dlaczego? Co jest wąskim gardłem? PCIe 3.0 x16 nie wyrabia? RAM? Jakaś szyna danych? Pytania są z natury teoretycznych, lecz może ktoś ma pomysł?

U mnie na różnych odmianach Tahiti jest podobnie. Zdecydowanie najlepiej radzi sobie Milkyway@h, ewentualnie CC.

tito

Cytat: Krzysiak_PL_GDA w 11 Styczeń 2015, 14:13
Sprawdź czy to samo dzieje się na niepodkręconym GPU
Eeee - niepodkręcony w tym wypadku to 800MHz. To już wolę zwalniać wątki. Zresztą host jest tylko zdalny i wolę nie kombinować.

Cytat: LQG w 11 Styczeń 2015, 15:01
U mnie na różnych odmianach Tahiti jest podobnie. Zdecydowanie najlepiej radzi sobie Milkyway@h, ewentualnie CC.
To wiem, ale teraz wypada Einstein - tamte projekty poszły już w zapomnienie.
Co do moich pytań to właśnie takie teoretyzowanie. Może coś z tego wyniknie, ale chętnie poznałbym to wąskie gardło. Może na przyszłość dałoby się uniknąć podobnych problemów.

LQG

Wg. mnie to kwestia optymalizacji pod architekturę, po prostu WU E@h i PG lepiej działa pod CUDA.