Radeon RX 6800 XT / RTX 3080

Zaczęty przez Dezajner, 05 Grudzień 2020, 16:55

Dezajner

Hejka,

ideologicznie nigdy nie podchodziła mi polityka cenowo-hardware'owa NVidii, nie podobały mi się oszustwa w sterownikach i optymalizacja w locie fps'ów poprzez obcinanie jakości. Od zawsze na NVidii były nieostre tekstury po "niby anizo x16", brakowało w grach niektórych efektów itp. teraz gdy NVidia podciągnęła wydajność fp32 w RTX3k tekstury ciężko odróżnić od tych na Radeonach (może teraz AMD odpuściło sobie jakość..?) ale nadal brakuje pewnych efektów np. w World Of Tanks na mapach ośnieżonych/pustynnych na Radeonach widać błyskające odbicia światła w kryształkach kwarcu/lodu jak się pod odpowiednim kątem ustawi kamerę - na RTX 3080 ich nie ma więc nadal podciągają fps-y oszustwami. Z tego powod - ale w sumie głónie dlatego że lubię wspierać słabszych i sprawdzać co można zrobić z teoretycznie gorszym sprzętem - zamieniłem się na RX 6800 XT od Sapphire. Ale po kolei :)

Przez tydzień testowałem u siebie RTX 3080 od Gigabyte i mam kilka obserwacji dla potomnych:
- zasilacz 650W 80+ wystarcza, chociaż od razu po włączeniu kompa-stany nieustalone i największy pobór prądu-potrafiło zapikać 2x speakerem o przeciążeniu. Poza podwójnym piknięciem start i praca komputera, nawet pod pełnym obciążeniem bez problemów;
- karta gorąca jak diabli, musiałem dokupić 3 wentyle do obudowy bo jak zapuściłem po 2 unity COLLATZa na raz to aż mi się blachy nagrzewały i smażyła mi HDD-ka;
- sterowniki mega stabilne, żadnych problemów z grami itp.
- zapuściłem test UNIGINE: wynik 10965 dla 1080 / 6329 dla  8k_optimized;
- COLLATZ - czas liczenia 5:05 (2 na raz) (8,5 mln pkt. dziennie)
- BOINC w logu raportuje 15667 GFLOPS

Dane producenta:
FP16 (half) performance = 29.77 TFLOPS (1:1)
FP32 (float) performance = 29.77 TFLOPS
FP64 (double) performance = 465.1 GFLOPS (1:64)
------------------------------------------------------------------------------------------------
Obserwacje dot. RX 6800 XT:
- mniejszy pobór prądu - brak przeciążeń przy starcie kompa;
- dużo chłodniejsza / lepsze chłodzenie, pomimo że dużo krótsza (krótsza o 5 cm);
- sterwoniki pod Windows stabilne poza jednym przypadkiem - stara apka pod OpenCL wywala mi się krytycznie, nie działa;
- COLLATZ - nie mam jeszcze konfigu (może pomożecie?), czas liczenia 1x unit to aż 7 min;

Dane producenta:
FP16 (half) performance = 41.47 TFLOPS (2:1)
FP32 (float) performance = 20.74 TFLOPS
FP64 (double) performance = 1,296 GFLOPS (1:16)

Zaraz doliczę EINSTEINY i MilkyWay'a to wrzucę. Może ktoś z Was kupił i może się podzielić doświadczeniami/wydajnością/konfigami do projektów? :)

Dzięki.

Up: udało mi się ustawić tak profil wydajności że co prawda zegary trochę skaczą ale GPU się trzyma na 2360-2460 MHz.

Na takim ustawieniu MilkyWay 1 unit liczy od 1:17 do 2:19, przy czym pobór mocy/obciążenie karty jest na poziomie 90-100 watów więc w 1/3. Albo potrzebny nowy klient openCL albo trzeba zapuścić 3 unity na raz. MA KTO JAKIŚ KONFIG NA TO ?
https://boincstats.com/signature/-5/user/15232186825/sig.png

kva.pl

Hej. Jak Ci sie udalo zdobyc te karty? :D

Dezajner

#2
Przegapiłem sprzedaż premierową na X-Kom no to dałem 4,5k na allegro za RTX. A potem znalazłem kogoś co się zamienił sztuka za sztukę. Wiem że w tej cenie za 3-4 mechy kupiłbym 6900 XT ale ciekawość nie ma ceny :D

Zauważyłem że szybkośc obliczń jest mniej więcej 2x słabsza od oczekiwanej. Mam taki stary benchmark OpenCL, nazywa się LuxMark 2.0. On wykrywa tylko 36 jednostek obliczeniowych czyli połowę z 72 które rzekomo 6800 XT posiada. I chyba tu bym upatrywał problemu - apki OpenCL muszą być od nowa napisane na tego Radka...

UPDATE - zauważyłem że podczas liczenia na GPU w BOINC zegary GPU mam 20-30 MHz. Co bym nie robił w sterownikach nie mogę zablokować zegarów wyżej. Stąd problemy z mocą obliczeniową...

Wie ktoś może jak zablokować zegar na max ???
https://boincstats.com/signature/-5/user/15232186825/sig.png

EDU Enthusiast

Witaj,

"Od zawsze na NVidii były nieostre tekstury"
Nvidia do dzis defaults do Limited RGB color range. Manualnie trzeba to ustawic i, i tak w niektorych grach jest to zmienione poprzez zoptymalizowany profil dla gry.

Jakosc textur
Kompresja, i dodatkowe procesowanie karty na maly detail dalej produkuje widoczne roznice w detalach na texturach. Czesto nvidi textury wygladaja bardziej szaro, radeon w zaleznosci od generacji bardziej ma ostre czesto artekakty przy dwoch kolorach bialych i czerwonych ktore sie stykaja. Radeon vii ma wiecej problemow biale, zolte i niebieskie czesto processor graficzny zle odbiera zolte kolory jako niebieskie przy pewnych shaderach.

Ekety,
AMD od czasow fury-x manipuluje tessellation odlegloscia renderowania tego efektu i innych podobnych. Przylad wezmy fallout niewazne co nie ustawisz w ustawieniach jak spojzysz na dachy dalko od gracza na NV kart zobaczysz ze sa tassellowane, na amd nie sa.
Jesli chodzi o karty graficzne, to widac ze radeon ma wielki potencjal... ale nie da sie skubanych kart kupic...


W stanach poprostu sie nie dac kupic radeon 6800/xt...


Niestety nie da sie lockowac kart juz w clockach. Jest bynajmniej mozliwosc flash biosa i ustawienie specyficznych power-state i clock states.
Problem jest tylko ze to nowe karty, i nikt nie flashowal tych kart jeszcze tak z tego co wiem... co jest niebezpieczne.

Dezajner

Cześć,

tak, zgadzam się - anizo na NVidi od zawsze słabsze a tesselacja na Radeonach.

NVidia jednak tych oszustw ma więcej na swoim koncie i wiąże się to prawdopodobnie z tym co napisałeś o "Limited RGB color range". Przypomniało mi się jak w czasach VOODOO 2 wkurzały mnie rozmyte tekstury i postanowiłem kupić - wychwalaną pod niebiosa na wsztystkich portalach "fachowych" - Riva 128ZX. No i owszem - fps 2x takie co na VOODOO - ale karta robiła wewnętrznie rendering na 16-bitach i przed wyświetleniem na ekranie DITHERING na 24-bity. Wyglądało to jak syf (Stevie Wonder by zobaczył różnicę) i nikt się nawet o czymś tak widocznym nie zająknął. Nie dało się na to patrzeć. Taka jest wiarygodność testów na necie.

Radeon może i ma potencjał ale AMD ten potencjał od lat marnuje. Rozumiem że odkąd się wyłożyli z BULLDOZEREM walczyli o płynność finansową i nie mieli kasę na rozwój infrastruktury programistycznej wogół GPU ale teraz powinni to ogarniać jak najszybciej. Co by nie powiedzieć to NVidia wyznacza póki co standardy we wszystkich dziedzinach: Jetson, dostępnę zoptymalizowane biblioteki do wszelkich dziedzin nauki - od mikrobiologii i genetyki po obliczenia fizyczne/matematyczne. Wystarczy ściągnąć 3GB bibliotekę CUDA i masz od razu wsparcie na wszystkich frameworków - siadasz i z marszu programujesz. Na Radeonie nic nie ma - zrób se sam w OpenCL.
Tyle że NVidia ma złodziejską politykę cenową - dawać do 4K kartę z 10GB VRAM gdy nawet w 1080p są już gry biorące prawie 12GB to bandytyzm w tej cenie.

Wogóle teraz powaliło producentó z cenami - od lat było tak że topową kartę z danej generacji można było kupić za ~3k co i tak było dużo ale jeszcze na polskie warunki dawało radę. Ale RTX 3090 za 8k ??

Czytałem że AMD przekazało cluster obliczeniowy z EPYC-ami i akceleratorami MI100 (chyba?) do projektu TN-GRID. Czy można się do niego jakoś przyłączyć? Czy wiadomo coś o jakimś zoptymalizowanym klientcie na Radeony?
https://boincstats.com/signature/-5/user/15232186825/sig.png

Dezajner

MilkyWay@home - 3 unity na raz, obciążenie karty waha się pomiędzy 183-193 waty. Nadal trochę brakuje do 300W. Czas liczenia 1U w tym samym zakresie co 1 na raz czyli od 1:15 do 2:19.
https://boincstats.com/signature/-5/user/15232186825/sig.png

4ys

ja bym mu zapodał z 8 wu naraz to by się troche rozruszał :)

Dezajner

#7
Wygląda na to że power nie przekracza 195W przy GPU_computing.
Może jeszcze coś wymyślę - czas liczenia wydłużył się do 4:11 na unit ale 8 na raz to i tak do przodu.
https://boincstats.com/signature/-5/user/15232186825/sig.png

4ys

#8
Przypisz jedno całe cpu dla gpu. Widze że 12 wu na raz czyli 3900x, 5900x? jeśli tak to 2 cpu.

Dezajner

Próbowałem i wg. mnie do MilkyWay optymalne jest tak:

<app_config>
<app>
<name>milkyway</name>
<gpu_versions>
<gpu_usage>0.25</gpu_usage>
<cpu_usage>0.25</cpu_usage>
</gpu_versions>
</app>
</app_config>

Czas liczenia unita wtedy mieści się od 2:00 do 2:30 no i 4 na raz. Przy 8 unitach na raz czas liczenia rośnie do 6-8 minut na unit co jest bez sensu i dwa jajka zabiera mi z Rosetty.
https://boincstats.com/signature/-5/user/15232186825/sig.png

Dezajner

#10
COLLATZ to prażka jakaś :/ Jeden unit na raz liczy mniej więcej 12:30. Co ciekawe 2 na raz liczy tyle samo. Spróbuję 3 i 4 na raz.

Generalnie czas liczenia jest nieproporcjonalnie długi do różnicy w wydajności FP32 względem RTX3080 więc raczej klient OpenCL do napisania od nowa bo nie widzi wszystkich CU.

UPDATE: 1 unit liczy tyle samo czasu co 2 na raz czyli ponad 12 minut.
https://boincstats.com/signature/-5/user/15232186825/sig.png

tito

A config file zoptymalizowałeś?

Dezajner

Widzę że oprócz app_config.xml jest jeszcze collatz_sieve_1.30_windows_x86_64__opencl_ati_gpu.config ale nie mam pojęcia co tam wpisywać.

Z tego co wiem to aplikacje OpenCL jakoś tak działają że na każdy CU jest kompilowany microkernel więc skoro 6800 XT ma 72 CU to i powinno wykrywać i tworzyć właśnie tyle ale nie wiem jak to ugryźć.

Może coś podpowiesz..? :)
https://boincstats.com/signature/-5/user/15232186825/sig.png

tito

 |-?
Liczysz Collatz i nie wiesz jak optymalizować?
Ten plik  collatz_sieve_1.30_windows_x86_64__opencl_ati_gpu.config
W sumie polecam ten wątek https://boinc.thesonntags.com/collatz/forum_thread.php?id=8
Sam Ci nie podpowiem, bo GPU od AMD nie miałem już dawno.

Dezajner

A podpowiesz chociaż jak wpisać do tego xml-a żeby było z właściwą składnią..?

<app_config>
<app>
verbose=1
kernels_per_reduction=64
threads=8
lut_size=19
sieve_size=30
cache_sieve=1
sleep=0
reduce_cpu=0
</app>
</app_config>
<app_config>
<app>
<name>collatz_sieve</name>
<gpu_versions>
<gpu_usage>1.0</gpu_usage>
<cpu_usage>0.25</cpu_usage>
</gpu_versions>
</app>
</app_config>

Tam gdzie verbose, kernels itp. nie wiem jakie tagi dać, nie rozpoznaje mi tego konfigu.
https://boincstats.com/signature/-5/user/15232186825/sig.png

tito

verbose=1
kernels_per_reduction=64
threads=8
lut_size=19
sieve_size=30
cache_sieve=1
sleep=0
reduce_cpu=0

To wystarczy.
Kolejny WU będzie już liczony z tymi parametrami.

Dezajner

Powaliło mi się bo próbowałem wpisywać na siłę w xml-a :D

Dzięki za pomoc, teraz 1U = 2:51s, pobór mocy 293W i to ma sens :)
https://boincstats.com/signature/-5/user/15232186825/sig.png

tito


Dezajner

Na VEGA 56 miałem 8,562,702 dzienie, tutaj najwidoczniej nie dobiłem do tego pułapu...
https://boincstats.com/signature/-5/user/15232186825/sig.png

tito

??
Przez RAC miałem na myśli (86400 / przeciętny czas przeliczenia próbki w sek) * przeciętna ilość punktów, bo na realny RAC trzeba faktycznie czekać bardzo długo.

Dezajner

Aaa no to masz jak na tacy: 86400 / 171 sek  = 505,25

To dużo czy mało..? :)
https://boincstats.com/signature/-5/user/15232186825/sig.png

tito

To jeszcze ile pkt za unit? Bo to się zmienia z konfigu na konfig.
Ale ogólnie to NVidia w tym projekcie jest lepsza - szczególnie od Turingów.

Dezajner

A gdzie sprawdzić punktację za jednostki..? :)

Ogólnie to chyba jednak NVidia  - licząc od 2080 i RTX wzwyż - jest lepsza... Kiedyś dostawała przez słabe fp32 a teraz w RTX są dwa potoki fp32 i świetnie liczy nawet bez optymalizacji, taki raw power. Foldingi nadal NVidia duuużo lepiej bo np. F@H robi 5,5 mln ppd a wczoraj sprawdziłem Radka i tylko 2,54 mln ppd.
Może fp64 ale nie wiem jak porównać czas liczenia w MilkyWay z innymi gpu.
https://boincstats.com/signature/-5/user/15232186825/sig.png

tito

Strona projektu - > Twoje konto -> zadania -> valid