BOINC@Poland

Inne => Archiwum => Na kartach Nvidii => Wątek zaczęty przez: baq w 06 Marzec 2012, 21:14

Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: baq w 06 Marzec 2012, 21:14
Jestem nowy wiec na początek chciałem się przywitać - Witam!

Niedawno złożyłem nowy sprzęt - platforma na P55 i socketcie 1156. Do tego dołożyłem kartę Gigabyte GTX460 768MB.
Poprzednio liczyłem na innym, marniutkim sprzęcie, więc teraz postanowiłem wykorzystać moc nowego PC, zwłaszcza GPU.

I tu zaczęły się schody.
Na najnowszych sterownikach nVidii 295.73 miałem pełno błędów, co kolejne zadania oznaczone jako aborted. Z logów wynikało, że zadanie 'exceeded elapsed time limit'.  Stderr jednego z zadań:
Activated exception handling...
[21:32:51][3452][INFO ] Starting data processing...
[21:32:51][3452][ERROR] Couldn't initialize CUDA driver API (error: 100)!
[21:32:51][3452][ERROR] Demodulation failed (error: 1020)!
21:32:51 (3452): called boinc_finish


Trochę poczytałem informacji i postanowiłem powrócić do sterowników 285.62
Już myślałem że wszystko OK i po kilku godzinach znowu otrzymałem błąd:
http://einstein.phys.uwm.edu/result.php?resultid=277094642 (http://einstein.phys.uwm.edu/result.php?resultid=277094642)

Tym razem jest to innego typu błąd - Access Violation, zresztą widać w logu.
Jest coś co mogę z tym zrobić, czy po prostu liczenie na GPU jest do niczego i pełne bugów?

Dodam, że uczestniczę w 3 projektach, błędy mam tylko z tych które używają CUDA ( Einstein i SETI ).

pozdrawiam
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: Tomasz R. Gwiazda w 06 Marzec 2012, 22:06
niewiele to pomoze ale powiem ze na NV to sie oplaca liczyc zupelnie inne projekty, np. Distrgen :)

a co do problemu to napewno ktos pomoze :)
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: baq w 06 Marzec 2012, 22:20
Co do projektów to na pewno dorzuciłbym inne, miałem w planach domowy serwer do różnych zastosowań no więc kolejne zastosowanie jak znalazł. Pierwsze chciałem jednak wejść w temat i zobaczyć jak to ugryźć, jakoś nie mogę.

Co do problemu, coś musi być ze sprzętem/konfiguracją. Oglądałem statystyki użytkowników z poszczególnych projektach i na tysiące przeliczonych próbek nie było ani jednej błędnej. Ja mam 50% błędnych.
Właśnie przed chwilą następne zadanie zakończyło się błędem. O dziwo tym razem w projekcie nie korzystającym z CUDA ( WCG ). W logach managera ta próbka widnieje ze zdarzeniem:
2012-03-06 21:53:45 | World Community Grid | Output file SN2S_AAC46900_0000022_0814_1_0 for task SN2S_AAC46900_0000022_0814_1 absent


Taki sam błąd ( output file absent ) miałem w logach managera dla próbki z linku z pierwszego postu.
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: armar w 06 Marzec 2012, 22:27
Cytat: baq w 06 Marzec 2012, 22:20
Co do problemu, coś musi być ze sprzętem/konfiguracją.

Używam klienta BOINC do testowania komputerów - jeśli nie ma błędów, to znaczy, że sprzęt jest ok. :)
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: mimeq w 06 Marzec 2012, 22:48
Nie uzywaj najnowszych sterownikow nvidi:

CytatDo not use 295.x driver on windows
The driver causes CUDA WUs to fail - here and on other projects. Please don't use it until NVIDIA fixes the bug.

Tu akurat info GPUGrid, ale pewnie wszedzie jest podobnie.
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: baq w 06 Marzec 2012, 22:52
Tak, zauważyłem teraz kiedy już włączyli stronę SETI, że poprzedni problem był związany z tym, że aplikacja kliencka nie wykrywała CUDA w systemie. Od kiedy przeinstalowałem stery tamten problem zniknął ( czyli zarazem tego typu błędy ). Teraz jadę na starszych sterownikach i jedyne błędy to 'output file absent' chyba całkowicie niezwiązane z GPU.
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: Tomasz R. Gwiazda w 06 Marzec 2012, 23:05
a moze nie zainstalowales klienta Boinc z prawami administratora ? i dlatego sa problemy z zapisem na dysku

rozumiem ze system to Win7 x64
a wersja klienta Boinc ?

Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: Troll81 w 07 Marzec 2012, 07:28
przede wszystkim witam na forum.

Podaj nam swój system operacyjny i wersję BOINC managera. Ja na dzień dobry sprawdził bym jescze uprawnienia do zapisu do katalogów BOINC (bo może BOINC manager nie może tam zapisac z powodu braku praw) i ewentualnie firewalla/antywira.

najprostszym testem jest wyłączenie antywira/firewalla i danie uprawnień wszystkim do zapisu i modyfikacji na katalogach BOINC. Potem oczywiście nalezy po kolei przywracać stare ustawienia i zobaczyć kiedy zacznie się sypać.
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: baq w 07 Marzec 2012, 14:51
System Windows 7 64bit, BOINC v6.12.33 wersja 64bit.

We wszystkich logach błędów poszczególnych zadań ( na stronie projektu ) mam Access Violation at xxx. Dzisiaj zostawiłem na noc PC włączony i BOINC aktywny, rano komunikat 'System odzyskał sprawność ... itd.'.

Przeskanowałem zrzuty programem WhoCrashed i okazało się, że przez całą noc miałem 5 BSODów.
Wszystkie takie same:
This was likely caused by the following module: hardware
Bugcheck code: 0x124 (0x0, 0xFFFFFA80048E98F8, 0x0, 0x0)
Error: WHEA_UNCORRECTABLE_ERROR
Dump file: C:\Windows\Minidump\030612-17004-01.dmp


Przetestuje jeszcze pamięć Memtestem.
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: lolek w 07 Marzec 2012, 14:59
Przypadkiem procka za mocno nie przetaktowałeś?
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: baq w 07 Marzec 2012, 16:51
Procesor ( i3-530 ), przetaktowany ale to już od dłuższego czasu, nie zauważyłem niestabilności przez ten czas. W tej chwili odkręciłem trochę Base Clock, zobaczymy co będzie.

Dziękuje wszystkim za zainteresowanie.
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: Cyfron w 07 Marzec 2012, 17:14
często BOINC i jego próbki są dużo bardziej wrażliwe na błędy procesora/pamięci spowodowane podkręcaniem
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: Troll81 w 07 Marzec 2012, 18:21
Szczególnie czułym na OC procka/pamięci jest Rosetta.
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: lolek w 07 Marzec 2012, 21:04
Z tego co znalazłem to to jest błąd hardware więc coś Ci po prostu w sprzęcie szwankuje. Najczęściej były to problemy z przetaktowanym prockiem, lub z zasilaczem.
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: baq w 07 Marzec 2012, 22:25
Obniżyłem taktowanie procesora, zostawię PC na noc, jutro się okaże, czy wszystkie zadania się przeliczyły bez błędów.
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: baq w 08 Marzec 2012, 15:46
Obniżyłem taktowanie na 3,3GHz ( z 3,6GHz ), nominalne 2.9 GHz. Na początek zrobiłem półgodzinny test w prime95 i nie było błędów. Przez noc następne dwa zadania błędne:

http://einstein.phys.uwm.edu/result.php?resultid=277211575 (http://einstein.phys.uwm.edu/result.php?resultid=277211575)
http://setiathome.berkeley.edu/result.php?resultid=2341318379 (http://setiathome.berkeley.edu/result.php?resultid=2341318379)

--------

Znalazłem takie info o błędzie -12 w zadaniach SETI@HOME:
CytatIt's a bit of unfortunate coding by the NVidia team who wrote the CUDA app for SETI in the first place. They're routine, unfortunately, and you don't need to worry about them - it's not anything wrong at your end.

Natomiast drugi z błędów to zadanie którego liczenie zaczęte było jeszcze przed obniżeniem taktowania, dopiero teraz wznowione i zakończyło się błędem. Więc chyba wszystko w porządku.

Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: Troll81 w 08 Marzec 2012, 17:00
monitoruj i sprawdzaj. moze to wina zasilacza?
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: Tomasz R. Gwiazda w 08 Marzec 2012, 17:04
no i jeszcze pytanie jakie temperatury procka i gpu przy 100% load
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: baq w 12 Marzec 2012, 14:24
Temperatury są w porządku, na CPU nie przekracza 65 stopni, przeważnie ok. 50-60. Na GPU nie więcej jak 60 stopni.

Kilka dni temu obniżyłem taktowanie i przez 2 dni nie było ani jednego błędu w projektach SETI, Einstein, WCG. Postanowiłem dołączyć do wspomnianego projektu Rosetta.

Na obniżonym taktowaniu w projekcie Rosetta ( i tylko w nim ) występowały błędy "Compute Error". Dla wykluczenia wpływu procesora po OC przywróciłem wszystkie domyślne ustawienia w BIOSie, teraz procesor działa w fabrycznym zegarem.
Błędy "Compute Error" zniknęły, jednak nadal niektóre zadania kończą się błędem, tyle że "Validate Error".
Nie mam już pomysłów z czym może być problem:
http://boinc.bakerlab.org/rosetta/result.php?resultid=490520639 (http://boinc.bakerlab.org/rosetta/result.php?resultid=490520639)
http://boinc.bakerlab.org/rosetta/result.php?resultid=490431767 (http://boinc.bakerlab.org/rosetta/result.php?resultid=490431767)
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: pszyklejony w 12 Marzec 2012, 17:19
Tu

http://boinc.bakerlab.org/rosetta/forum_thread.php?id=5922

jest podobny problem, wygląda na konflikt NV z resztą kompa. Sprawdź podgląd zdarzeń i przerwania a jak nie to próbuj innych sterowników.
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: baq w 12 Marzec 2012, 20:26
Pod tym linkiem jest mowa o "Client Error", u mnie natomiast zadania kończą się w 100%, wynik wysyłany jest do serwera i tam dostaje Validate Error.

Przeszukałem forum projektu i w temacie o nowej wersji aplikacji klienckiej znalazłem post z identycznym problemem:
Takie same błędy jak u mnie na dwóch różnych maszynach
http://boinc.bakerlab.org/rosetta/workunit.php?wuid=446952378 (http://boinc.bakerlab.org/rosetta/workunit.php?wuid=446952378)

Teraz patrze na WU, z którego pochodziło zadanie przesłane do mnie
http://boinc.bakerlab.org/rosetta/workunit.php?wuid=447330514 (http://boinc.bakerlab.org/rosetta/workunit.php?wuid=447330514)

To wygląda na błąd "u nich", powinni go w najbliższym czasie naprawić.



Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: AL w 13 Marzec 2012, 04:55
Ja ostatnio miałem trochę problemów z nieco inną kartą nv430gt, ale tylko na projektach z cuda. Cpu w tamtym kompie liczył bez błędów. Jeśli chodzi o gpu problemem okazało się zaktualizowanie sterowników grafiki do najnowszych 295 coś tam, coś tam. Dopiero po powrocie do sterowników bodajże 285 coś tam, coś tam - rozwiązało problem.
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: Angelus w 18 Marzec 2012, 22:11
Nie chcę zakładać nowego tematu więc podłączę się tutaj  :whistle:
Czy ktoś instalował najnowsze sterowniki nvidii - 296.10?
Z poprzednią wersją (295.73) były problemy choćby w PG (omawiane m.in. na ichnim forum) dlatego nie aktualizowałem, czy w najnowszej wersji problem ten został usuniety? Ktoś ma jakieś przecieki, własne doświadczenia? Ja ciągle używam 290.36 (BETA) i mimo iż nie miałem z nimi żadnych problemów to myślę że wypadałoby je uaktualnić...
:ph34r:
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: Tomasz R. Gwiazda w 18 Marzec 2012, 22:37
dziala nie rusz :D
przestanie dzialac, zaktualizuj

Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: dziubas w 18 Marzec 2012, 22:43
próbowalem, PG nie działa, wrócilem do 285.62
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: aborek w 19 Marzec 2012, 00:36
Cytat: dziubas w 18 Marzec 2012, 22:43
próbowalem, PG nie działa, wrócilem do 285.62
U mnie działa - zero problemów.
Tytuł: Problemy z CUDA GTX460
Wiadomość wysłana przez: norbercik93 w 14 Kwiecień 2012, 18:32
Jaka jest ostatnia wersja sterow nvidii działajaca z einsteinem?