Problemy z CUDA GTX460

Zaczęty przez baq, 06 Marzec 2012, 21:14

baq

Jestem nowy wiec na początek chciałem się przywitać - Witam!

Niedawno złożyłem nowy sprzęt - platforma na P55 i socketcie 1156. Do tego dołożyłem kartę Gigabyte GTX460 768MB.
Poprzednio liczyłem na innym, marniutkim sprzęcie, więc teraz postanowiłem wykorzystać moc nowego PC, zwłaszcza GPU.

I tu zaczęły się schody.
Na najnowszych sterownikach nVidii 295.73 miałem pełno błędów, co kolejne zadania oznaczone jako aborted. Z logów wynikało, że zadanie 'exceeded elapsed time limit'.  Stderr jednego z zadań:
Activated exception handling...
[21:32:51][3452][INFO ] Starting data processing...
[21:32:51][3452][ERROR] Couldn't initialize CUDA driver API (error: 100)!
[21:32:51][3452][ERROR] Demodulation failed (error: 1020)!
21:32:51 (3452): called boinc_finish


Trochę poczytałem informacji i postanowiłem powrócić do sterowników 285.62
Już myślałem że wszystko OK i po kilku godzinach znowu otrzymałem błąd:
http://einstein.phys.uwm.edu/result.php?resultid=277094642

Tym razem jest to innego typu błąd - Access Violation, zresztą widać w logu.
Jest coś co mogę z tym zrobić, czy po prostu liczenie na GPU jest do niczego i pełne bugów?

Dodam, że uczestniczę w 3 projektach, błędy mam tylko z tych które używają CUDA ( Einstein i SETI ).

pozdrawiam

Tomasz R. Gwiazda

niewiele to pomoze ale powiem ze na NV to sie oplaca liczyc zupelnie inne projekty, np. Distrgen :)

a co do problemu to napewno ktos pomoze :)

baq

Co do projektów to na pewno dorzuciłbym inne, miałem w planach domowy serwer do różnych zastosowań no więc kolejne zastosowanie jak znalazł. Pierwsze chciałem jednak wejść w temat i zobaczyć jak to ugryźć, jakoś nie mogę.

Co do problemu, coś musi być ze sprzętem/konfiguracją. Oglądałem statystyki użytkowników z poszczególnych projektach i na tysiące przeliczonych próbek nie było ani jednej błędnej. Ja mam 50% błędnych.
Właśnie przed chwilą następne zadanie zakończyło się błędem. O dziwo tym razem w projekcie nie korzystającym z CUDA ( WCG ). W logach managera ta próbka widnieje ze zdarzeniem:
2012-03-06 21:53:45 | World Community Grid | Output file SN2S_AAC46900_0000022_0814_1_0 for task SN2S_AAC46900_0000022_0814_1 absent


Taki sam błąd ( output file absent ) miałem w logach managera dla próbki z linku z pierwszego postu.

armar

Cytat: baq w 06 Marzec 2012, 22:20
Co do problemu, coś musi być ze sprzętem/konfiguracją.

Używam klienta BOINC do testowania komputerów - jeśli nie ma błędów, to znaczy, że sprzęt jest ok. :)

mimeq

Nie uzywaj najnowszych sterownikow nvidi:

CytatDo not use 295.x driver on windows
The driver causes CUDA WUs to fail - here and on other projects. Please don't use it until NVIDIA fixes the bug.

Tu akurat info GPUGrid, ale pewnie wszedzie jest podobnie.


baq

Tak, zauważyłem teraz kiedy już włączyli stronę SETI, że poprzedni problem był związany z tym, że aplikacja kliencka nie wykrywała CUDA w systemie. Od kiedy przeinstalowałem stery tamten problem zniknął ( czyli zarazem tego typu błędy ). Teraz jadę na starszych sterownikach i jedyne błędy to 'output file absent' chyba całkowicie niezwiązane z GPU.

Tomasz R. Gwiazda

a moze nie zainstalowales klienta Boinc z prawami administratora ? i dlatego sa problemy z zapisem na dysku

rozumiem ze system to Win7 x64
a wersja klienta Boinc ?


Troll81

przede wszystkim witam na forum.

Podaj nam swój system operacyjny i wersję BOINC managera. Ja na dzień dobry sprawdził bym jescze uprawnienia do zapisu do katalogów BOINC (bo może BOINC manager nie może tam zapisac z powodu braku praw) i ewentualnie firewalla/antywira.

najprostszym testem jest wyłączenie antywira/firewalla i danie uprawnień wszystkim do zapisu i modyfikacji na katalogach BOINC. Potem oczywiście nalezy po kolei przywracać stare ustawienia i zobaczyć kiedy zacznie się sypać.

baq

System Windows 7 64bit, BOINC v6.12.33 wersja 64bit.

We wszystkich logach błędów poszczególnych zadań ( na stronie projektu ) mam Access Violation at xxx. Dzisiaj zostawiłem na noc PC włączony i BOINC aktywny, rano komunikat 'System odzyskał sprawność ... itd.'.

Przeskanowałem zrzuty programem WhoCrashed i okazało się, że przez całą noc miałem 5 BSODów.
Wszystkie takie same:
This was likely caused by the following module: hardware
Bugcheck code: 0x124 (0x0, 0xFFFFFA80048E98F8, 0x0, 0x0)
Error: WHEA_UNCORRECTABLE_ERROR
Dump file: C:\Windows\Minidump\030612-17004-01.dmp


Przetestuje jeszcze pamięć Memtestem.

lolek

Przypadkiem procka za mocno nie przetaktowałeś?

baq

Procesor ( i3-530 ), przetaktowany ale to już od dłuższego czasu, nie zauważyłem niestabilności przez ten czas. W tej chwili odkręciłem trochę Base Clock, zobaczymy co będzie.

Dziękuje wszystkim za zainteresowanie.

Cyfron

często BOINC i jego próbki są dużo bardziej wrażliwe na błędy procesora/pamięci spowodowane podkręcaniem

Troll81

Szczególnie czułym na OC procka/pamięci jest Rosetta.

lolek

Z tego co znalazłem to to jest błąd hardware więc coś Ci po prostu w sprzęcie szwankuje. Najczęściej były to problemy z przetaktowanym prockiem, lub z zasilaczem.

baq

Obniżyłem taktowanie procesora, zostawię PC na noc, jutro się okaże, czy wszystkie zadania się przeliczyły bez błędów.

baq

#15
Obniżyłem taktowanie na 3,3GHz ( z 3,6GHz ), nominalne 2.9 GHz. Na początek zrobiłem półgodzinny test w prime95 i nie było błędów. Przez noc następne dwa zadania błędne:

http://einstein.phys.uwm.edu/result.php?resultid=277211575
http://setiathome.berkeley.edu/result.php?resultid=2341318379

--------

Znalazłem takie info o błędzie -12 w zadaniach SETI@HOME:
CytatIt's a bit of unfortunate coding by the NVidia team who wrote the CUDA app for SETI in the first place. They're routine, unfortunately, and you don't need to worry about them - it's not anything wrong at your end.

Natomiast drugi z błędów to zadanie którego liczenie zaczęte było jeszcze przed obniżeniem taktowania, dopiero teraz wznowione i zakończyło się błędem. Więc chyba wszystko w porządku.


Troll81

monitoruj i sprawdzaj. moze to wina zasilacza?

Tomasz R. Gwiazda

no i jeszcze pytanie jakie temperatury procka i gpu przy 100% load

baq

Temperatury są w porządku, na CPU nie przekracza 65 stopni, przeważnie ok. 50-60. Na GPU nie więcej jak 60 stopni.

Kilka dni temu obniżyłem taktowanie i przez 2 dni nie było ani jednego błędu w projektach SETI, Einstein, WCG. Postanowiłem dołączyć do wspomnianego projektu Rosetta.

Na obniżonym taktowaniu w projekcie Rosetta ( i tylko w nim ) występowały błędy "Compute Error". Dla wykluczenia wpływu procesora po OC przywróciłem wszystkie domyślne ustawienia w BIOSie, teraz procesor działa w fabrycznym zegarem.
Błędy "Compute Error" zniknęły, jednak nadal niektóre zadania kończą się błędem, tyle że "Validate Error".
Nie mam już pomysłów z czym może być problem:
http://boinc.bakerlab.org/rosetta/result.php?resultid=490520639
http://boinc.bakerlab.org/rosetta/result.php?resultid=490431767

pszyklejony

Tu

http://boinc.bakerlab.org/rosetta/forum_thread.php?id=5922

jest podobny problem, wygląda na konflikt NV z resztą kompa. Sprawdź podgląd zdarzeń i przerwania a jak nie to próbuj innych sterowników.

baq

Pod tym linkiem jest mowa o "Client Error", u mnie natomiast zadania kończą się w 100%, wynik wysyłany jest do serwera i tam dostaje Validate Error.

Przeszukałem forum projektu i w temacie o nowej wersji aplikacji klienckiej znalazłem post z identycznym problemem:
Takie same błędy jak u mnie na dwóch różnych maszynach
http://boinc.bakerlab.org/rosetta/workunit.php?wuid=446952378

Teraz patrze na WU, z którego pochodziło zadanie przesłane do mnie
http://boinc.bakerlab.org/rosetta/workunit.php?wuid=447330514

To wygląda na błąd "u nich", powinni go w najbliższym czasie naprawić.




AL

Ja ostatnio miałem trochę problemów z nieco inną kartą nv430gt, ale tylko na projektach z cuda. Cpu w tamtym kompie liczył bez błędów. Jeśli chodzi o gpu problemem okazało się zaktualizowanie sterowników grafiki do najnowszych 295 coś tam, coś tam. Dopiero po powrocie do sterowników bodajże 285 coś tam, coś tam - rozwiązało problem.

Angelus

Nie chcę zakładać nowego tematu więc podłączę się tutaj  :whistle:
Czy ktoś instalował najnowsze sterowniki nvidii - 296.10?
Z poprzednią wersją (295.73) były problemy choćby w PG (omawiane m.in. na ichnim forum) dlatego nie aktualizowałem, czy w najnowszej wersji problem ten został usuniety? Ktoś ma jakieś przecieki, własne doświadczenia? Ja ciągle używam 290.36 (BETA) i mimo iż nie miałem z nimi żadnych problemów to myślę że wypadałoby je uaktualnić...
:ph34r:

Tomasz R. Gwiazda

dziala nie rusz :D
przestanie dzialac, zaktualizuj


dziubas

próbowalem, PG nie działa, wrócilem do 285.62
* Death is the highest priority non-maskable interrupt *

aborek

Cytat: dziubas w 18 Marzec 2012, 22:43
próbowalem, PG nie działa, wrócilem do 285.62
U mnie działa - zero problemów.

norbercik93

Jaka jest ostatnia wersja sterow nvidii działajaca z einsteinem?