Aktualności:

Nowy polski projekt BOINC - Universe@Home

Menu główne

Posypały się próbki

Zaczęty przez Ósemka, 21 Wrzesień 2013, 18:32

Ósemka

Witam

Wczoraj dwie próbki zakończyły się błędem przeliczania. Jedna po 15 minutach, druga po ok. 2 godzinach. Dzisiaj jedna próbka po 7 minutach liczenia ma status "Gotowy do zaraportowania" pomimo, że normalnie liczą się ok. 3 godziny.

Od czego mam zacząć, żeby sprawdzić czy wszystko jest OK po mojej stronie?
Folding@Home - Team Poland [276]

stiven

Rosetta to wyjątkowo wrażliwy projekt. Dwa błędy wg mnie to nie powód by robić z tego zagadnienie. Jak pojawi się trzeci to sprawdź czy CPU się nie przegrzewa.

Aegis Maelstrom

Hej,

po pierwsze, próbki w Rosetta są wysyłane z żądaniem liczenia przez pewien czas (obecnie standardowo to są chyba trzy godziny; można sobie to zmienić by np. mniej im obciążać serwer, ja mam ustawione 6 godzin). Jest to robione tak, że WU przelicza się i szuka kolejnych rozwiązań (decoys); kiedy scheduler uznaje, że nie uda się obliczyć kolejnej próbki przed ustawionym terminem, kończy WU i wysyła rozwiązanie. Inne dwa powody to AFAIR przeliczenie 99 rozwiązań albo błąd.

Dla sprawdzenia co się dzieje, przeczytaj komunikat stderr w opisie próbki (możesz podrzucić tu link, jeśli chcesz). Rozwiązań problemów technicznych najlepiej szukać na forum Rosetty (ja sam już nie monitoruję swojego przeliczania, robi to jeden stary komputer bez BAM setki kilometrów ode mnie).

Możesz mieć problem z jakimś konkretnym typem zadań, które może być bardziej pamięciożerne. Jakiś czas temu Rosetta podniosła oficjalne wymagania do 1GB RAM na jedno zadanie. Jeśli się tu nic nie zmieniło, zadania mają dość różne wymagania pamięciowe - serwer Rosetty powinien rozsyłać je opierając się na informacji o maszynie, ale w przypadku R@h nie wszystko jest przewidywalne (sam projekt jest w pewnym sensie wieczną betą, bo służy w pierwszym rzędzie testowaniu nowych protokołów, algorytmów i celów).

Może być i tak, że dany typ jest problemogenny. Inna sprawa to częste restartowaniu próbek - jeśli się nic nie zmieniło, to o ile pamiętam trzykrotne zrestartowanie próbki bez postępu w jej robieniu spowoduje jej automatyczny abort (rezygnację z niej i odesłanie). Teoretycznie mógłby być też problem z chłodzeniem albo interferencją z jakimś programem (np. mocno pamięciożernym).

Ale to takie moje gdybanie. :) Konkretne linki mogłyby pomóc - wraz ze zgłoszeniem w wątku z problemami technicznymi Rosetty.

Ósemka

Jaki program do kontroli temperatury procesora dla debiano-pochodnego Linuxa możecie polecić?

Cytat: Aegis Maelstrom w 21 Wrzesień 2013, 22:09
Inne dwa powody to AFAIR przeliczenie 99 rozwiązań albo błąd.
Nie rozumiem, o co tutaj chodzi. Mógłbyś to rozwinąć?

W stderr nie znalazłem niczego co by mnie zaniepokoiło, ale sami jeszcze zerknijcie:

[2013- 9-21 14:56:26:] :: BOINC:: Initializing ... ok.
[2013- 9-21 14:56:26:] :: BOINC :: boinc_init()
BOINC:: Setting up shared resources ... ok.
BOINC:: Setting up semaphores ... ok.
BOINC:: Updating status ... ok.
BOINC:: Registering timer callback... ok.
BOINC:: Worker initialized successfully.
Registering options..
Registered extra options.
Initializing broker options ...
Registered extra options.
Initializing core...
Initializing options.... ok
Options::initialize()
Options::adding_options()
Options::initialize() Check specs.
Options::initialize()  End reached
Loaded options.... ok
Processed options.... ok
Initializing random generators... ok
Initialization complete.
Setting WU description ...
Unpacking zip data: ../../projects/boinc.bakerlab.org_rosetta/minirosetta_database_rev54943.zip
Unpacking WU data ...
Unpacking data: ../../projects/boinc.bakerlab.org_rosetta/fold_and_dock_foldit_995835_0000_fast_des_tetramer_data.zip
Setting database description ...
Setting up checkpointing ...
Setting up graphics native ...
BOINC:: Worker startup.
Starting watchdog...
Watchdog active.
[2013- 9-21 18:15: 4:] :: BOINC:: Initializing ... ok.
[2013- 9-21 18:15: 4:] :: BOINC :: boinc_init()
BOINC:: Setting up shared resources ... ok.
BOINC:: Setting up semaphores ... ok.
BOINC:: Updating status ... ok.
BOINC:: Registering timer callback... ok.
BOINC:: Worker initialized successfully.
Registering options..
Registered extra options.
Initializing broker options ...
Registered extra options.
Initializing core...
Initializing options.... ok
Options::initialize()
Options::adding_options()
Options::initialize() Check specs.
Options::initialize()  End reached
Loaded options.... ok
Processed options.... ok
Initializing random generators... ok
Initialization complete.
Setting WU description ...
Unpacking zip data: ../../projects/boinc.bakerlab.org_rosetta/minirosetta_database_rev54943.zip
Unpacking WU data ...
Unpacking data: ../../projects/boinc.bakerlab.org_rosetta/fold_and_dock_foldit_995835_0000_fast_des_tetramer_data.zip
Setting database description ...
Setting up checkpointing ...
Setting up graphics native ...
BOINC:: Worker startup.
Starting watchdog...
Watchdog active.
Continuing computation from checkpoint: chk_S_00002_FragmentSampler__stage1 ... success!
Continuing computation from checkpoint: chk_S_00002_FragmentSampler__stage2 ... success!
Continuing computation from checkpoint: chk_S_00002_FragmentSampler__stage3 ... success!
Continuing computation from checkpoint: chk_S_00002_FragmentSampler__stage4_kk_1 ... success!
Continuing computation from checkpoint: chk_S_00002_FragmentSampler__stage4_kk_2 ... success!
Continuing computation from checkpoint: chk_S_00002_FragmentSampler__stage4_kk_3 ... success!
Continuing computation from checkpoint: chk_S_00002_FastRelax__chk1_fa ... success!
Continuing computation from checkpoint: chk_S_00002_FastRelax__chk2_fa ... success!
Continuing computation from checkpoint: chk_S_00002_FastRelax__chk3_fa ... success!
Continuing computation from checkpoint: chk_S_00002_FastRelax__chk4_fa ... success!
Continuing computation from checkpoint: chk_S_00002_FastRelax__chk5_fa ... success!
Continuing computation from checkpoint: chk_S_00002_FastRelax__chk6_fa ... success!
Continuing computation from checkpoint: chk_S_00002_FastRelax__chk7_fa ... success!
Continuing computation from checkpoint: chk_S_00002_FastRelax__chk8_fa ... success!
Continuing computation from checkpoint: chk_S_00002_FastRelax__chk9_fa ... success!
Continuing computation from checkpoint: chk_S_00002_FastRelax__chk10_fa ... success!
Continuing computation from checkpoint: chk_S_00002_FastRelax__chk11_fa ... success!
Continuing computation from checkpoint: chk_S_00002_FastRelax__chk12_fa ... success!
[2013- 9-22 18:23: 5:] :: BOINC:: Initializing ... ok.
[2013- 9-22 18:23: 5:] :: BOINC :: boinc_init()
BOINC:: Setting up shared resources ... ok.
BOINC:: Setting up semaphores ... ok.
BOINC:: Updating status ... ok.
BOINC:: Registering timer callback... ok.
BOINC:: Worker initialized successfully.
Registering options..
Registered extra options.
Initializing broker options ...
Registered extra options.
Initializing core...
Initializing options.... ok
Options::initialize()
Options::adding_options()
Options::initialize() Check specs.
Options::initialize()  End reached
Loaded options.... ok
Processed options.... ok
Initializing random generators... ok
Initialization complete.
Setting WU description ...
Unpacking zip data: ../../projects/boinc.bakerlab.org_rosetta/minirosetta_database_rev54943.zip
Unpacking WU data ...
Unpacking data: ../../projects/boinc.bakerlab.org_rosetta/fold_and_dock_foldit_995835_0000_fast_des_tetramer_data.zip
Setting database description ...
Setting up checkpointing ...
Setting up graphics native ...
BOINC:: Worker startup.
Starting watchdog...
Watchdog active.


Mój komputer ma zainstalowane 2 GB RAMu, dołożyłem jeszcze dodatkowe 4 w postaci swapa. W momencie wystąpienia problemów w użyciu było ok. 1 GB z kości i 0 MB na swapie. Ogólnie komputer liczył nieprzerwanie drugą dobę, ale nie wiem czy to może mieć wpływ. Przecież niektórzy liczą 24/7. W tej chwili gdy spoglądam w System monitor, aplikacja minirosetta zajmuje 373,1 MB pamięci.

Cytat: Aegis Maelstrom w 21 Wrzesień 2013, 22:09
Inna sprawa to częste restartowaniu próbek
Chodzi o przycisk "Zresetuj projekt"? Jego nie ruszam.
Folding@Home - Team Poland [276]

sknd

Cytat: osemka w 22 Wrzesień 2013, 19:06
Jaki program do kontroli temperatury procesora dla debiano-pochodnego Linuxa możecie polecić?

ja korzystam z lm_sensors i xfce-sensors-plugina. Nie jest to debianowski linuch, ale o ile mi wiadomo lm_sensors są na wszystkie distro.

Aegis Maelstrom

Cytat: osemka w 22 Wrzesień 2013, 19:06
Jaki program do kontroli temperatury procesora dla debiano-pochodnego Linuxa możecie polecić?

Cytat: Aegis Maelstrom w 21 Wrzesień 2013, 22:09
Inne dwa powody to AFAIR przeliczenie 99 rozwiązań albo błąd.
Nie rozumiem, o co tutaj chodzi. Mógłbyś to rozwinąć?

Jeśli zadanie zawarte w próbce jest tak prędkie czy też łatwe, że się _bardzo_ prędko przelicza, wówczas możesz zdążyć zrobić 99 próbek przed zwyczajnym czasem i je odesłać. W praktyce zdarza się to bardzo rzadko, gdy trafi się seria tzw. krótkich WU.

Drugim powodem dla znacznie wcześniejszego zaraportowania próbki jest jej posypanie się.



W stderr też nie widzę nic oczywistego. Pokazałbym to na forum Rosetty, z własnego doświadczenia oni cieszą się z raportów i generalnie przyglądają im się, choć nie zawsze musza odpowiadać.


Cytat: osemka w 22 Wrzesień 2013, 19:06
Cytat: Aegis Maelstrom w 21 Wrzesień 2013, 22:09
Inna sprawa to częste restartowaniu próbek
Chodzi o przycisk "Zresetuj projekt"? Jego nie ruszam.

Chodzi mi o zwykłe wznowienie próbki, np. po spauzowaniu jej w menedżerze albo uśpieniu komputera. Zrestartowanie projektu od razu spowoduje wywalenie pobranych próbek do kosza - dlatego lepiej wcześnie nie pobierać niepotrzebnie i zaraportować zrobioną pracę.

Pozdrawiam. :)

Ósemka

Wczoraj miałem trochę szczęścia w nieszczęściu, bo mniej więcej w momencie, gdy zerknąłem w okno managera, wysypała się próbka. Wklepałem wtedy szybko polecenie "sensors" i otrzymałem taki wynik:

acpitz-virtual-0
Adapter: Virtual device
temp1:        +60.0°C  (crit = +105.0°C)

coretemp-isa-0000
Adapter: ISA adapter
Core 0:       +59.0°C  (crit = +100.0°C)

max6657-i2c-5-4c
Adapter: SMBus PIIX4 adapter at 0b00
temp1:        +50.0°C  (low  = -55.0°C, high = +70.0°C)
                       (crit = +85.0°C, hyst = +75.0°C)
temp2:        +77.2°C  (low  = -55.0°C, high = +70.0°C)  ALARM (HIGH)
                       (crit = +85.0°C, hyst = +75.0°C)

Niestety, nie wiem co ukrywa się pod nazwą temp2. Macie jakieś pomysły? Mam laptopa Asus A6Rp. Czy to w przegrzewaniu się tego elementu może tkwić przyczyna?

Zastanawiam się także nad ogólną stabilnością systemu. Używam Minta 15. Wczoraj, jakąś godzinę po awarii próbki, wysypał się cały system. Kila dni wcześniej miałem kernel panic. Być może to wszystko jest powiązane, ale nie mam pomysłu od czego zacząć.
Folding@Home - Team Poland [276]

Szopler

Zamiast się zastanawiać odkręcił bym pokrywę laptopa i sprawdził czy się jakieś mocowanie radiatora nie oderwało od płytki...

Ósemka

Mam taki unikalny talent, że próby robienia czegokolwiek przy hardware kończą się zazwyczaj ciężkim uszkodzeniem sprzętu. Dlatego nie lubię grzebać "pod maską".

W międzyczasie miałem kilka aktualizacji kernela, więc być może sam system będzie stabilniejszy.

Podsumowując ostatnie tygodnie - nie było żadnego wysypywania się próbek. Być może pomogło to, że włączam Boinca tylko na ok. 5 godzin dziennie, a nie jak wtedy na długi dystans. Po drugie wyszła nowa wersja minirosetty, po trzecie wspomniane wyżej uaktualnione jajko.

"Sensors" dalej pokazuje stan alarmowy, ale na razie nie czuć negatywnych skutków. Być może w niedalekiej przyszłości zaniosę komputer do kumpla - razem odkręcimy standardowe, bezpieczne i przewidziane przez producenta pokrywki oraz przedmuchamy sprężonym powietrzem.

Na dzień dzisiejszy jest już 2570 punktów i wciąż przybywa :).

Będę alarmował w razie problemów

:attack:
Folding@Home - Team Poland [276]

andy101fah

Do ataku  :attack: :attack:.  A poza tym pochwal się swoimi zabawkami.

http://www.boincatpoland.org/smf/wizytowki/

niechaj koledzy z Boinc wiedzą że wywodzimy się z folding@home i bawimy się na ostro .

Ósemka

Cytat: andy101fah w 23 Październik 2013, 18:47
http://www.boincatpoland.org/smf/wizytowki/
Wizytówka będzie później, jak znajdę na nią czas i wenę twórczą ;).

Tymczasem, Team 276 do boju!  :whip: :attack:
Folding@Home - Team Poland [276]

spiro

Odśnieżam, bo mam podobną sytuację.
Mam vistę z 2gb RAM i od ok miesiąca nie dostałem żadnej próbki. Status servera jest zielony. Zrestartowałem projekt - bez rezultatu.
Co mogę zrobić nie licząc wymiany komputera?  ;D

Szopler

Ja też dostaję próbki jakby przez lejek choć w sierpniu nie było problemu. Raz jest normalnie, a raz wiszą w transferach i się nie ściągają mimo że statusy serwera są OK.

apohawk

Też miałem problem z próbkami Rosetty w ostatnich dniach. Widziałem też komunikaty w boinc managerze o pracach konserwacyjnych w rosecie przy zgłaszaniu próbek. Mieli jakąś przerwę. Okazyjnie też jakaś próbka mi się wywali, c'est la vie.
No good deed goes unpunished.