BOINC@Poland

Projekty => Inne/nowe projekty => Wątek zaczęty przez: krzyszp w 14 Październik 2013, 11:51

Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 14 Październik 2013, 11:51
Uruchomiłem projekt Plagiarism@Home, którego pomysłodawcą jest Tobas.
W tej chwili aplikacja projektu jest w fazie "bardzo alfa(beta)" i jest dość prymitywna.

Projekt działa pod adresem Plagiarism@Home (http://plagiarism.boincpolska.org/plagiarism/) i jak łatwo się domyślić jest utrzymywany przez Fundację BOINC Polska, co jest istotne ze względu na bardzo duże wymagania dyskowe (zakładam, że projekt będzie używał dość potężnej bazy danych).
Celem projektu jest automatyczne przeszukiwanie sieci w poszukiwaniu duplikatów a także cytatów w dostarczonych dokumentach.

W tej chwili projekt ma testową aplikację pod Linuksa 64bit, do poprawnego działania wymaga biblioteki GLIBC w wersji min. 2.14 (ze względu na dynamicznie linkowaną bibliotekę libcurl).

Zaznaczam, że projekt w czasie działania intensywnie wykorzystuje łącze internetowe.
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: sknd w 14 Październik 2013, 12:30
ale oprócz neta, procka też używa intensywnie?
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 14 Październik 2013, 12:36
Cytat: sknd w 14 Październik 2013, 12:30
ale oprócz neta, procka też używa intensywnie?
Nie powinien, ten program ściąga kolejno strony internetowe z podanej listy i przeszukuje je pod kątem tekstu podanego w WU.
W tej chwili oczywiście tekst jest próbny (jeden z artykułów z Wikipedii).

Ze względu na czas ściągania i związane z tym opóźnienia procek nie powinien być zbyt obciążony.
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: sknd w 14 Październik 2013, 13:02
tak spytałem, bo może by się dało go zrobić projektem Non-Cpu?
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 14 Październik 2013, 13:04
Raczej nie, bo jednak przeszukiwanie tekstu może trochę zajmować mocy. Ale zobaczymy w praniu (wyniki moich testów są niemiarodajne - wirtualka dość mocno obciążona innymi procesami).
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: Gołąbpocztowy w 15 Październik 2013, 13:25
Dołączony, ale czekam na apke pod win :)
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: Dario666 w 15 Październik 2013, 15:55
Kurczę, trochę karkołomnie zadanie. Chyba do tej pory tylko Chuck Norris ściągnął cały Internet  XD
Tytuł: Odp: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 15 Październik 2013, 17:23
A tam zaraz, mam go na 3 dyskietkach ;)
A tak poważnie, to ściągam tylko listę linków do bazy...

Wysłane z SGS3 więc bez polskich znaków ;)
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: Gołąbpocztowy w 15 Październik 2013, 23:15
Chciałem trochę policzyć na vboxie ale nie mogę uruchomić systemu z kernelem 64 bitowym bo wyskakuje mi błąd, że mój procesor nie obsługuje instrukcji 64 bitowych :( Mam i7 i nie wiem jak to rozwiązać...
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: Szopler w 15 Październik 2013, 23:48
Sprawdź w BIOSie czy masz włączoną obsługę wirtualizacji (Virtualization Technology) i "Intel VT-D Tech".
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 16 Październik 2013, 00:45
Z jakiegoś nie znanego mi powodu serwer przestał rozsyłać próbki pomimo, że wszystkie daemony chodzą... Jakieś sugestie?
Druga sprawa - poproszę kogoś o sprawdzenie, czy serwer wysyła maile, np. poprzez próbę przypomnienia hasła...
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: sknd w 16 Październik 2013, 09:31
no wysłał poprawnie  :)

EDIT: ale jeszcze nie udało mi się dostać ani jednego WU, mimo wstrzymania wszystkich innych projektów. Mam glibc 2.18. manager pisze tylko tak:
śro, 16 paź 2013, 09:41:57 | Plagiarism@Home | update requested by user
śro, 16 paź 2013, 09:42:00 | Plagiarism@Home | Sending scheduler request: Requested by user.
śro, 16 paź 2013, 09:42:00 | Plagiarism@Home | Requesting new tasks for CPU
śro, 16 paź 2013, 09:42:01 | Plagiarism@Home | Scheduler request completed: got 0 new tasks
śro, 16 paź 2013, 09:42:01 | Plagiarism@Home | No tasks sent

Tytuł: Plagiarism@Home
Wiadomość wysłana przez: patyczak w 16 Październik 2013, 10:51
Mi pobrał około 3 w nocy jedną jednostkę oznaczoną jako non CPU intensive i o siódmej rano wciąż ją liczył, postęp był na poziomie 50% jeśli dobrze zapamiętałem.
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: Gołąbpocztowy w 16 Październik 2013, 11:27
Obsługa wirtualizacji w biosie jest włączona. Dalej problem występuje :(


ps. mogę prosić moderatora o wydzielenie wątku żeby nie robić śmietnika?
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 16 Październik 2013, 12:49
Cytat: patyczak w 16 Październik 2013, 10:51
Mi pobrał około 3 w nocy jedną jednostkę oznaczoną jako non CPU intensive i o siódmej rano wciąż ją liczył, postęp był na poziomie 50% jeśli dobrze zapamiętałem.
Podaj mi listę plików z katalogu projects i slots. Ja jakoś nie mogę upolować WU i ne wiem, czy dobrze pliki się przesyłają...
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: Troll81 w 16 Październik 2013, 18:12
A tak z głupia frant zapytam Gołab. Jakiego masz VBoxa?? czy aby nie 32bit??
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: Gołąbpocztowy w 16 Październik 2013, 19:25
vbox najnowszy (4.3) postawiony na 64 bitowym windowsie 8
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: Troll81 w 16 Październik 2013, 20:02
Czy masz w systemie uruchomiona usługę Hyper-V ? (bywa że blokuje Vboxa)

Czy masz w biosie zaznaczoną opcję "trusted execution"? Ona również może przeszkadzać.
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: patyczak w 16 Październik 2013, 22:32
Cytat: krzyszp w 16 Październik 2013, 12:49
Cytat: patyczak w 16 Październik 2013, 10:51
Mi pobrał około 3 w nocy jedną jednostkę oznaczoną jako non CPU intensive i o siódmej rano wciąż ją liczył, postęp był na poziomie 50% jeśli dobrze zapamiętałem.
Podaj mi listę plików z katalogu projects i slots. Ja jakoś nie mogę upolować WU i ne wiem, czy dobrze pliki się przesyłają...
Katalog projects:
adr2.in
job_2.xml
upper_case_1_i686-pc-linux-gnu
doc2.in
pl_check1_8_i686-pc-linux-gnu
job_1.0.xml

slots:
adr1.in
doc1.in
pl_check1_8_i686-pc-linux-gnu
boinc_lockfile
init_data.xml
raport.txt
boinc_mmap_file
job.xml
stderr.txt

Próbka liczy się 19 godzin postęp 66,873%
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 16 Październik 2013, 22:38
No to jesteś pierwszy, któremu liczy...
U mnie na wszystkich kompach wykrzacza się z błędem:
<message>
process got signal 11
</message>

Co ciekawe, na tej samej maszynie odpalony "standalone" (z palca) chodzi wyśmienicie... Google nie podaje przydatnych informacji, tylko listę projektów z tymi samymi błędami bez rozwiązania... Dodam, że mam tak na 3 maszynach (Debian x1 i Ubux2).

Ps. App jest już w wersji 11-tej... (pl_check1_11_i686-pc-linux-gnu) i jest non-cpu-intensive...
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: patyczak w 17 Październik 2013, 12:36
Wszystkie WU wersji 0.11 kończyły się błędem ale widzę, że menadżer pobrał wersję 0.15, także zobaczymy co dalej.

Edit:
WU 0.15 też się wykrzaczają z tym samym błędem.
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: sknd w 17 Październik 2013, 14:22
a ja ciągle (mimo kilkukrotnego resetowania projektu, coby pobrać nowe aplikacje) nie mogę pobrać żadnych WU - cały czas jest tak:

czw, 17 paź 2013, 13:51:18 | Plagiarism@Home | Sending scheduler request: To fetch work.
czw, 17 paź 2013, 13:51:18 | Plagiarism@Home | Requesting new tasks for CPU
czw, 17 paź 2013, 13:51:19 | Plagiarism@Home | Scheduler request completed: got 0 new tasks
czw, 17 paź 2013, 13:51:19 | Plagiarism@Home | No tasks sent




Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 17 Październik 2013, 14:30
Przyznam, że nie mam pojęcia, dlaczego wywala 99,9% próbek (kilka zakończonych sukcesem). Jak pisałem, próbki odpalone standalone działają na każdej mojej maszynie bez problemu, pod BOINC kilka skończyło się sukcesem, ale większość nie... Dodatkowo na niektórych hostach wywala się po 1 lub 2 sekundach, a na innych po półgodzinie dopiero...

Jako, że standalone działa (na moich wszystkich maszynach), a pod managerem nie, więc wywaliłem z kody wszystkie odwołania do api BOINC'a poza koniecznymi boinc_init i boinc_finish, czekam teraz na efekty (ale już widzę, że większość maszyn wywala dalej).
Chcę przepuścić trochę próbek przez różne komputery i zobaczyć, czy jest jakaś reguła.

Póki co, pracuję nad generowaniem WU, dzięki czemu zamiast ~50k takich samych linków do każdego pójdzie 100 (albo inna sensowna liczba) różnych dla każdego. Zobaczymy, co się będzie działo...
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 17 Październik 2013, 15:43
Wygenerowałem 1k dość krótkich zadań (po ok 200 linków do sprawdzenia) i zauważyłem, że co najmniej jeden z moich hostów pobiera je i wykonuje bezbłędnie teraz:
http://plagiarism.boincpolska.org/plagiarism/results.php?userid=1&offset=0&show_names=0&state=2&appid=
Niestety, tylko ten jeden...
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: patyczak w 17 Październik 2013, 15:49
Mój host też dobrze liczy  :)

http://plagiarism.boincpolska.org/plagiarism/results.php?hostid=28
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: sknd w 17 Październik 2013, 15:54
a ja ciągle nie mogę nic pobrać  :dunno:
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 17 Październik 2013, 16:29
Cytat: sknd w 17 Październik 2013, 15:54
a ja ciągle nie mogę nic pobrać  :dunno:
Podaj id hosta, zobacze dlaczego.
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 17 Październik 2013, 16:31
Cytat: patyczak w 17 Październik 2013, 15:49
Mój host też dobrze liczy  :)
http://plagiarism.boincpolska.org/plagiarism/results.php?hostid=28
Możesz podać detale o tym hoście? (jaka dystrybucja)
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: sknd w 17 Październik 2013, 16:35
Cytat: krzyszp w 17 Październik 2013, 16:29
Cytat: sknd w 17 Październik 2013, 15:54
a ja ciągle nie mogę nic pobrać  :dunno:
Podaj id hosta, zobacze dlaczego.
29
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 17 Październik 2013, 16:48
Zaakceptowałeś testowe aplikacje?

Edit:
Zmieniłem flagę - to już nie jest testowa aplikacja (chwilowo) ;)
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: sknd w 17 Październik 2013, 16:56
nawet nie wiedziałem, że jest taka możliwość, nie wiem też gdzie i jak to zrobić  :whistle:

teraz zaciągnął  1 WU, ale od razu wyskoczyło bład przetwarzania, a w dzienniku:
czw, 17 paź 2013, 16:53:22 | Plagiarism@Home | Starting task t10---0.4---._445_0 using pl_check1 version 19 in slot 1
czw, 17 paź 2013, 16:53:23 | Plagiarism@Home | Computation for task t10---0.4---._445_0 finished
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: patyczak w 17 Październik 2013, 18:00
Cytat: krzyszp w 17 Październik 2013, 16:31
Cytat: patyczak w 17 Październik 2013, 15:49
Mój host też dobrze liczy  :)
http://plagiarism.boincpolska.org/plagiarism/results.php?hostid=28
Możesz podać detale o tym hoście? (jaka dystrybucja)

Dystrybucja Ubuntu 11.xx końcówki nie pamiętam. Komputer jest leciwy Athlon 3200+, 1GB.

http://plagiarism.boincpolska.org/plagiarism/results.php?hostid=19
Natomiast ten host też liczy mi dobrze. Ubuntu 12.04LTE, intel quad, 4GB, boinc 7.0.65
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: Troll81 w 17 Październik 2013, 20:00
http://plagiarism.boincpolska.org/plagiarism/results.php?userid=1811

mi na razie działa

win7 x64

GenuineIntel
Intel(R) Core(TM) i5 CPU 750 @ 2.67GHz [Family 6 Model 30 Stepping 5]
(4 processors)

AMD ATI Radeon HD 4700/4800 (RV740/RV770) (512MB) driver: 1.4.1646 OpenCL: 1.00

Microsoft Windows 7
Professional x64 Edition, Service Pack 1, (06.01.7601.00)

ale dostawałem same uppercase

na stronie ustawień mam by wysyłał ze wszystkich apek i w razie braku WU podsyłał inne apki

Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 17 Październik 2013, 21:51
To stare resendy upper_case, już nie generuję nowych.

Mam zamiar przysiąść do app pod windows jak tylko znajdę dobre info na temat konfiguracji VS lub Code::Blocks z bibliotekami BOINC na Windows.
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: patyczak w 18 Październik 2013, 10:21
Czyżby chwilowa awaria projektu?
Tytuł: Odp: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 18 Październik 2013, 19:31
Czekam na info od Tobasa :/

Wysłane z SGS3 więc bez polskich znaków ;)

Tytuł: Plagiarism@Home
Wiadomość wysłana przez: Tobas w 18 Październik 2013, 20:02
Serwer wstał - szukam właśnie przyczyn padu.
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: patyczak w 18 Październik 2013, 20:48
Tak nawiasem mówiąc to drugi raz mam WU, która liczy się już 22 godziny i stanęła na 85%. Pewnie kiedy menadżer połączy się z projektem serwer ją anuluje.
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 18 Październik 2013, 21:17
Już chodzi wszystko, na szczęście nic nie umarło :)

Natomiast wyszedł na jaw błąd koncepcyjny...
Zakładałem, że crawler będzie pobierał (same) linki ze stron internetowych i gromadził je w bazie danych, a aplikacja będzie dostawać jakiś wycinek tych linków do sprawdzenia. Tak napisałem klienta. Błąd.
Opierałem się na informacji, że wszystkich stron ('unique pages' - nie domen!) jest w internecie 440'000'000, co niestety okazało się zaniżoną bzdurą. Wg bloga Google, jest ich... trylion!
CytatRecently, even our search engineers stopped in awe about just how big the web is these days -- when our systems that process links on the web to find new content hit a milestone: 1 trillion (as in 1,000,000,000,000) unique URLs on the web at once!
Już samo zapisanie w bazie takiego zbioru linków (bez zawartości stron oczywiście) wykracza daleko poza nasze możliwości sprzętowo/finansowe. To powoduje, że muszę całkowicie zmienić zasadę działania crawlera i klienta.

Myślę, że jedyną sensowną metodą jest zgromadzenie w bazie TYLKO adresów domenowych stron (których jest ok. 100kk), a w klienta trzeba wbudować crawlera, który będzie już całkiem samodzielnie przeszukiwał konkretną stronę. Niestety jest to już dużo bardziej skomplikowane i trochę potrwa - w międzyczasie chcę podszlifować moje umiejętności w C++ i programowaniu do BOINC...
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 18 Październik 2013, 23:23
Przekompilowałem apkę pod Debianem 7, teraz powinna działać na większości w miarę nowych dystrybucjach Linuksa bez sypania błędami :)
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: sknd w 18 Październik 2013, 23:38
u mnie nadal dupa:
pią, 18 paź 2013, 23:36:55 | Plagiarism@Home | Starting task t10---0.7---._815_2 using pl_check1 version 26 in slot 1
pią, 18 paź 2013, 23:36:56 | Plagiarism@Home | Computation for task t10---0.7---._815_2 finished


Xeon E3-1230V2, archlinux, jądro 3.11.5-1-ck
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 18 Październik 2013, 23:45
Cytat: sknd w 18 Październik 2013, 23:38
u mnie nadal dupa:
pią, 18 paź 2013, 23:36:55 | Plagiarism@Home | Starting task t10---0.7---._815_2 using pl_check1 version 26 in slot 1
pią, 18 paź 2013, 23:36:56 | Plagiarism@Home | Computation for task t10---0.7---._815_2 finished


Xeon E3-1230V2, archlinux, jądro 3.11.5-1-ck
Kompilowałem na jajku 3.2, pewnie dlatego... :/
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: Gołąbpocztowy w 19 Październik 2013, 11:58
A może warto skorzystać z  już jakiegoś gotowego crawlera? Np. yacy?
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: Tobas w 19 Październik 2013, 12:07
Cytat: Gołąbpocztowy w 19 Październik 2013, 11:58
A może warto skorzystać z  już jakiegoś gotowego crawlera? Np. yacy?

Też o tym myślałem - zrobić wrapper do Yacy na początek, a w międzyczasie rozwijać własnego, super, hiper sprawnego crawlera.
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 19 Październik 2013, 12:34
W tej chwili używam OpenWebSpider'a na serwerze i jest dostępny jego kod źródłowy, więc bardzo możliwe, że to jego fragmenty wykorzystam (tylko nieszczęsne komentarze po włosku :/).

Zwracam uwagę, że w appce docelowo potrzebny jest bardzo prosty crawler - zbędna jest cała funkcjonalność yacy czy też OWS, jego zadaniem jest tylko dostarczyć zbiór linków danej strony.
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 28 Październik 2013, 16:07
Mógłby ktoś spróbować odpalić testowy plik na Windows 32bit?

Archiwum w załączniku...
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: patyczak w 28 Październik 2013, 17:12
"Błąd podczas wykonywania programu"  :dunno:
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 28 Październik 2013, 17:24
Już zdążyłem, dzięki nieocenionej pomocy RAD-Poland poprawić i aplikacja jest na serwerze :)

Uprzedzam, że antywirus może się awanturować, bo i serwer i aplikacja mają "reputation low" - a przynajmniej Avast się awanturuje u mnie...
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: Gołąbpocztowy w 29 Październik 2013, 07:59
Uruchomiłem na 64 bitowym windowsie 8.1 i liczy. Często się niestety zdarza, że próbka się zatrzymuje i trzeba ją ręcznie wywalać bo nie rusza dalej (np. przez godzine-dwie).

Pytanko, jezeli obciąza lekko procesor i łącze nie tak bardzo to czy można uruchomić w przyszłości x próbek równolegle? (mam np. łącze 20/10 mbitów i 8 rdzeniowy procesor).
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: Tobas w 29 Październik 2013, 11:31
W przyszłości aplikacja zmieni się jeszcze 10x, więc nie ma sensu na tym etapie zastanawiać się na tego typu problemami.
Póki co to jest wersja beta samego Crawlera. Do gotowej aplikacji jest jeszcze bardzo długa droga..
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 29 Październik 2013, 11:42
Dzisiaj zamierzam popracować trochę nad obsługą wyjątków w aplikacji, bo niestety wywala się na dość dużym odsetku komputerów (zwłaszcza XP).
Niestety, może zająć to trochę czasu, bo nie bardzo mam pojęcie, co jest tego przyczyną (bo oczywiście u mnie chodzi świetnie i bezproblemowo).

Drugim problemem, którym muszę się zająć jest wysokie użycie CPU na Windows (dochodzi do 25% rdzenia), co jest co najmniej dziwne. Jeżeli okaże się, że winna jest linkowana biblioteka to niestety nic z tym nie zrobię...
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: sknd w 29 Październik 2013, 11:58
nieśmiało spytam - jest szansa, że kiedyś wersja linuxowa będzie na wszystkich jądrach śmigać?  :whistle:
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 29 Październik 2013, 12:10
Cytat: sknd w 29 Październik 2013, 11:58
nieśmiało spytam - jest szansa, że kiedyś wersja linuxowa będzie na wszystkich jądrach śmigać?  :whistle:
A na jakim nie śmiga? U mnie działa na 2.6, 3.2, 3.6, 3.8... Więcej maszyn mi brak do sprawdzenia...
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: sknd w 29 Październik 2013, 14:01
o ile dobrze pamietam to mam teraz 3.11, próbki się do razu wywalają... pisałem o tym parę postów wyżej
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 29 Październik 2013, 14:53
Cytat: sknd w 29 Październik 2013, 14:01
o ile dobrze pamietam to mam teraz 3.11, próbki się do razu wywalają... pisałem o tym parę postów wyżej
Daj mi linka do swojego kompa w projekcie, muszę coś sprawdzić.
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: sknd w 29 Październik 2013, 15:06
http://plagiarism.boincpolska.org/plagiarism/show_host_detail.php?hostid=29
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 29 Październik 2013, 15:49
Masz zainstalowaną starą (bardzo) wersję curl'a... W moim Debianie 6 jest nowsza. Jakie to distro?
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: sknd w 30 Październik 2013, 02:14
archlinux. Mam curla 7.33.0, z tego co widzę na ich stronce to najnowszy jest...
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 31 Październik 2013, 02:31
Prośba o przetestowanie programów...

W załączniku jest archiwum z dwoma plikami wykonywalnymi i plikami wejściowymi.
Proszę o odpalenie najpierw pliku parser.exe.
W wyniku pokaże się raport.txt oraz stderr.txt, o ile to możliwe proszę o przesłanie mi tego pliku w PW.

Drugim programem jest example_app.exe. Proszę o uruchomienie go po uprzednim skasowaniu dwóch plików powstałych w wyniku działania poprzedniego pliku (raport.txt oraz stderr.txt) - inaczej wyniki się dodadzą do wcześniejszych.

Zależy mi na dwóch informacjach:
1. Obciążenie CPU w trakcie działania.
2. Na jakiej ilości komputerów się wysypie.

Dodatkowo, stderr pokaże mi co się stało.

Obydwa programy dla Windows, pod Linuksem wszystko działa ok...
O ile to możliwe, komputer podczas wykonywania tych programów powinien być obciążony w minimalnym stopniu.
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: sknd w 31 Październik 2013, 10:44
No u mnie pod linuxem nadal nie działa...  :dunno: jesli masz jakieś pomysły,co mógłbym zrobić żeby zadziałało, dajesz. Tak jak pisałem powyżej, to raczej nie curl, chyba że chodzi o jakieś bindingsy, wrappery albo interfejsy dla curla...

wrzucam tu listę pakietów związanych z curlem, mogę coś z tego zainstalować, tylko prosze o sugestie, bo ciemny jestem w temacie...
0 core/curl 7.33.0-2 [zainstalowano]
      An URL retrieval utility and library
1 extra/python2-pycurl 7.19.0.2-1
      A Python 2.x interface to libcurl
2 community/curlftpfs 0.9.2-5
      A filesystem for acessing FTP hosts based on FUSE and libcurl.
3 community/flickcurl 1.24-1
      C library for the Flickr API
4 community/gambas3-gb-net-curl 3.5.0-3 (gambas3)
      Curl component
5 community/httpie 0.7.2-2
      cURL for humans
6 community/perl-www-curl 4.15-4
      Perl/CPAN Module WWW::Curl
7 multilib/lib32-curl 7.32.0-1 [zainstalowano]
      An URL retrieval utility and library (32-bit)
8 aur/haskell-curl 1.3.8-1 (111)
    Haskell binding to libcurl
9 aur/ruby-curb 0.8.4-1 (46)
    Libcurl bindings for Ruby
10 aur/curlpp 0.7.3-3 (29)
    C++ wrapper for libcURL
11 aur/python-urljr 1.0.1-2 (19)
    URL-related utilites, including a common interface to HTTP fetchers for
    PycURL and urllib2
12 aur/curlew 0.1.20-5 (17)
    Easy to use, Free and Open-Source Multimedia converter for Linux in Python
13 aur/elmer 67.2021ad3-2 (9)
    Robust frontend to wget and/or curl for various pastebin services
14 aur/curlmirror 20020714-1 (9)
    Mirrors a web site by using curl to download each page
15 aur/libcurl-gnutls 7.32.0-1 (8)
    An URL retrieval utility and library
16 aur/vim-hicurline 6-1 (7)
    Highlights the current line
17 aur/ruby-typhoeus 0.6.5-1 (7)
    Parallel HTTP library on top of libcurl multi.
18 aur/mingw32-curl 7.27.0-1 (7)
    An URL retrival utility and library. (mingw32)
19 aur/python3-pycurl 7.19.0-1 (6)
    Python interface to libcurl.
20 aur/ocaml-curl 0.5.3-3 (6)
    OCaml bindings to libcurl networking library
21 aur/luacurl 1.2.1-1 (5)
    Module providing Internet browsing capabilities based on the cURL library
22 aur/mingw-w64-curl 7.33.0-1 (4)
    An URL retrival utility and library. (mingw-w64)
23 aur/gdal-curl 1.10.1-2 (4)
    A translator library for raster geospatial data formats with curl and
    podofo (PDF) support
24 aur/ttf-curlz_mt 1.0-2 (3)
    custom fonts
25 aur/perl-net-curl 0.25-1 (3)
    Perl interface for libcurl
26 aur/lua-curl 0.2-1 (3)
    Aiming for a full-fledged libcurl binding
27 aur/curl-git 7.30.0.101.gf4e6e20-1 (3)
    A URL retrieval utility and library
28 aur/wxcurl-svn 839-2 (2)
    wxCURL is a simplified and integrated interface between LibCURL and
    wxWidgets.
29 aur/ruby-ethon 0.6.1-1 (1)
    Libcurl wrapper.
30 aur/r-cran-rcurl 1.95_3-1 (1)
    General network (HTTP/FTP/...) client interface for R
31 aur/python-httpie-git 20120828-1 (1)
    cURL for humans
32 aur/liblastfm_c-git 20111229-2 (1)
    An unofficial C-API for the Last.fm web service written with libcurl
33 aur/gdal-filegdb 1.10.1-1 (1)
    A translator library for vector and raster geospatial data formats (curl,
    PDF and FileGDB support)
34 aur/falconpl-curl-svn 9999-1 (1)
    The cURL lib binding for falcon programming language
35 aur/ec2-metadata 0.1-1 (1)
    A simple bash script that uses curl to query the EC2 instance Metadata
    from within a running EC2 instance.
36 aur/useragent-git 1:5.24fcd99-1 (0)
    Writes different useragents to stdout. Useful in combination with curl
37 aur/python2-httpie-git 20120828-1 (0)
    cURL for humans
38 aur/perl-www-curl-simple 0.100186-1 (0)
    A Simpler interface to WWW::Curl
39 aur/partialzip 20130107-1 (0)
    Using curl's partial downloading feature to retrieve selected portions
    of ZIP files
40 aur/mingw32-wxcurl-static-svn 839-1 (0)
    wxCURL is a simplified and integrated interface between LibCURL and
    wxWidgets.
41 aur/libx32-curl 7.28.0-1.2 (0)
    An URL retrieval utility and library (x32 ABI)
42 aur/libtwitcurl-svn 93-2 (0)
    A pure C++ twitter API library based on cURL
43 aur/httpcli 1.1.3-1 (0)
    RESTful command line HTTP client (simpler than cURL).
44 aur/curl-with-m4-macros 7.32.0-2 (0)
    An URL retrieval utility and library (package with libcurl.m4)
45 aur/curl-gssapi 7.30.0-1 (0)
    An URL retrieval utility and library


Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 31 Październik 2013, 11:35
Wygląda na to, że wersja curl'a jaką masz zainstalowaną nie ma obsługi SSL.
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 31 Październik 2013, 20:22
Wygląda na to, że po kolejnych kilku kompilacjach udało mi się uzyskać względną stabilność działania apki dla Windows.

Okazuje się, C++ i Microsoft C++ to są w zasadzie różne języki...

Aplikacja nadal się czasami wywala z dziwnym komunikatem, ale jak dotąd tylko u kilku klientów, głownie na xp i u jednego na ósemce... Na każdym komputerze opis błędu jest inny :/
Jeżeli nie będzie za dużo błędnych próbek to zostawię tę app, w przeciwnym wypadku wypadnie z serwera (jak zwykle).
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: PDH w 03 Listopad 2013, 14:24
Normalnie WU idą kilka minut, a dziś ubiłem zadanko po 15 godzinach mielenia http://plagiarism.boincpolska.org/plagiarism/workunit.php?wuid=102120 (http://plagiarism.boincpolska.org/plagiarism/workunit.php?wuid=102120)
Miał ktoś podobnie?
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 03 Listopad 2013, 14:32
Zauważyłem to zjawisko. Powtarza się raz na kilka tysięcy zadań.
Moje podejrzenie jest takie, że z jakiegoś powodu apka nie może pobrać jakiejś strony i ciągle czeka na odpowiedź serwera.
Na Twoim przykładzie widać, że drugi komputer nie miał z tym problemu...
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 15 Styczeń 2014, 00:34
Dawno nic nie było w Plagiatowym, ale co się ruszyło, to piszę ;)

Zmieniłem całkowicie mechanizm generowania WU, od tej chwili nie ma żadnej potrzeby przechowywania bazy danych linków do stron internetowych... Jak to możliwe?
Otóż (o czym pisałem w innym wątku) postawiłem na jednym ze swoich VPS'ów serwer wyszukiwarki YaCy. Obecnie generator WU działa następująco:

1. Rozbija tekst sprawdzanego dokumentu na poszczególne zdania.
2. Dla każdego zdania, z serwera YaCy pobiera listę linków do stron, które YaCy wskazuje dla danej frazy (od 10 do 1000 linków).
3. Wszystkie linki dodawane są do pojedynczego pliku.
4. Plik ten służy jako baza linków dla WU - czyli dla każdego WU przydzielona zostaje pewna ilość linków.

Dzięki tej "reorganizacji" do sprawdzenia dużej książki (w teście były to przygody Sherlocka Holmsa) wystarczy ok 200WU. Czyli teoretycznie dziennie można sprawdzić nawet kilkadziesiąt prac, bez ryzyka, że zabijemy jakiś serwer odpytując go dużą ilość razy...

Obecnie muszę się skoncentrować na dwóch sprawach:

1. Wyciągnięcie wyników zgodnych (czyli znalezionych skopiowanych fraz) z serwera BOINC i powtórną weryfikację tych wyników.
2. Opracowanie interfejsu (stronki) do dodawania prac do sprawdzenia i automatycznego generowania WU z zadanych treści.

Oczywiście, mile widziana osoba mająca ochotę opracować odpowiednie formularze, oczywiście podam kompletne informacje do generowania WU (jeden skrypt PHP oraz jeden shell'owy).
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: Troll81 w 15 Styczeń 2014, 08:12
 :respect: brawo. sprytny myk.
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: Cyfron w 23 Luty 2014, 08:38
a jak tam generowanie próbek teraz? Bo ja już dawno nic nie dostałem do liczenia :)
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 23 Luty 2014, 14:52
Cytat: Cyfron w 23 Luty 2014, 08:38
a jak tam generowanie próbek teraz? Bo ja już dawno nic nie dostałem do liczenia :)
Zgodnie z informacją na stronie głównej projektu i wyświetlonej w Managerze - chwilowo projekt jest wstrzymany (do czasu skonkretyzowania spraw sprzętowych) ;)
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: Troll81 w 06 Grudzień 2014, 15:49
to kiedy wznawiamy działalność??

http://wyborcza.pl/1,87648,17067436,Chora_na_raka_13_latka_przepisala_powiesc_z_cudzego.html
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: kva.pl w 06 Grudzień 2014, 21:56
Holy shit!

http://akrylove.blogspot.in/2014/10/breakin-law.html - tu opisane ciekawiej.
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: AL w 08 Grudzień 2014, 23:47
No właśnie krzyszp - kiedy ruszamy (domincyś cały czas ponawia oferty udostępnienia serwa ;) )? Brakuje mi 4k do check pointa!
Tytuł: Plagiarism@Home
Wiadomość wysłana przez: krzyszp w 09 Grudzień 2014, 14:29
Na razie Plagiatowy musi być zawieszony z dwóch ważnych powodów:

1. Muszę nauczyć się parsować tekst z plików PDF.
2. Aby poważnie ruszyć z Plagiatowym, potrzebny jest bardzo mocny serwer (i nie mówimy tu o dedyku za 200pln).

Do tematu wrócę, jak będę gotowy, ale na pewno nie w najbliższych kilku miesiącach niestety...