Stránka 1 z 1

CM-je restartovani po kazdych ~1000 timestepech normalni ?

Napsal: ned dub 02, 2006 11:13 am
od WerK
Tak jsem se vcera vratil ke klimce a stahl se mi novy Coupled model. Ted jsem ovsem kouknul do logu a trochu me prekvapila jedna vec. Kazdych circa 1000 timestepu se model korektne ukonci (zadny chybovy hlasky), potom si boinc zanadava ze Result hadcm3lb_r7a5_05051067_0 exited with zero status but no 'finished' file, model se restartne znova a jede se dal. Prislusna cast logu :

Kód: Vybrat vše

hadcm3lb_r7a5_05051067 - PH 1 TS 0008209 A - 25/03/1921 00:30 - H:M:S=0006:31:53 AVG= 2.86 DLT= 0.97
hadcm3lb_r7a5_05051067 - PH 1 TS 0008641 A - 01/04/1921 00:30 - H:M:S=0006:52:20 AVG= 2.86 DLT= 1.50
Cleaning up graphics data...
Detaching shared memory...
2006-04-02 11:00:01 [climateprediction.net] Result hadcm3lb_r7a5_05051067_0 exited with zero status but no 'finished' file
2006-04-02 11:00:01 [climateprediction.net] If this happens repeatedly you may need to reset the project.
2006-04-02 11:00:01 [---] request_reschedule_cpus: process exited
2006-04-02 11:00:01 [climateprediction.net] Restarting result hadcm3lb_r7a5_05051067_0 using hadcm3lb version 508
Beginning work on result hadcm3lb_r7a5_05051067_0...
Starting model in /var/lib/boinc/projects/climateprediction.net...
Created shared memory region key = 75290 of size 655036 bytes
.so shmem return code = 0
Starting model ID hadcm3lb_r7a5_05051067   Phase 1
Climate model starting - use graphics to monitor progress.
Or visit the website to see the graphs for this run.
hadcm3lb_r7a5_05051067 - PH 1 TS 0008641 A - 01/04/1921 00:30 - H:M:S=0006:52:21 AVG= 2.86 DLT= 0.00
Je toto normalni, nebo je neco v neporadku ?? Diky

Napsal: ned dub 02, 2006 12:32 pm
od WerK
Tak jsem se koukal na oficialni CPDN fora a vypada to, ze jsem prisel na to, cim to bylo - pretaktovany CPU (mel jsem jenom minimalne zvysenou frekvenci FSB, Prime95 test to prezilo v pohode, ale na CM to zjevne nestacilo)

Napsal: ned dub 02, 2006 9:23 pm
od Honza
Jo, ze na necitlive pretaktovanych masinach CPDN pada je normalni. Proste potrebuje stabilni pocitac.
Doporucuje se take dat BOINC folder do exclude a AV scanu a shiledu - to muze byt duvodem padani u hloupejsich antiviru nebo pri nejake jine kombinaci.

Zatim podle mne neni jasne, jaka bude uspesnost CM z hlediska parametru modelu. Kdyz jsme na CPDN zacinali, Slab modely mely dost siroke vstupni parametry a ty obcas vedli k edxtremnimu klimatu a tudiz se model ukoncil.
CM model pocitany na FX-57 (tedy nejrychlejsi desktop) kolegovi padnul v roce 2012 a nesel rozjet ani ze zalohy. Carl dostal upload aby se na to podival...jsem zvedavy, jestli neco najde. Me ten muj padnul v roce 1989 a restart z backupu take neprosel pres kriticke misto. Par lidi by ted jiz take melo mit modely kolem roku 1990 a ty snad zatim drzi, tak se uvidi...

Uvadim to proto, jak nekdo vidi uspechy optimalizace SETI, Einsteina nebo jinych projektu s velmi kratkou dobou vypoctu WU.
U CM jsme ani nemohli poradne odzkouset, ze model dojede - to bychom beta-testovali release-candidate verzi nekolik mesicu. A stejne by nebyla jistota, ze to pobezi: protoze bychom testovali na high-end CPU a ne na bezne masine. Snad je pochopitelne, z optimalizace nejsou zrovna na tomto projektu snadne...

@ WerK - dej vedet, jestli se ti to poresilo. Pouze mirne zvednute FSB by snad tolik nemuselo vadit...

Napsal: ned dub 02, 2006 9:46 pm
od WerK
@ Honza : jo, po tom co jsem vratil FSB zpatky na normal je to v pohode. Antivir to delat nemuze protoze mam Linux. Spis mi je ted trochu divny, ze prestoze jsem nekde u TS 10000, tak zatim projekt vubec nekomunikoval se serverem ... pri tom by mel Coupled Model tricklovat kazdy modelovy mesic ... no necham to bezet a uvidime.

Napsal: pon dub 03, 2006 9:07 am
od Honza
Jsem rad, ze se masina stala stabilni :wink:

Problem padani CPDN kvuli AV neni zrovna na vine M$ Windows, ale spise nestastna historie Fortranu a z drojaky z 80. let. Proste se na superpocitacich nepocitalo s tim, ze by nejaky antivir (moc jich v te dobe nebylo, co?) blokoval soubory pro cteni pri scanu, resp. oteverani kazdeho souboru pri zapnutem shieldu. Mozna je to pod Linuxem mene citlive, ale tenhle problem tam bude asi take.

Trickles jsou kazdy rok modelu, ne kazdy mesic. Takze je treba pockat na TS 25920; zaroven grafy jsou generovane take po letech modelu.