1. ホーム
  2. インフォメーション
  3. 障害情報
  4. 【スパコン】システムA/B/Cのジョブスケジューラの応答性の悪化と暫定対応

コンテンツ

障害情報

【スパコン】システムA/B/Cのジョブスケジューラの応答性の悪化と暫定対応

2017年6月12日(月曜日)掲載


システムA/B/C のジョブスケジューラでは,時間経過やジョブの利用状況の影響を受けて qsub や qstat のコマンドの応答が悪化していく不具合が確認されていることから,応答が一定以上悪化したタイミングでジョブスケジューラの再起動により復旧させる暫定対応を実施しております.ご迷惑をおかけして申し訳ありません.

ジョブスケジューラの再起動中に qsub や qstat を実行した場合は,下記のようなエラーとなります.このメッセージが表示された場合は,しばらくお待ちいただき,コマンドを再実行していただきますようお願い致します.再起動はおおよそ1~5分程度で完了致しますが,障害調査のためにメモリデータ等の資料採取をさせて頂く場合に時間を要することがあります.なお,この作業は実行中のジョブには影響ありません.

Connection refused
qsub: cannot connect to server jb.kudpc.kyoto-u.ac.jp (errno=111)

再起動の実施状況は次の通りです.

ジョブスケジューラの再起動日時 対象システム
4月23日(日) 17時55分 ~ 17時58分 A (Camphor 2)
5月2日(火) 11時26分 ~ 11時32分 B (Laurel 2)
5月2日(火) 11時35分 ~ 11時35分 C (Cinnamon 2)
5月9日(火) 21時52分 ~ 21時57分 A (Camphor 2)
5月11日(木) 13時37分 ~ 13時41分 B (Laurel 2)
5月15日(月) 11時55分 ~ 11時57分 A (Camphor 2)
5月15日(月) 15時51分 ~ 15時55分 B (Laurel 2)
5月19日(金) 9時9分 ~ 9時10分 C (Cinnamon 2)
5月23日(火) 11時57分 ~ 11時58分 A (Camphor 2)
6月1日(木) 8時33分 ~ 8時36分 A (Camphor 2)
6月2日(金) 8時35分 ~ 8時36分 C (Cinnamon 2)
6月11日(日) 6時0分 ~ 9時50分 B (Laurel 2)
6月13日(火) 8時51分 ~ 8時52分 A (Camphor 2)
6月21日(水) 3時43分 ~ 3時47分 B (Laurel 2)
6月23日(金) 12時10分 ~ 12時12分 A (Camphor 2)
6月23日(金) 12時25分 ~ 12時26分 C (Cinnamon 2)
復旧完了致しました. ご利用の皆様にはご不便とご迷惑をおかけいたしまして,申し訳ございませんでした.

※2017年8月の保守において,本障害の恒久的な対策を実施いたしました.
障害発生日時 2017年4月 5日(水曜日) 09:00  ~ 2017年8月 9日(水曜日) 09:30
お問い合わせ 京都大学 企画・情報部 情報基盤課 スーパーコンピューティング掛
E-mail:consultkudpc.kyoto-u.ac.jp
お問い合わせフォーム

障害情報トップへ戻る

 

Copyright © Institute for Information Management and Communication, Kyoto University, all rights reserved.