|
IncrediBuild 環境では最も高い有用性・信頼性を確保するために出来る全ての対応を行っています。
ネットワークの切断や分散処理実行中のサーバ・クライアントが操作不能になるというシナリオも想定しています。
Agent の切断に対する回復
XGE (Xoreax Grid Engine) では不完全な実行を避けるための管理方法を実現しています。
これにより、どんな理由であってもリモート Agent 上のタスクが正常に完了しなかったり、
タスクの実行結果を返せない場合はタスクの途中までに作成された如何なるファイルも完全に削除され、
別のリモート Agent へタスクの再割り当てされます。
このようにして分散処理対象となるジョブは完全に保全されます。
動的なリソース割り当て
分散されたタスクの実行中にある Agent が利用出来なくなっても、分散対象のジョブはコンピューティングリソースを失う事はありません。
Coordinator は接続されている全ての Agent のプロセッサパワーと有用性(現在の負荷状況)から進行中のジョブが最適にコンピューティングリソースを利用出来るように動的にタスクの再割り当てを行います。
IncrediBuild は Coordinator コンポーネントが分散対象ジョブのタスク割り当てを行うため、
Coordinator となるマシンが応答出来なくなった場合でもシステムを正常に保つのは重要な事です。
このため、Backup Coordinator をセットアップする事が可能です。
Backup Coordinator は Coordinator (Primary Coordinator) が応答不能になると Coordinator (Primary Coordinator) の役割を引き継いで利用者に
Coordinator (Primay Coordinator) が応答不能になった事を警告として通知します。
この間もシステムは正常に保たれ、Coordinator (Primary Coordinator) が復旧すると通常動作に戻ります。
|