LtCOS國產集群操作系統
軟件介紹
在 LtCOS 國產集群操作系統中操作系統組件被抽象地拆分成可復制和重復引用的對象,根據配置的引導在內存、網絡、磁盤中進行自由分布。以邏輯上的一個單一映像為全部數據中心硬件提供操作系統。硬件在統一的操作系統映像控制下工作,可自動地、自然地實現實時的強一致性維護,無需再借助第三方的用戶態進程。
將硬件部署和系統運行有機統一,部署系統就是啟動系統,使得物理硬件的添加、刪除、替換都可自動完成。通過統一的數據中心系統描述語言定義所有的硬件同構和異構差異,自動進行偏置化處理。 所有功能、角色、配置信息都通過一個集中的 xml 格式描述語言進行定義,定義可分級、分組并具有繼承性。
軟件特性
· 高可用
COS 的中心管理節點(映像服務節點)可以使用多節點,也可以運行于可靠的多副本文件系統之上。一臺與工作節點相同配置的服務節點,根據網絡條件可支持數千臺到上萬臺服務節點運行。根據業務需要,可配置系統無單點瓶頸和單點故障。
· 高可靠
COS 可以為數據中心的高可靠運行提供支持。這是由于操作系統映像獨立于具體硬件集中管理,可避免節點本地硬件故障導致的系統崩潰。系統可在啟動時刻和運行中自動檢驗硬件發現問題,特別驗證網絡性能是否下降。由于部署即運行,硬件恢復和替換之后,無需重新安裝操作系統及做相應配置即可快速恢復到原始服務狀態。
· 高可信
集中管理的映像可在中心管理節點上進行嚴格的安全限制,甚至可以設置操作系統關鍵目錄對工作節點只讀。由于工作節點客戶端看到的只是系統內核的運行實例,無法在內核物理文件中植入諸如 rootkit 之類的病毒。COS 即可在很大程度上避免病毒植入,而且即便發生系統被劫持事件,也很方便快速恢復到原始可信狀態。
· 易維護
由于單一映像驅動整個數據中心硬件運行,在系統中任意節點都可以完成管理操作,任何配置、系統軟件、應用軟件的安裝、修改都可實時反應到工作節點上。無需一一登錄工作節點,也不需要設置專門的后臺進程來負責同步和配置一致性維護。操作復雜性從 O(n) 變為 O(1)。
· 高通量
通過優化配置的作業調度引擎,高通量調度模塊可實時監督萬量級的物理節點,以接近實時的方式監控管理萬量級的計算任務。將分散在各工作節點硬件軟件,如 CPU,內存,加速卡、軟件等抽象為一個全局資源池,可支持排他的、共享的使用;對用戶、組進行無限制級別的分級和分組,按帳號、按組、按級別對資源使用進行約束。
· 高融合
COS 可以對硬件架構的差異進行屏蔽和抽象,可以將 2 路、4 路、8 路以及大規模 SMP 機器,以及將 Intel CPU,AMD CPU 的工作節點進行整合,使差異架構的節點運行在相同的操作系統物理映像。
COS 支持在虛擬機和物理機之間共享相同的系統映像,操作系統映像可在虛擬機之間、物理機之間、虛擬機和物理機之間無縫遷移。根據實際運行需要,服務器的計算角色和存儲角色可自由轉換。
架構圖

功能介紹
· 集群配置
全局設置,NFS 設置,電源設置,收集設置等。
· 收集設置
手動或者自動收集需要添加的節點信息,這個過程會自動收集并保存節點的硬件信息,不需人工干預收集如 MAC 地址等信息,可大大簡化操作人員工作復雜性,減少操作失誤。
· 用戶管理
方便添加/刪除集群用戶和組。
· 資源調度管理
資源調度管理集成 SLURM (Simple Linux Utility for Resource Management),是一種可用于大型計算節點集群的高度可伸縮和容錯的集群管理器和作業調度系統,被世界范圍內的超級計算機和計算集群廣泛采用。SLURM 維護著一個待處理工作的隊列并管理此工作的整體資源利用。它以一種共享或非共享的方式管理可用的計算節點(取決于資源的需求),以供用戶執行工作。SLURM 會為任務隊列合理地分配資源,并監視作業至其完成。如今,SLURM 已經成為了很多最強大的超級計算機上使用的領先資源管理器。
支持查看歷史作業信息,分配資源,提交批處理作業,取消作業,系統控制,查看節點與分區狀態,查看隊列狀態,執行作業等。
· 集群監控管理
集群監控采用一個可擴展的分布式監控系統,用于高性能計算系統,如集群和網格。 它基于針對聯盟集群的分層設計。 它利用了廣泛使用的技術,如用于數據表示的XML,用于緊湊型便攜式數據傳輸的 XDR 以及用于數據存儲和可視化的 RRDtool。 它使用精心設計的數據結構和算法來實現非常低的每節點開銷和高并發性。 該實現非常強大,已被移植到廣泛的操作系統和處理器體系結構中,目前正在全球數千個群集中使用。 它已被用于連接學校園和世界各地的集群,并可擴展以處理 2000 個節點的集群。

