摘 要:網(wǎng)格計算被稱為繼Internet和Web技術之后的“第三個信息技術浪潮”,旨在使用戶能夠利用Internet上的強大的、異構的、分布的資源,包括計算資源、存儲資源、通信資源、軟件資源、信息資源和知識資源等。本文詳細敘述了網(wǎng)格計算的體系結(jié)構,并對網(wǎng)格計算的實現(xiàn)進行了初步嘗試,并指出其中要解決的重要問題。
關鍵詞:網(wǎng)格計算 網(wǎng)格系統(tǒng) 體系結(jié)構
1.引言
第一代Internet把遍布于世界各地的計算機用TCP/IP協(xié)議連接在一起,實現(xiàn)了計算機硬件的連通;第二代Internet則通過Web信息瀏覽及電子商務應用等信息服務,實現(xiàn)了全球網(wǎng)頁的連通;第三代Internet將試圖實現(xiàn)互聯(lián)網(wǎng)上各種資源的全面連通,包括計算資源、存儲資源、通信資源、軟件資源、信息資源和知識資源等,就像一臺超級計算機一樣為用戶提供一體化信息服務,這就是網(wǎng)格計算[1-4]。因此,網(wǎng)格也被稱為繼Internet和Web之后的“第三個信息技術浪潮”。
網(wǎng)格計算環(huán)境要求不影響網(wǎng)格節(jié)點本地的管理和自主性,不改變網(wǎng)格節(jié)點原有的操作系統(tǒng)、網(wǎng)絡協(xié)議和服務,保證用戶和遠程節(jié)點的安全性,允許遠程節(jié)點選擇加入或退出系統(tǒng),盡量使用已存在的標準的技術以便應用兼容已有,并能提供可靠的容錯機制。一個理想的網(wǎng)格計算應類似當前的Web服務,可以構建在當前所有硬件和軟件平臺上,給用戶提供完全透明的計算環(huán)境,對用戶而言,它把眾多異構的資源變成了同構的虛擬計算環(huán)境,用戶分享網(wǎng)上資源,就如同個人獨立使用一臺超級計算機一樣。
網(wǎng)格計算技術的應用領域十分廣泛,從生物基因工程領域的基因測序,到高能物理領域更深層次物質(zhì)結(jié)構的研究,再到氣象、地震的預報預測,再到環(huán)境保護、制造業(yè)的設計與生產(chǎn)、電子商務等,這些重大科學領域的計算問題促使科學家使用網(wǎng)格技術聚集分散的計算能力,形成超級計算的能力,共同完成計算問題,并從中享受一體化的、動態(tài)變化的、可靈活控制的、智能的、協(xié)作式的信息服務,以滿足對高性能計算網(wǎng)格即信息網(wǎng)格的巨大需求。
據(jù)美國《福布斯》雜志預測, 網(wǎng)格技術將在2004~2005年出現(xiàn)一個高峰, 推動信息產(chǎn)業(yè)市場的持續(xù)高速發(fā)展,在2020年產(chǎn)生一個年產(chǎn)值為20萬億美元的大工業(yè)。2005年之前是網(wǎng)格浪潮正醞釀涌動的時刻,中國科技界應積極地投入到網(wǎng)格研究,并爭取參與到以后的國際科技界中制定網(wǎng)格技術標準。
網(wǎng)格計算系統(tǒng)具有資源分布性、管理多重性、動態(tài)多樣性、結(jié)構可擴展性等特點。網(wǎng)格計算的設計主要是指網(wǎng)格體系結(jié)構的設計。網(wǎng)格體系結(jié)構是關于如何建造網(wǎng)格的技術,包括對網(wǎng)格基本組成部分和各部分功能的定義和描述,以及網(wǎng)格各部分相互關系與集成方法的定義。網(wǎng)格體系結(jié)構是網(wǎng)格的骨架和靈魂,是網(wǎng)格最核心的技術,只有建立合理的網(wǎng)格體系結(jié)構,才能夠設計和建造好網(wǎng)格,才能夠使網(wǎng)格有效地發(fā)揮作用。本文介紹了網(wǎng)格計算(Grid Computing)的體系結(jié)構和特點,通過分析典型的網(wǎng)格計算系統(tǒng),了解網(wǎng)格計算的思想、技術和現(xiàn)狀。最后,對網(wǎng)格計算的實現(xiàn)進行了初步嘗試,并指出其中要解決的重要問題。
2.網(wǎng)格計算的結(jié)構
網(wǎng)格體系結(jié)構是關于如何構建網(wǎng)格的技術。它需能夠標識出網(wǎng)格的基本組成成分,能夠清楚地說明網(wǎng)格整體是由哪些關鍵部分結(jié)合在一起形成的,還必須能夠?qū)Ω鱾€部分的功能、目的、特點等進行清晰地描述,使人們能夠了解各個組成部分的作用。
2.1 網(wǎng)格計算的基本層次
網(wǎng)格計算系統(tǒng)可以分為三個基本層次: 資源層、中間件層和應用層。
資源層是構成網(wǎng)格系統(tǒng)的硬件基礎,包括各種計算資源,如高速互連的異構計算機、數(shù)據(jù)庫、科學儀器、文件和超級計算系統(tǒng)等,這些計算資源通過網(wǎng)絡設備連接起來。資源層雖然實現(xiàn)了計算資源在物理上的連通,但從邏輯上看,這些資源仍然是孤立的,資源共享問題仍然沒有得到解決。因此,必須在資源層的基礎上通過網(wǎng)格中間件層來完成廣域計算資源的有效共享。
中間件層是網(wǎng)格計算的核心,它在資源層的基礎上實現(xiàn)廣域計算資源的有效共享,負責提供遠程進程管理、資源分配、存儲訪問、登錄、認證、安全性和服務質(zhì)量等。它是指一系列工具和協(xié)議軟件,其功能是屏蔽網(wǎng)格資源層中計算資源的分布、異構特性,向網(wǎng)格應用層提供透明一致的使用接口。該層也稱為網(wǎng)格操作系統(tǒng)(Grid Operating System),它同時需要提供用戶編程接口和相應的環(huán)境,以支持網(wǎng)格應用的開發(fā)。
網(wǎng)格應用層是用戶需求的具體體現(xiàn)。它提供系統(tǒng)能接受的語言,配置其他一些支持工程應用、數(shù)據(jù)庫訪問的軟件,還可提供Web服務接口,使用戶可以使用Web方式提交其作業(yè)并取得計算結(jié)果。在網(wǎng)格操作系統(tǒng)的支持下,網(wǎng)格用戶可以使用應用層提供的工具或環(huán)境開發(fā)各種應用系統(tǒng)。
2.2 網(wǎng)格體系結(jié)構
到目前為止,較為成熟的網(wǎng)格體系結(jié)構有兩個:一個是Ian Foster博士等在早些時候提出的5層沙漏結(jié)構,另一個是IBM公司與Ian Foster博士提出的開放網(wǎng)格服務結(jié)構OGSA(Open Grid Services Architecture)。
五層沙漏體系結(jié)構是以協(xié)議為中心的協(xié)議結(jié)構,自下而上分別為:構造層、連接層、資源層、匯集層和應用層。上層協(xié)議可調(diào)用下層協(xié)議的服務。網(wǎng)格內(nèi)的全局應用都通過協(xié)議提供的服務來調(diào)用操作系統(tǒng)。該體系結(jié)構的各層功能定義如下:
第一層為構造層(Fabric):該層組件實現(xiàn)了基于底層特定資源的高層共享操作。它的功能是向上提供網(wǎng)格中可供共享的資源,它們是物理或邏輯實體,常用的資源包括處理能力、存儲系統(tǒng)、目錄、網(wǎng)格資源、分布式文件系統(tǒng)、分布式計算機池、計算機集群等。Toolkit中相應組件負責監(jiān)測可用的軟硬件資源的特性、當前負荷、狀態(tài)等信息,并將其打包供上層協(xié)議調(diào)用。
第二層為連接層(Connectivity):該層定義了網(wǎng)格中網(wǎng)絡處理的核心通信與認證協(xié)議。通信協(xié)議使構造層資源間的數(shù)據(jù)交換成為可能。認證協(xié)議基于通信服務提供了確認用戶和資源身份的安全機制。在Toolkit中,相應組件采用基于公鑰的網(wǎng)格安全基礎協(xié)議(GSI)。在此協(xié)議中提供一次登錄、委托授權、局域安全方案整合、基于用戶的信任關系等功能。資源間的數(shù)據(jù)交換通過傳輸、路由及名字解析實現(xiàn)。
第三層為資源層(Resource):該層建立在連接層的通信和認證協(xié)議之上,定義了一些關于安全協(xié)商、使用共享功能計費、監(jiān)控等方面的協(xié)議。它的作用是對單個資源實施控制,與可用資源進行安全握手、對資源做初始化、監(jiān)測資源運行狀況、統(tǒng)計與付費等有關的資源使用數(shù)據(jù)。在Toolkit中有一系列組件用來實現(xiàn)資源注冊、資源分配和資源監(jiān)視。
第四層為匯聚層(Collective):這層的作用是將資源層提交的受控資源匯聚在一起,供虛擬組織的應用程序共享、調(diào)用。為了對來自應用的共享進行管理和控制,匯聚層提供目錄服務、資源分配、日程安排、資源代理、資源監(jiān)測診斷、網(wǎng)格啟動、負荷控制、賬戶管理等多種功能。
第五層為應用層(Applications):這層是網(wǎng)格用戶的應用程序。應用程序通過各層的API調(diào)用相應的服務,再通過服務調(diào)用網(wǎng)格上的資源來完成任務。應用程序的開發(fā)涉及大量庫函數(shù),為便于網(wǎng)格應用程序的開發(fā),需要構建支持網(wǎng)格計算的庫函數(shù)。
3.典型實驗系統(tǒng)及其體系結(jié)構
在國外,最著名的網(wǎng)格計算研究是美國的Globus項目。該項目的主要研究目標有兩個:其一是網(wǎng)格技術的研究;其二是相應軟件的開發(fā)和標準的制定。同時,Globus項目還涉及到網(wǎng)格應用的開發(fā)及試驗床的建立。
Globus將Grid技術Web Services技術結(jié)合在一起,以利用需要的Web Service的屬性。例如,Service的描述和發(fā)現(xiàn),從Service描述中自動生成客戶端和服務器端的代碼;從Service描述到交互操作網(wǎng)絡協(xié)議的綁定;為更高層服務提供開放標準、服務和工具的兼容性;以及廣泛的商業(yè)支持等。他們把Grid和Web Services技術的結(jié)合和擴展稱為0GSA(0pen Grid Services Architecture),即開放式網(wǎng)格服務體系結(jié)構。它被稱為是“下一代的網(wǎng)格體系結(jié)構”。這一結(jié)構的意義,在于它將網(wǎng)格從以科學與工程計算為中心的學術研究領域,擴展到更廣泛的以分布式系統(tǒng)服務集成為主要特征的社會經(jīng)濟活動領域。
OGSA最突出的思想就是以“服務”為中心。在OGSA框架中,將一切都抽象為服務,包括計算機、程序、數(shù)據(jù)、儀器設備等。這種觀念有利于通過統(tǒng)一的標準接口來管理和使用網(wǎng)格。這種基于網(wǎng)格服務概念的體系結(jié)構可以簡單的表示為“網(wǎng)格服務=接口/行為+服務數(shù)據(jù)”。
以網(wǎng)格服務為中心的OGSA模型具有兩個優(yōu)點:(1)由于網(wǎng)格環(huán)境中所有的組件都是虛擬化的,因此,通過提供一組相對統(tǒng)一的核心接口,所有的網(wǎng)格服務都基于這些接口實現(xiàn),就可以很容易地構造出具有層次結(jié)構的更高級別的服務,這些服務可以跨越不同的服務層次,以一種統(tǒng)一的方式來看待;(2)虛擬化也使得將多個邏輯資源實際映射到相同的物理資源上成為可能,在對服務進行組合時不必考慮具體的實現(xiàn),可以以底層資源組成為基礎,在虛擬組織(Virtual Organization)中進行資源管理。
4.網(wǎng)格的應用與實施設想
網(wǎng)格研究起源于美國政府過去十年來資助的高性能計算科研項目。這類研究的目標是將跨地域的多臺高性能計算機、大型數(shù)據(jù)庫、貴重科研設備(電子顯微鏡、雷達陣列、粒子加速器、天文望遠鏡等等)、通信設備、可視化設備和各種傳感器等整合成一個巨大的超級計算機系統(tǒng),支持科學計算和科學研究。這方面的代表性研究工作包括美國國家科學基金會資助的NPACI、“國家技術網(wǎng)格”(NTG)、分布式萬億次級計算設施(DTF),美國能源部的ASCI Grid,以及歐盟的Data Grid等。
還有一類研究的側(cè)重點是智能信息處理,它與網(wǎng)格研究的共同點是如何消除信息孤島和知識孤島,實現(xiàn)信息資源和知識資源的智能共享。這方面研究常見的名詞包括語義網(wǎng)(Semantic Web)、知識管理(Knowledge Management)、知識本體(Ontology)、智能主體(Agents)、信息網(wǎng)格、知識網(wǎng)格、一體化智能信息平臺等等。
網(wǎng)格計算雖然致力于高速互聯(lián)網(wǎng)、高性能計算機、大型數(shù)據(jù)庫、遠程設備等連通和一體化,但網(wǎng)格計算的根本特征應該是資源共享而不是規(guī)模巨大,完全可以根據(jù)需要建造企業(yè)內(nèi)部網(wǎng)格、局域網(wǎng)網(wǎng)格、家庭網(wǎng)格和個人網(wǎng)格,因此網(wǎng)格計算的應用將涉及人們工作和生活的方方面面。例如電子政務中的一站式辦公,制造企業(yè)中的異地設計、制造、海量數(shù)據(jù)的管理和資源共享,先進芯片的設計,生物信息科學研究,社保系統(tǒng)中的養(yǎng)老金防冒領、跨地區(qū)就醫(yī)保費支付等業(yè)務和應用,都可以用網(wǎng)格技術來解決。
我國的科學研究、國民經(jīng)濟和社會發(fā)展也已對網(wǎng)格技術提出了很多需求,只是使用了不同的術語。比如,在銀行界叫“業(yè)務集中”,航空、船舶、汽車行業(yè)叫“廣域虛擬設計環(huán)境”,資源環(huán)境領域叫“單一數(shù)據(jù)源”,電子商務和電子政務中則稱為“資源共享”與“協(xié)同工作”。 企業(yè)界的研究包括內(nèi)容分發(fā)(Contents Delivery)、服務分發(fā)(Service Delivery)、電子服務(E-service)、實時企業(yè)計算(Real-Time Enterprise Computing,簡稱RTEC)、分布式計算、Per-to-Peer Computing(簡稱P2P)等等。這些名詞所代表的技術有一個共同點,即將互聯(lián)網(wǎng)上的資源整合成一臺超級服務器,有效地提供內(nèi)容服務、計算服務、存儲服務、交易服務等等。另一個共同點是這些技術會盡量利用現(xiàn)有的Internet/Web技術,以便早出產(chǎn)品。當然這些技術也各有小的區(qū)別。比如,P2P強調(diào)打破Client/Server或Browser/Server的主從模式,用對等模式(或無服務器模式)實現(xiàn)超級服務器的功能。RTEC則強調(diào)對企業(yè)級在線事務處理的實時支持。真正的網(wǎng)格研究會盡量使用Internet/Web技術,但不排除突破Web的限制。
在第一代與第二代Internet協(xié)議的研究開發(fā)中,我國喪失了機會。在第三代Internet協(xié)議的制定中我們應該發(fā)揮作用。網(wǎng)格的重要技術標準將在2004~2005年出現(xiàn),這將給我國帶來新的機會。我國應該積極主動地參與國際上的網(wǎng)格研究開發(fā)和國際標準的制定,同時要遵循國際標準、結(jié)合國情開發(fā)出我國自己的網(wǎng)格技術及其應用系統(tǒng)。我國對網(wǎng)格計算的研究起步較晚,但在網(wǎng)格計算關鍵技術的研究方面與國外差距不大。目前,我國的網(wǎng)格計算研究主要集中于中科院計算所、國防科技大學、江南計算所、清華大學等幾家在高性能計算方面有較強實力的研究單位。從1999年底到2001年初,中科院計算所聯(lián)合國內(nèi)十幾家科研單位,共同承擔了“863”重點項目——“國家高性能計算環(huán)境”(Nationa1 High Performance Computing Environment,簡稱NHPCE)的研發(fā)任務。該項目的目標是建立一個計算資源廣域分布、支持異構特性的計算網(wǎng)格示范系統(tǒng),它把我國的8個高性能計算中心通過Internet連接起來,進行統(tǒng)一的資源管理、信息管理和用戶管理,并在此基礎上開發(fā)了多個需要高性能計算能力的網(wǎng)格應用系統(tǒng),取得了一系列研究成果。
新疆大學計算中心有22個機房,計算機總臺數(shù)1370臺,其中Compaq D220 計算機500臺、聯(lián)想開天4600計算機600臺、聯(lián)想 本月2000計算機 220 臺,各類服務器31臺,其中DELL PowerEdge 6650機架式服務器3臺、DELL PowerEdge 4600機架式服務器10臺、DELL PowerEdge 2650機架式服務器10臺、DELL PowerEdge 4600塔式服務器2臺、HP 服務器5臺、HP E60 服務器1臺,圖形工作站1臺,實驗儀器設備971臺。其他各院系有各類教學用計算機1043臺,各類服務器40余臺。
在新疆大學校園網(wǎng)絡內(nèi),許多用戶需要進行科學實驗計算機模擬和實驗結(jié)果處理大量復雜的計算工作,需要高性能的計算機或工作站。采用計算網(wǎng)格可以充分利用學校已有的計算機資源,為這些用戶提供快捷且便利的高性能計算環(huán)境,且節(jié)省購買大型系統(tǒng)的費用。
校園網(wǎng)內(nèi)的計算網(wǎng)格支持屬于不同管理域的計算機節(jié)點參與計算和資源共享,要形成一個性能優(yōu)良的校園網(wǎng)格計算系統(tǒng)必須實現(xiàn)以下功能:具有單一映像空間,實現(xiàn)異構數(shù)據(jù)的格式轉(zhuǎn)換,提供虛擬文件服務,把分散在各地的主機節(jié)點映射成一個統(tǒng)一入口的虛擬機器;支持網(wǎng)格節(jié)點自治,保證各個節(jié)點的自主權;支持高效安全與容錯;通過中間件來保證異構硬件和軟件的互操作性,進行資源的統(tǒng)一管理和調(diào)度。
為構建基于校園網(wǎng)的網(wǎng)格計算系統(tǒng),可采用一種基于校園網(wǎng)的網(wǎng)格計算模型I-GRID[5]。I-GRID以校園骨干網(wǎng)作為主要的通信網(wǎng)絡,用快速以太網(wǎng)作為節(jié)點之間的通信媒介。I-GRID不考慮系統(tǒng)節(jié)點的物理拓撲結(jié)構,在邏輯上把每個節(jié)點看作是等價的,任何節(jié)點之間通過物理網(wǎng)絡均可到達。I-GRID為用戶提供了基于Web服務器和命令行的接口服務,遠程用戶可通過Web訪問系統(tǒng),本地用戶可通過命令行訪問系統(tǒng)。目前,I-GRID系統(tǒng)支持的計算機平臺分別是PC/x86/Linux、PC/x86/Win9x、Sun Ultra/Sparc/Solaris和IBM RS6000/PowerPC/AIX。這些系統(tǒng)分布在校園網(wǎng)絡可達的任何地理位置,也可以由屬于不同的管理域管理。因此,凡是具有上述CPU和操作系統(tǒng)的計算機系統(tǒng),均可申請加入I-GRID計算網(wǎng)格,并且作為其中的一個節(jié)點,為其他用戶提供計算和數(shù)據(jù)資源。
網(wǎng)格計算匯聚各種異構計算系統(tǒng),形成高性能的聯(lián)合計算環(huán)境,使用計算網(wǎng)格,可以節(jié)省購買高性能計算設備的成本和復雜計算的費用,具有廣闊的應用前景,同時它也能讓人們透明地使用計算、存儲等其他資源。
參考文獻:
Foster I, Kesselman C eds. The Grid: Blueprint for a New Computing Infrastructure. Morgan-Kaufmann, San Francisco, CA, 1998;oster I , Kesselman C , Nick J , Tuecke S. Grid Services for Distributed Systems Integration, Computer, 2002, 35(6) : 37~46;Foster I,Kesselman C ,Tuecke anatomy of the grid : Enabling scalable virtual organizations. International Journal of Supercomputer Applications, 2001, 15(3) : 200~222
徐志偉,李偉,織女星網(wǎng)格的體系結(jié)構研究,計算機研究與發(fā)展, 2002 ,39(8) : 923~929
桂小林,錢德沛,基于Internet的網(wǎng)格計算模型研究,西安交通大學學報,2001 35(10) :1008~1011
作者簡介:于炯,男,39,碩士,新疆大學計算中心副主任,副教授,新疆大學碩士研究生導師,自治區(qū)教育廳信息化專家組成員,2000年獲自治區(qū)優(yōu)秀專業(yè)工作者稱號。多年來一直從事計算機網(wǎng)絡研究與應用工作,1995年以來,主持了3項自治區(qū)科技廳、自治區(qū)教育廳科學與技術研究課題,6項自治區(qū)橫向課題,一項研究成果獲國家檔案局科技成果獎(部級)。在國內(nèi)外期刊和國內(nèi)外會議發(fā)表論文20余篇。2002年12月至2003年12月:在加拿大國家研究院信息所作訪問學者,研究方向為計算機網(wǎng)絡和信息網(wǎng)絡安全。
(轉(zhuǎn)載)