前言:我們精心挑選了數(shù)篇優(yōu)質(zhì)生物信息學論文文章,供您閱讀參考。期待這些文章能為您帶來啟發(fā),助您在寫作的道路上更上一層樓。

一、正在出現(xiàn)的技術(shù)
Klingler(Lncytepharmaceuticals,PaloAlto,CA,USA)強調(diào)基因組學正推動制藥業(yè)進入信息時代。隨著不斷增加的序列、表達和作圖數(shù)據(jù)的產(chǎn)生,描述和開發(fā)這些數(shù)據(jù)的信息工具變得對實現(xiàn)基因組研究的任務(wù)至關(guān)重要。他談到了Incytepharmaceuticals對大規(guī)?;蚪M數(shù)據(jù)和生物信息學的貢獻。
Lipshutz(Affymetrix,Santaclara,CA,USA)描述了一種利用DNA探針陣列進行基因組研究的方法,其原理是通過更有效有作圖、表達檢測和多態(tài)性篩選方法,可以實現(xiàn)對人類基因組的測序。光介導(dǎo)的化學合成法被應(yīng)用于制造小型化的高密度寡核苷酸探針的陣列,這種通過軟件包件設(shè)計的寡核苷酸探針陣列可用于多態(tài)性篩查、基因分型和表達檢測。然后這些陣列就可以直接用于并行DNA雜交分析,以獲得序列、表達和基因分型信息。Milosavljevic(CuraGen,Branford,CT,USA)介紹了一種新的基于專用定量表達分析方法的基因表達檢測系統(tǒng),以及一種發(fā)現(xiàn)基因的系統(tǒng)GeneScape。為了有效地抽樣表達,特意制作片段模式以了解特定基因的子序列的發(fā)生和冗余程度。他在酵母差異基因表達的大規(guī)模研究中對該技術(shù)的性能進行了驗證,并論述了技術(shù)在基因的表達、生物學功能以及疾病的基礎(chǔ)研究中的應(yīng)用。
二、基因的功能分析
Overton(UniversityofPennsylvaniaSchoolofMedicine,Philadelphia,PA,USA)論述了人類基因組計劃的下一階段的任務(wù)——基因組水平的基因功能分析。這一階段產(chǎn)生的數(shù)據(jù)的分析、管理和可視性將毫無疑問地比第一階段更為復(fù)雜。他介紹了一種用于脊椎動物造血系統(tǒng)紅系發(fā)生的功能分析的原型系統(tǒng)E-poDB,它包括了用于集成數(shù)據(jù)資源的Kleisli系統(tǒng)和建立internet或intranet上視覺化工具的bioWidget圖形用戶界面。EpoDB有可能指導(dǎo)實驗人員發(fā)現(xiàn)不可能用傳統(tǒng)實驗方法得到的紅系發(fā)育的新的藥物靶,制藥業(yè)所感興趣的是全新的藥物靶,EpoDB提供了這樣一個機會,這可能是它最令人激動的地方。
Sali(Rockefelleruniversity,NewYork,NY,USA)討論了同源蛋白質(zhì)結(jié)構(gòu)模建。比較蛋白質(zhì)模建(comparativeproteinmodeling)也稱為同源模建(homologymodeling),即利用實驗確定的蛋白質(zhì)結(jié)構(gòu)為模式(模型)來預(yù)測另一種具有相似氨基酸序列的蛋白質(zhì)(靶)的構(gòu)象。此方法現(xiàn)在已經(jīng)具有了足夠的精確性,并且被認為效果良好,因為蛋白質(zhì)序列的一個微小變化通常僅僅導(dǎo)致其三維結(jié)構(gòu)的細微改變。
Babbitt(UniversityofCalifornia,SanFrancisco,CA,USA)討論了通過數(shù)據(jù)庫搜索來識別遠緣蛋白質(zhì)的方法。對蛋白質(zhì)超家族的結(jié)構(gòu)和功能的相互依賴性的理解,要求了解自然所塑造的一個特定結(jié)構(gòu)模板的隱含限制。蛋白質(zhì)結(jié)構(gòu)之間的最有趣的關(guān)系經(jīng)常在分歧的序列中得以表現(xiàn),因而區(qū)分得分低(low-scoring)但生物學關(guān)系顯著的序列與得分高而生物學關(guān)系較不顯著的序列是重要的。Babbit證明了通過使用BLAST檢索,可以在數(shù)據(jù)庫搜索所得的低得分區(qū)識別遠緣關(guān)系(distantrelationship)。Levitt(Stanforduniveersity,PaloAlto,CA,USA)討論了蛋白質(zhì)結(jié)構(gòu)預(yù)測和一種僅從序列數(shù)據(jù)對功能自動模建的方法?;蚬δ苋Q于基因編碼的蛋白質(zhì)的三級結(jié)構(gòu),但數(shù)據(jù)庫中蛋白質(zhì)序列的數(shù)目每18個月翻一番。為了確定這些序列的功能,結(jié)構(gòu)必須確定。同源模建和從頭折疊(abinitiofolding)方法是兩種現(xiàn)有的互為補充的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法;同源模建是通過片段匹配(segmentmatching)來完成的,計算機程棄SegMod就是基于同源模建方法的。
三、新的數(shù)據(jù)工具
Letovsky(JohnshopkinsUniversity,Baltimore,MD,USA)介紹了GDB數(shù)據(jù)庫,它由每條人類染色體的許多不同圖譜組成,包括細胞遺傳學、遺傳學、放射雜交和序列標簽位點(STS)的內(nèi)容,以及由不同研究者用同種方法得到的圖譜。就位置查詢而言,如果不論其類型(type)和來源(source),或者是否它們正好包含用以批定感興趣的區(qū)域的標志(markers),能夠搜索所有圖譜是有用的。為此目的,該數(shù)據(jù)庫使用了一種公用坐標系統(tǒng)(commoncoordinatesystem)來排列這些圖譜。數(shù)據(jù)庫還提供了一張高分辨率的和與其他圖譜共享許多標志的圖譜作為標準。共享標志的標之間的對應(yīng)性容許同等于所有其它圖譜的標準圖譜的分配。
Markowitz(LawrenceberkeleyLaboratory,Berkeley,CA,USA)討論了分布式數(shù)據(jù)庫與局部管理的關(guān)系,以及用基于工具的方法開發(fā)分子生物學數(shù)據(jù)庫(MDBs)的問題。許多方案當前正在促進搜索多種不同來源MDBs的數(shù)據(jù),包括建立數(shù)據(jù)倉庫;這要求對各種MDBs的組合有一種全局觀,并從成員MDBs中裝填數(shù)據(jù)入中心數(shù)據(jù)庫。這些方案的主要問題是開發(fā)整體視圖(globalviews),構(gòu)建巨大的數(shù)據(jù)倉庫并使集成的數(shù)據(jù)庫與不斷發(fā)展中的成員MDBs同步化的復(fù)雜性。Markowitz還討論了對象協(xié)議模型(objectprotocolmodel,OPM),并介紹了支持以下用途的工具:建立用于文本文件或者關(guān)系MDBs的OPM視圖;將MDBs作成一個數(shù)據(jù)庫目錄,提供MDB名稱、定位、主題、獲取信息和MDB間鏈接等信息;說明、處理和解釋多數(shù)據(jù)庫查詢。Karp(SRIinternational,MenloPark,CA,USA)解釋了Ocelot,一種能滿足管理生物學信息需求的面向?qū)ο笾R陳述系統(tǒng)(一種面向?qū)ο笙到y(tǒng)的人工智能版)。Ocelot支持略圖展開(schemaevolution)并采用一種新的最優(yōu)化并行控制機制(同時進行多項訪問數(shù)據(jù)的過程),其略圖驅(qū)動圖形編輯器提供了交互式瀏覽和編輯功能,其注釋系統(tǒng)支持數(shù)據(jù)庫開發(fā)者之間的結(jié)構(gòu)通訊。
Riley(MarinebiologicalLaboratory,WoodsHole,MA,USA)在討論大腸桿菌蛋白質(zhì)的功能同時,特別提到了GPEC數(shù)據(jù)庫,它包括了由實驗確定的所有E.coli基因的功能的信息。該數(shù)據(jù)庫中最大比例的蛋白質(zhì)是酶,其次則為轉(zhuǎn)運和調(diào)控蛋白。
Candlin(PEappliedBiosystems,FosterCity,CA,USA)介紹了一種新的存儲直接來自ABⅠPrismdNA測序儀的數(shù)據(jù)的關(guān)系數(shù)據(jù)庫系統(tǒng)BioLIMS。該系統(tǒng)可以與其它測序儀的數(shù)據(jù)集成,并可方便地與其它軟件包自動調(diào)用,為測序儀與序列數(shù)據(jù)的集成提供了一種開放的、可擴展的生物信息學平臺。
Glynais(NetGenics,Cleveland,OH,USA)認為生物信息學中最關(guān)鍵的問題之一是軟件工具和數(shù)據(jù)庫缺乏靈活性。但是,軟件技術(shù)的發(fā)展已得到了其它領(lǐng)域如金融業(yè)和制造業(yè)的發(fā)展經(jīng)驗的借鑒,可以使來自不同軟件商的運行于各種硬件系統(tǒng)的軟件共同工作。這種系統(tǒng)的國際標準是CORBA,一種由250多個主要軟件和硬件公司共同合作開發(fā)的軟件體系。聯(lián)合使用CORBA和Java可以開發(fā)各種通過一個公用用戶界面訪問任何種類的數(shù)據(jù)或軟件工具的網(wǎng)絡(luò)應(yīng)用軟件,也包括生物信息學應(yīng)用軟件。Overton不同意Glynias的這種想法,他強調(diào)說CORBA僅對軟件集成有用,不兼容的數(shù)據(jù)庫軟件可能是計算生物學所面臨的最困難問題,一些制藥公司和數(shù)據(jù)庫倉庫最近資助了一項用OCRBA鏈接不同的數(shù)據(jù)庫的計劃[2,3]。
四、制藥先導(dǎo)的發(fā)現(xiàn)
Burgess(Sturcturalbioinformatics,SanDiego,CA,USA)討論了填補基因組學和藥物設(shè)計之間鴻溝的蛋白質(zhì)結(jié)構(gòu)中的計算問題。在缺乏主要疾病基因或藥物靶的精確描述數(shù)據(jù)的情況下,藥物設(shè)計者們不得不采用大規(guī)模表達蛋白質(zhì)篩選方法;而結(jié)構(gòu)生物信息學則采用一種更為實用有效的計算方法直接從序列數(shù)據(jù)中確定靶蛋白質(zhì)的活性位點的精細結(jié)構(gòu)特征,它利用一種集成專家系統(tǒng)從現(xiàn)實的或虛擬的化學文庫中進行迅速的計算篩選,可以達到一個很大的規(guī)模。
Elliston(Genelogic,Columbia,MD,USA)討論了治療藥物開發(fā)中發(fā)現(xiàn)新的分子靶的過程,著重討論了基因發(fā)現(xiàn)方法。他認為,隨著日益臨近的人類基因組測序的完成,幾乎全部基因的特征將在序列水平得到揭示。但是,對基因的認識將有賴于更多的信息而不僅僅是序列,需要考慮的第一類信息是轉(zhuǎn)錄表達水平信息,而Genelogic公司的GeneExpress就是一個由mRNA表達譜、轉(zhuǎn)錄因子位點、新基因和表達序列標簽組成的數(shù)據(jù)庫。
Liebman(Vysis,Downessgrove,IL,USA)介紹了Vysis公司開發(fā)的計算和實驗方法,這些主法不僅用于管理序列數(shù)據(jù),而且被用于以下用途:分析臨床數(shù)據(jù)庫和自然—突變數(shù)據(jù)庫;開發(fā)新的算法以建立功能同源性(區(qū)別于序列同源性)模擬生物學通路以進行風險評估;藥物設(shè)計的靶評估;聯(lián)系復(fù)雜的通路特性以便識別副作用;開發(fā)疾病發(fā)展的定性模型并解釋臨床后果。
隨著發(fā)現(xiàn)的新基因的日益增多,這個問題顯得格外重要:基因的功能是什么?Escobedo(Chirontechnologies,Emeryville,CA,USA)提出了這個問題的一種方法:將分泌蛋白質(zhì)的基因的功能克隆與篩選這些克?。赡艿乃幬锇校┙Y(jié)合起來。在這種方法中,在微粒體cDNA文庫池中進行體外翻譯避免了勞動密集的克隆、表達和純化步聚,對文庫池中的翻譯產(chǎn)物在細胞水平進行篩選,測試其在細胞增殖和分化中的作用。例如,在用這種方法識別的111個克隆中,56個屬于已知的分泌蛋白質(zhì),25個為膜相關(guān)蛋白,另外30個功能未知,可能是新的蛋白質(zhì)。一種相似的方法在轉(zhuǎn)移到小鼠模型系統(tǒng)中的基因傳導(dǎo)載體中構(gòu)建分泌蛋白質(zhì)的cDNA文庫來克隆特定的功能基因。
Ffuchs(Glaxowellcome,ResearchTrianglePark,NC,USA)討論了生物信息學更為廣義的影響:它不僅影響到新藥物靶基的發(fā)現(xiàn),還對改善藥物開發(fā)的臨床前期和臨床期的現(xiàn)狀極具重要性。眾所周知,涉汲數(shù)以千計病人的臨床試驗(可能是藥物開發(fā)最為花錢的部分)的設(shè)計不論多么仔細,也不能為正確的藥物選擇正確的病人。而在基因組水平劃分病人群體的方法可以大大改善發(fā)現(xiàn)新藥的效率。Fuchs介紹了一種將病人的基因型和表型標志結(jié)合起來以改善臨床前期和臨床期藥物開發(fā)過程的系統(tǒng)GeneticinformationSystem.他強調(diào)將遺傳學和生物信息學數(shù)據(jù)同化學、生物化學、藥理學和醫(yī)學數(shù)據(jù)連接起來的集成信息管理和分析方法是極其重要的。
Green(HumanGenomeSciences,Rockville,MD,USA)介紹了他的測序工作中采用的數(shù)據(jù)管理工具。基于EST的測序方法所面臨的挑戰(zhàn)是,在對幾百個cDNA克復(fù)測序之后,產(chǎn)生的數(shù)據(jù)堆積如山。由于大多數(shù)人類基因都是用這種方法發(fā)現(xiàn)并在么有數(shù)據(jù)庫中分類編排的,面臨的識別開放讀框、重疊序列的重疊圖譜、組織特異表達和低豐度mRNA基因的任務(wù)是令人生畏的。HumangenomeSciences公司開發(fā)了一些可用戶化數(shù)據(jù)庫工具,在同一個數(shù)據(jù)庫中可包括以下功能:WWW上訪問和檢索數(shù)據(jù),序列拼接,臨視潛在藥物靶基因的研究進展等。這些能夠管理多項任務(wù)——從注釋基因序列到成功開發(fā)基因產(chǎn)物進入藥物發(fā)現(xiàn)的流程——的軟件工具,極其可望從一種基于基因組知識的藥物發(fā)現(xiàn)方法中得到新的藥物靶。
Summer-Smith(Base4bioinformatics,Mississauga,Ontario,Canada)描述了一種相關(guān)的策略。藥物發(fā)現(xiàn)階段中所要求的軟件工具的任務(wù)是多樣化的,要能注釋基因,并闡明它的生理和病理功能及其商業(yè)潛質(zhì)。對這樣多種來源的信息的集成與分析,在派生的、項目取向的數(shù)據(jù)庫(project-specificdatabase,PSD)中可以很好完成。由于項目貫穿于發(fā)現(xiàn)到開發(fā)全過程,其間又不斷加入背景的成員,PSD在項目的管理與發(fā)展中成為一種關(guān)鍵性的資源。
按照Smith(Bostonuniversity,Boston,MA,USA)的觀點[2],我們并不需要更快捷的計算機或更多的計算機科學家,而是需要更的生物學家和生物化學家來解釋序列的功能。這對有些軟件或硬件專家來說是個打擊,但生物學系統(tǒng)的復(fù)雜性是令人生畏的,并且對基因功能的認識可能需要生物學方法和計算方法的結(jié)合。探索基因的功能很可能要花費生物學家們數(shù)十年的時間,本次會議表明沒有任何單一的方法可以得出一個答案;但是,將計算生物學同大規(guī)模篩先結(jié)合起來識別一種化學靶物(hit)是一種產(chǎn)生化學工具來探索基因功能的方法,這些化學工具接下來就可以用作理解基因功能的“探針”。這種方法在Butt(GeneTranscriptionTechnologies,Philadelphia,PA,USA)的描述中,既是一種檢查基因功能的簡單方法,也是為潛在的藥物靶發(fā)現(xiàn)化學先導(dǎo)物的簡單方法,他描述了一種可以在酵母中重建人類基因功能的酵母大規(guī)模篩選系統(tǒng)。在此系統(tǒng)中,可以迅捷地在一個化學文庫中發(fā)現(xiàn)配基。這種技術(shù)的重要特征是它不僅僅是發(fā)現(xiàn)一種藥物靶的配基的篩板(screen),相反,由于該系統(tǒng)的高速度,它也是發(fā)現(xiàn)先導(dǎo)靶基因的一種篩板。過去,世界上的制藥公司通常在某一時間內(nèi)僅能對有限數(shù)目(約20多個)的藥物靶基因進行工作,鑒于此,我們需要根本不同的方法如基因組學來打開通向“新”生物學的通路。由于機器人和合成化學的進步,藥物發(fā)現(xiàn)中最關(guān)鍵的問題不再是得到一種先導(dǎo)化合物(leadcompound),而是得到導(dǎo)向靶基因。此次會議為從計算和實驗方法中發(fā)展出的新生物學邁出很好的一步。
參考文獻
1LimHA,BatttR.TIBTECH,1998;16(3)):104
關(guān)鍵詞:推薦系統(tǒng);生物信息學
推薦系統(tǒng)(RecommenderSystem)[1]是個性化信息服務(wù)的主要技術(shù)之一,它實現(xiàn)的是“信息找人,按需服務(wù)”;通過對用戶信息需要、興趣愛好和訪問歷史等的收集分析,建立用戶模型,并將用戶模型應(yīng)用于網(wǎng)上信息的過濾和排序,從而為用戶提供感興趣的資源和信息。生物信息學(Bioinformatics)[2,3]是由生物學、應(yīng)用數(shù)學和計算機科學相互交叉所形成的一門新型學科;其實質(zhì)是利用信息科學的方法和技術(shù)來解決生物學問題。20世紀末生物信息學迅速發(fā)展,在信息的數(shù)量和質(zhì)量上都極大地豐富了生物科學的數(shù)據(jù)資源,而數(shù)據(jù)資源的急劇膨脹需要尋求一種科學而有力的工具來組織它們,基于生物信息學的二次數(shù)據(jù)庫[4]能比較好地規(guī)范生物數(shù)據(jù)的分類與組織,但是用戶無法從大量的生物數(shù)據(jù)中尋求自己感興趣的部分(著名的生物信息學網(wǎng)站NCBI(美國國立生物技術(shù)信息中心),僅僅是小孢子蟲(Microsporidia)的DNA序列就達3399種),因此在生物二次數(shù)據(jù)庫上建立個性化推薦系統(tǒng),能使用戶快速找到自己感興趣的生物信息。特別是在當前生物信息數(shù)據(jù)量急劇增長的情況下,生物信息學推薦系統(tǒng)將發(fā)揮強大的優(yōu)勢。
1推薦系統(tǒng)的工作流程
應(yīng)用在不同領(lǐng)域的推薦系統(tǒng),其體系結(jié)構(gòu)也不完全相同。一般而言,推薦系統(tǒng)的工作流程[5]如圖1所示。
(1)信息獲取。推薦系統(tǒng)工作的基礎(chǔ)是用戶信息。用戶信息包括用戶輸入的關(guān)鍵詞、項目的有關(guān)屬性、用戶對項目的文本評價或等級評價及用戶的行為特征等,所有這些信息均可以作為形成推薦的依據(jù)。信息獲取有兩種類型[6],即顯式獲取(Explicit)和隱式獲取(Implicit),由于用戶的很多行為都能暗示用戶的喜好,因此隱式獲取信息的準確性比顯式高一些。
(2)信息處理。信息獲取階段所獲得的用戶信息,一般根據(jù)推薦技術(shù)的不同對信息進行相應(yīng)的處理。用戶信息的存儲格式中用得最多的是基于數(shù)值的矩陣格式,最常用的是用m×n維的用戶—項目矩陣R來表示,矩陣中的每個元素Rij=第i個用戶對第j個項目的評價,可以當做數(shù)值處理,矩陣R被稱為用戶—項目矩陣。
(3)個性化推薦。根據(jù)形成推薦的方法的不同可以分為三種,即基于規(guī)則的系統(tǒng)、基于內(nèi)容過濾的系統(tǒng)和協(xié)同過濾系統(tǒng)?;谝?guī)則的推薦系統(tǒng)和基于內(nèi)容過濾的推薦系統(tǒng)均只能為用戶推薦過去喜歡的項目和相似的項目,并不能推薦用戶潛在感興趣的項目。而協(xié)同過濾系統(tǒng)能推薦出用戶近鄰所喜歡的項目,通過用戶與近鄰之間的“交流”,發(fā)現(xiàn)用戶潛在的興趣。因此本文所用的算法是基于協(xié)同過濾的推薦算法。
(4)推薦結(jié)果。顯示的任務(wù)是把推薦算法生成的推薦顯示給用戶,完成對用戶的推薦。目前最常用的推薦可視化方法是Top-N列表[7],按照從大到小順序把推薦分值最高的N個事物或者最權(quán)威的N條評價以列表的形式顯示給用戶。
2生物信息學推薦系統(tǒng)的設(shè)計
綜合各種推薦技術(shù)的性能與優(yōu)缺點,本文構(gòu)造的生物信息學推薦系統(tǒng)的總體結(jié)構(gòu)如圖2所示。
生物信息學推薦系統(tǒng)實現(xiàn)的主要功能是在用戶登錄生物信息學網(wǎng)站時,所留下的登錄信息通過網(wǎng)站傳遞到推薦算法部分;推薦算法根據(jù)該用戶的用戶名從數(shù)據(jù)庫提取出推薦列表,并返回到網(wǎng)站的用戶界面;用戶訪問的記錄返回到數(shù)據(jù)庫,系統(tǒng)定時調(diào)用推薦算法,對數(shù)據(jù)庫中用戶訪問信息的數(shù)據(jù)進行分析計算,形成推薦列表。
本系統(tǒng)采用基于近鄰的協(xié)同過濾推薦算法,其結(jié)構(gòu)可以進一步細化為如圖3所示。算法分為鄰居形成和推薦形成兩大部分,兩部分可以獨立進行。這是該推薦系統(tǒng)有別于其他系統(tǒng)的優(yōu)勢之一。由于信息獲取后的用戶—項目矩陣維數(shù)較大,使得系統(tǒng)的可擴展性降低。本系統(tǒng)采用SVD矩陣降維方法,減少用戶—項目矩陣的維數(shù),在計算用戶相似度時大大降低了運算的次數(shù),提高了推薦算法的效率。
(1)信息獲取。用戶對項目的評價是基于用戶對某一個項目(為表示簡單,以下提及的項目均指網(wǎng)站上的生物物種)的點擊次數(shù)來衡量的。當一個用戶注冊并填寫好個人情況以后,系統(tǒng)會自動為該用戶創(chuàng)建一個“信息矩陣”,該矩陣保存了所有項目的ID號以及相應(yīng)的用戶評價,保存的格式為:S+編號+用戶評價,S用于標記項目,每個項目編號及其評價都以“S”相隔開;編號是唯一的,占5位;用戶評價是用戶點擊該項目的次數(shù),規(guī)定其范圍是0~100,系統(tǒng)設(shè)定當增加到100時不再變化。這樣做可防止形成矩陣時矩陣評價相差值過大而使推薦結(jié)果不準確。(2)信息處理。信息處理是將所有用戶的信息矩陣轉(zhuǎn)換為用戶—項目矩陣,使用戶信息矩陣數(shù)值化,假設(shè)系統(tǒng)中有M個用戶和N個項目,信息處理的目的就是創(chuàng)建一個M×N的矩陣R,R[I][J]代表用戶I對項目J的評價。
(3)矩陣處理。協(xié)同過濾技術(shù)的用戶—項目矩陣的數(shù)據(jù)表述方法所帶來的稀疏性嚴重制約了推薦效果,而且在系統(tǒng)較大的情況下,它既不能精確地產(chǎn)生推薦集,又忽視了數(shù)據(jù)之間潛在的關(guān)系,發(fā)現(xiàn)不了用戶潛在的興趣,而且龐大的矩陣增加了計算的復(fù)雜度,因此有必要對該矩陣的表述方式做優(yōu)化,進行矩陣處理。維數(shù)簡化是一種較好的方法,本文提出的算法應(yīng)用單值分解(SingularValueDecomposition,SVD)技術(shù)[8],對用戶—項目矩陣進行維數(shù)簡化。
(4)相似度計算。得到降維以后的用戶矩陣US,就可以尋找每個用戶的近鄰。近鄰的確定是通過兩個用戶的相似度來度量的。本文采用Pearson相關(guān)度因子[9]求相似度。(5)計算用戶鄰居。該方法有兩種[10],即基于中心的鄰居(Center-BasedNeighbor)和集合鄰居(AggregateNeighbor)。本系統(tǒng)采用了第一種方法,直接找出與用戶相似度最高的前N個用戶作為鄰居,鄰居個數(shù)N由系統(tǒng)設(shè)定,比如規(guī)定N=5。
(6)推薦形成。推薦形成的前提是把當前用戶的鄰居ID號及其與當前用戶的相似度保存到數(shù)據(jù)庫中,而在前面的工作中已找出各用戶的鄰居以及與用戶的相似度,推薦形成部分只需要對當前登錄用戶進行計算。推薦策略是:對當前用戶已經(jīng)訪問過的項目不再進行推薦,推薦的范圍是用戶沒有訪問的項目,其目的是推薦用戶潛在感興趣的項目;考慮到系統(tǒng)的項目比較多,用戶交互項目的數(shù)量很大,所以只篩選出推薦度最大的N個項目,形成Top-N推薦集,設(shè)定N=5。
3生物信息學推薦系統(tǒng)的實現(xiàn)
生物信息學推薦系統(tǒng)的實現(xiàn)可以用圖4來表示。數(shù)據(jù)庫部分主要存儲用戶信息和項目信息,用SQLServer2000實現(xiàn)。
數(shù)據(jù)訪問層實現(xiàn)了與用戶交互必需的存儲過程以及觸發(fā)器,也使用SQLServer2000,主要完成以下功能:初始化新用戶信息矩陣;插入新項目時更新所有用戶的信息矩陣;用戶點擊項目時更新該用戶對項目的評價;刪除項目時更新所有用戶的信息矩陣。用戶訪問層主要涉及網(wǎng)頁與用戶的交互和調(diào)用數(shù)據(jù)訪問層的存儲過程,在這里不做詳細的介紹。
推薦算法完成整個個性化推薦的任務(wù),用Java實現(xiàn)。(1)數(shù)據(jù)連接類DataCon。該類完成與SQLServer2000數(shù)據(jù)庫的連接,在連接之前必須要下載三個與SQLServer連接相關(guān)的包,即msutil.jar、msbase.jar和mssqlserver.jar。
(2)數(shù)據(jù)操作類DataControl。該類負責推薦算法與數(shù)據(jù)庫的數(shù)據(jù)交換,靜態(tài)成員Con調(diào)用DataCon.getcon()獲得數(shù)據(jù)庫連接,然后對數(shù)據(jù)庫進行各種操作。把所有方法編寫成靜態(tài),便于推薦算法中不創(chuàng)建對象就可以直接調(diào)用。
(3)RecmmendSource與CurrentUserNeighbor。這兩個類作為FCRecommand類的內(nèi)部類,RecmmendSource用于保存當前用戶的推薦列表,包括推薦項目號和推薦度;CurrentUserNeighbor用于保存鄰居信息,包括鄰居ID號、相似度及其訪問信息。
(4)協(xié)同過濾推薦算法FCRecommand。該類實現(xiàn)了整個推薦算法,主要分為鄰居形成方法FCArithmetic和推薦形成方法GenerateRecommend。
下面給出方法FCArithmetic的關(guān)鍵代碼:
Matrixuser_item=this.User_Item_Arry();//獲取用戶—項目矩陣
user_item=this.SVD_Calculate(user_item);//調(diào)用SVD降維方法
Vectorc_uservector=newVector();//當前用戶向量
Vectoro_uservector=newVector();//其他用戶向量
Vectorc_user_correlate_vector=newVector();
//當前用戶與其他用戶之間相似度向量
for(inti=0;ifor(intj=0;jc_uservector.addElement(user_item.get(i,j));
//1.獲得當前用戶向量
for(intk=0;ko_uservector.clear();
for(intl=0;lo_uservector.addElement(user_item.get(k,l));
//2.獲得其他用戶的向量
//3.計算當前用戶與其他用戶的相似度
usercorrelativity=this.Correlativity(c_uservector,o_uservector);
c_user_correlate_vector.addElement(usercorrelativity);
}
//4.根據(jù)當前用戶與其他用戶的相似度,計算其鄰居
this.FindUserNeighbor(i,c_user_correlate_vector);
}
根據(jù)鄰居形成方法FCArithmetic,可以得到每個用戶的鄰居。作為測試用例,圖6顯示用戶Jack與系統(tǒng)中一部分用戶的相似度,可以看出它與自己的相似度必定最高;并且它與用戶Sugx訪問了相同的項目,它們之間的相似度也為1,具有極高的相似度。
4結(jié)束語
在傳統(tǒng)推薦系統(tǒng)的基礎(chǔ)上,結(jié)合當前生物信息學網(wǎng)站的特點,提出一個基于生物信息平臺的推薦系統(tǒng),解決了傳統(tǒng)生物信息網(wǎng)站平臺信息迷茫的缺點,為用戶推薦其感興趣物種的DNA或蛋白質(zhì)序列。
優(yōu)點在于協(xié)同過濾的推薦算法能發(fā)現(xiàn)用戶潛在的興趣,能促進生物學家之間的交流;推薦算法的鄰居形成與推薦形成兩部分可以單獨運行,減少了系統(tǒng)的開銷。進一步的工作是分析生物數(shù)據(jù)的特點及生物數(shù)據(jù)之間的關(guān)系,增加用戶和項目數(shù)量,更好地發(fā)揮推薦系統(tǒng)的優(yōu)勢。
參考文獻:
[1]PAULR,HALRV.Recommendersystems[J].CommunicationsoftheACM,1997,40(3):56-58.
[2]陳新.生物信息學簡介[EB/OL].(2001).166.111.68.168/bioinfo/papers/Chen_Xin.pdf.
[3]林毅申,林丕源.基于WebServices的生物信息解決方案[J].計算機應(yīng)用研究,2005,22(6):157-158,164.[4]邢仲璟,林丕源,林毅申.基于Bioperl的生物二次數(shù)據(jù)庫建立及應(yīng)用[J].計算機系統(tǒng)應(yīng)用,2004(11):58-60.
[5]AIRIAS,TAKAHISAA,HIROYAI,etal.Personalizationsystembasedondynamiclearning:InternationalSemanticWebConference[C].Sardinia:[s.n.],2002.
[6]BREESEJS,HECKERMAND,KADIEC.Empericalanalysisofpredictivealgorithmsforcollaborativefiltering:proceedingsoftheFourteenthConferenceonUniversityinArtificialIntelligence[C].Madison:WI,1998:43-52.
[7]SCHAFERJB,KONSTANJ,RIEDLJ.Recommendersystemsine-commerce:proceedingoftheACMConferenceonElectronicCommerce[C].Pittsburgh:PA,1999:158-166.
[8]PRYORMH.Theeffectsofsingularvaluedecompositiononcollaborativefiltering[EB/OL].(1998).cs.dartmouth.edu/reports/TR98-338.pdf.
關(guān)鍵詞:醫(yī)學檢驗;生物信息學;課程教學
近年來,生物信息學在各醫(yī)藥院校越來越受到重視,多所院校相繼在研究生教學中開設(shè)了生物信息學課程[1]。而對于醫(yī)學本科層次是否需要開設(shè)生物信息學課程這一問題,雖然目前各方面的觀點不一,但是已經(jīng)有一些院校開始進行嘗試。目前醫(yī)學檢驗專業(yè)(五年制,畢業(yè)時授予醫(yī)學學士學位)已調(diào)整為醫(yī)學檢驗技術(shù)專業(yè)(四年制,畢業(yè)時授予理學學士學位),而生物信息學作為一門新課程,在醫(yī)學檢驗(技術(shù))專業(yè)學生培養(yǎng)中的作用正日益受到關(guān)注,逐步被某些院校選擇作為必修課或者選修課。
一、開設(shè)課程的必要性
空前繁榮的生物醫(yī)學大數(shù)據(jù)的產(chǎn)出,及其蘊含的重大生命奧秘的揭示,將決定現(xiàn)代生命科技和醫(yī)藥產(chǎn)業(yè)研發(fā)的高度,決定人們對疾病的認識和掌控能力,也將對主導(dǎo)生物醫(yī)學大數(shù)據(jù)存儲、管理、注釋、分析全過程,解決生命密碼的關(guān)鍵手段———現(xiàn)代生物信息學技術(shù)的發(fā)展帶來前所未有的機遇和挑戰(zhàn)[2]。對于醫(yī)學專業(yè)學生而言,通過學習生物信息學,從而掌握利用各種網(wǎng)絡(luò)信息資源來檢索和獲取生物信息數(shù)據(jù),并選擇和使用各種生物信息學軟件來分析數(shù)據(jù)。在當今大數(shù)據(jù)時代,這方面的知識和技能的培養(yǎng)對于醫(yī)學生今后從事醫(yī)學科研工作是非常重要的。因此,在醫(yī)學專業(yè)學生中開設(shè)生物信息學課程非常必要。我校從2010年開始將生物信息學設(shè)置為研究生教學的必修課;從2013年開始在醫(yī)學檢驗專業(yè)中開設(shè)生物信息學選修課,自2015年開始轉(zhuǎn)為醫(yī)學檢驗技術(shù)專業(yè)。在醫(yī)學檢驗技術(shù)專業(yè)中開設(shè)生物信息學課程,能夠為該專業(yè)學生的臨床和科研方面的素質(zhì)積累提供必要的支持,更重要的是增強了在醫(yī)學和信息科學交叉領(lǐng)域解決問題的技能,其意義幾乎等同于在研究生教學中的設(shè)課意義。
二、教學內(nèi)容的安排
醫(yī)學檢驗技術(shù)專業(yè)的教學任務(wù)非常緊張,幾乎將原來醫(yī)學檢驗專業(yè)前八個學期(最后兩個學期為實習階段)課程壓縮到六個學期來完成,學生學習壓力可想而知。我校為了減輕學生負擔,各課程的課時數(shù)都比醫(yī)學檢驗專業(yè)有所減少。但生物信息學并未改變,仍然為16學時。為了在較短的學時內(nèi)實現(xiàn)教學效果的最大化,我們結(jié)合該專業(yè)學生的特點和需求,將授課內(nèi)容分為理論課和實踐課兩部分,實踐課不占學時。理論課主要介紹基本的生物信息學理論、資源和數(shù)據(jù)的獲取、分析方法和工具的使用;實踐課則通過布置作業(yè),課后上機操作來解決問題。理論課主要內(nèi)容包括:生物信息學導(dǎo)論、DNA測序技術(shù)、序列的獲取、雙序列比對、多序列比對、蛋白質(zhì)結(jié)構(gòu)分析和預(yù)測共計六個專題。實踐課主要內(nèi)容包括:cDNA及基因組參考序列的獲?。怀R娦蛄懈袷降尼屃x與轉(zhuǎn)換;雙序列比對(局部比對);多序列比對(全局比對);蛋白質(zhì)綜合信息查詢;蛋白質(zhì)基本性質(zhì)、疏水區(qū)、亞細胞定位、信號肽、跨膜區(qū)、模體及結(jié)構(gòu)域分析與二級結(jié)構(gòu)預(yù)測;蛋白質(zhì)三級結(jié)構(gòu)預(yù)測。在理論課實施過程中,注重將與生物信息學相關(guān)的生命科學和醫(yī)學前沿的一些最新進展和最新成果引入理論知識講授中,讓學生在有限學時內(nèi)能夠進一步認識生物信息學的內(nèi)涵和課程的價值,追蹤前沿學科的動態(tài),開拓視野。
三、教學方法的設(shè)計
生物信息學涉及多個學科領(lǐng)域,交叉性強,在較短的學時內(nèi)學好這門課程的難度很大。學生的學習興趣與教學內(nèi)容和手段關(guān)系密切,除了精心選擇教學內(nèi)容外,教學方法上也有很多需要革新乃至創(chuàng)新的地方。在教學過程中,我們形成了頗具特色的教學經(jīng)驗,由授課教師獨創(chuàng)的授課———實踐———演示(Teaching-Practicing-Showing,TPS)教學模式已應(yīng)用于教學。TPS教學模式著力于以實際問題為引線,將理論授課與上機實踐有機地融為一體,逐步介紹生物數(shù)據(jù)分析的各項技能,并指導(dǎo)學生將其融會貫通以真正掌握相關(guān)的基本方法與常用工具。首先,在教學內(nèi)容上引入具體實例來進行教學,比如講解生物信息數(shù)據(jù)庫(Gene、Nucleotide、UniProt、PDB等)時,通過給出檢索某個人類疾病基因數(shù)據(jù)的例子來學習數(shù)據(jù)庫的使用方法。課堂上教學實例的設(shè)計需要任課教師在備課時投入大量精力來完成,還需要教師具備多學科交叉的知識。教學實踐表明,與醫(yī)學相關(guān)的生物信息學分析實例可以讓學生更好地認識該課程的作用,大幅度提高學生的學習興趣和學習的主動性。此外,課堂教學手段也應(yīng)該豐富多彩,多媒體教學中可以充分使用圖片、動畫等元素。其次,舉例分析時可以進行一定的現(xiàn)場演示,比如講解檢索Unigene數(shù)據(jù)庫時可以一邊上網(wǎng)演示一邊解釋說明。
四、考核方式的變革
生物信息學作為選修課,既要遵循學校相關(guān)的考試制度,也要通過對考試方式的變革來提高考試效果。我們將理論考核與學生的實踐能力考核聯(lián)系起來,結(jié)合學生課外實踐任務(wù)的完成情況和開卷考試成績進行綜合評定。在課程中安排一次課外實踐任務(wù),要求每位學生獨立完成相關(guān)分析并提交書面分析報告,該部分占考核成績的20%。具體內(nèi)容為自行選擇一個人類細胞外功能蛋白:1.利用ClustalX對各物種參考蛋白序列進行多序列比對(輸出PS格式結(jié)果);2.分析分子量、等電點、分子式、穩(wěn)定性、親疏水性及亞細胞定位;3.預(yù)測二級結(jié)構(gòu)并模擬三維結(jié)構(gòu)。課程結(jié)束后進行開卷考試,內(nèi)容包括基礎(chǔ)知識和綜合分析,盡量采取靈活的出題方式,并控制題量,該部分占考核成績的80%。近年來的教學實踐表明,這種綜合評定的方式能夠反映學生對該課程的掌握程度,體現(xiàn)學生利用生物信息學知識解決問題的能力。
五、展望
實踐表明,生物信息學課程教學能夠給學生提供所需要的生物信息學知識和技能,但是在教學內(nèi)容安排、教學方法設(shè)計、教學手段使用和教學效果評價等諸多環(huán)節(jié)都需要進一步探討。在這個過程中,我們既需要吸收傳統(tǒng)教學模式中的優(yōu)點和精髓,做到嚴謹和切合實際,又需要更新教學理念,突出醫(yī)學特色,大膽嘗試新的教學方法和手段,最終形成本課程別具一格的教學特色。
作者:倫永志 單位:大連大學
參考文獻