科普任重而道远:生物信息为什么要学 Linux?
前面寫了一篇生信人的自我修養:Linux 命令速查手冊,有朋友覺得是為 IT 人員準備的。
科普任重而道遠,我還是用這篇文章解釋一下吧。
兩個方面的需求:
數據處理
服務器運維
數據處理方面的需求
1. 首先是必要需
生物信息學是真正的大數據專業,對計算資源要求較大,很多時候需要在服務器上分析數據,而 Linux 是最常用的服務器操作系統。
比如一個基因組組裝,需要 1 T 內存,20 T 硬盤,你很容易就排除掉了 Windows 和 Mac 系統了是吧。
2. 其次是好用
Linux 為生產而生,所以在上面做數據分析肯定是很好的。Linux 有很多現成的小工具可以直接使用,比如 grep, sed, awk,非常方便。另外也可以寫腳本自動化執行許多重復性的工作,這些都是 Windows / Mac 平臺沒法比的。
3. 行業共識
鑒于以上兩個原因,行業逐步達成了共識。人才往這方面培養,軟件往這方面開發。
人才方面,生信專業從考研開始,就要考 Linux 基礎知識。
軟件方面,很多生信軟件優先開發 Linux 版本,甚至只有 Linux 版本。
服務器運維方面的需求
愉快的大學生活就要結束了,你反復考慮,決定要讀研。經過一段時間的挑燈夜戰,終于考上生物信息研究生。進入實驗室后。。。
你:老板,搞數據分析需要服務器啊。
老板:這是 5 萬塊。
然后你去電腦城,弄了臺 5 萬塊的服務器,開始搞分析。第二年,師弟師妹來了。。。
師弟師妹:老板,服務器不夠用。
老板:這里還有 5 萬塊。
然后你和師弟師妹一起又去電腦城搞了臺服務器。幾年下來,已經有 4、5 臺服務器了,總不能為每一位同學都配一臺吧。
于是如何充分利用現有的計算資源,就成為了當務之急。
大家上網苦苦搜索,發現一個叫做 SGE (Sun Grid Engine)的東西,可以把幾臺零散的服務器組成一個集群,用戶使用這個集群的所有計算機,就像使用一臺一樣。
這個光榮而艱巨的任務,當然由你來干。集群弄好了,加個賬戶、添塊硬盤、排下錯誤,于是你久病成良醫,硬把自己折騰成了一個運維人員,要轉行也是分分鐘的事。
(以上故事純屬虛構,如有雷同,實屬巧合。)
說完了實驗室的情況,再聊一聊企業。一般大型的生物信息公司,都有自己的計算集群,有專門的服務提供商(比如榮之聯)。此外,如果用阿里、華為這樣的云服務器,則運維的事情會少很多。
寫在最后
Linux 對于生信來說,運維不是剛需,但使用是剛需。生物信息學如何快速入門 Linux,請移步到下面這篇文章。
生信人的自我修養:Linux 命令速查手冊
喜歡文章請點個“贊”吧!或者點擊“在看”讓更多朋友看到,點擊“閱讀原文”可以在知乎專欄上給我留言,博客地址:https://jianzuoyi.github.io
總結
以上是生活随笔為你收集整理的科普任重而道远:生物信息为什么要学 Linux?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java 字符串文本匹配并高亮显示处理
- 下一篇: IDEA中git的Cherry-Pick