「表面光鲜,实则搬砖」,机器学习社区自嘲不为人知的AI工程师真相
賈浩楠發自凹非寺
量子位報道公眾號 QbitAI
機器學習工程師崗位,還香嗎?
在培訓機構或求職網站隨便一搜,機器學習簡直不要更熱。
但是,國外的同行們卻在一則 Reddit 熱帖上,吐槽揭露 ML 工程師“表面光鮮,實際搬磚”的一面。
說出了培訓機構不會告訴你的機器學習業內真相。
那這些“過來人”怎么掉進一個個暗坑的?他們的經歷對你有什么警醒借鑒的意義呢?
機器學習崗,怎樣避免淪為數據標注師
Reddit 熱帖下,網友們吐槽最多的,就是學習和工作的巨大差距產生的幻滅感。
學了一大堆牛X高大上的理論知識,以為自己能上手酷炫的神經網絡,調參、訓練、部署一條龍,但實際上,這些內容大概只占全部工作的 10%-20%。
而且在一些團隊中,會有專門的崗位來負責這些工作。
其余大部分人的職責是收集數據、給數據打標簽、處理數據質量,或者用 Python 寫基礎架構。
當年夢中的那個引領 AI 潮流的少年,就這樣成了數據標注師。
但是,網友也承認這一點確實是業內的普遍現象。而且,剛剛工作的新手,從低層技術開始做起,也是符合常理的。
大家的建議是:面對這種大量重復勞動,先別急著上手,去查一查資料,很多類似工作已經有成熟快速的方法。
當你跨過了基礎工作這一關,要面對的,是 ML 項目中可能出現的各種令人頭疼的問題,而這,是考驗你能否成為優秀機器學習工程師的重要挑戰。
機器學習之路布滿荊棘
哪些在工作崗位上很重要的東西,是機器學習教程不會教你的?
網友們總結了最重要的 4 條:
正確認識業務
處理凌亂的現實世界數據集
工程導向,而不是在 Jupyter Notebooks 中編寫研究代碼
可視化
這些都是網友們在工作經歷中吃了很多虧后,總結出的經驗。
比如,很多 ML 工程師只有給定一個抽象化的問題才能上手,缺乏應對實際工程問題的能力。
而一個合格的、被業內廣范認可的機器學習工程師,他可能并不精通算法的數學原理,而是能夠在約束條件眾多的實際情況下應用算法解決問題。
比如,在很多情況下,普通的舊算法(例如K-Means,高斯混合的 EM 等)非常有用。燒 GPU 并不是唯一辦法。
避免紙上談兵,這是機器學習算法工程師正確認識業務的一部分,除此之外,重要的點還有合理的工期規劃,和良好的溝通能力。
規劃傳統工程項目時,設定里程碑、期望值、是(相對)簡單的。
但對于機器學習項目來說,在最初目標和前期階段之后,很難給出具體的計劃,因為變數實在太多了。
這就需要在項目初期階段就保持頭腦清醒,不要給自己挖坑,同時也要和 boss 以及同事說明溝通。
一位網友談到了切身體會。他放棄了機器學習算法崗位,原因是老板根本不關心他為了完善算法細節付出了多少艱苦的勞動,只看最后的可視化效果。
當 boss 發現可視化效果并不高級時,認為他一直在浪費時間沒好好工作。
所以,比其他軟件工程師更強的抗錯能力,也是你必備的。
如果你能抗過以上所有挫折和困難,還有艱難的一關要過。
機器學習業內的謊言
任何人都可以輕松成為數據科學家/機器學習工程師
軟件工程師可以輕松成為數據科學家。
學習應用“現成庫”就可以輕松上手搞 AI。
搞 AI 無需學習高等數學/統計學
一種特定算法可以應用于任何領域并獲得成功
這些,就是 Reddit 網友當年少不更事是信過“鬼話”、踩過的坑。
那么,真下決心走機器學習這條路,應該相信什么呢?
首先是要對行業現狀有大致了解。
對于普通開發來說,機器學習崗位數量要比其他開發崗少很多。網友反映,在北美地區,100-150 個后端開發的公司可能只有有2-5 個搞 AI 的人。
其次,是很多有 AI 需求的公司沒有必要的 GPU 等基礎設施,你去了才發現只能使用免費的 Collab。
從個人求職角度講,ML 項目大多很比較專,比較小眾。你之前的項目經驗,全國可能只有不多的幾家公司感興趣。
明白了這些,你還要清楚怎樣正確地踏入機器學習的門。
多數有 AI 需求的公司,要求的是后端 +DevOps+AI+ 前端這樣的一體化崗位。這就需要你的全棧能力。
編寫,測試,部署,在生產中跟蹤模型、構建大規模數據是一個競爭力出眾的機器學習工程師必備的。
而這些能力的基礎要求,就是數學。
你當然不需要像搞科研那樣精通數學。但扎實的高數、概率論、統計學基礎必不可少。
對于有些培訓課程打出的所謂不要求任何基礎就上手 AI 的,Reddit 網友直接說:“沒有數學基礎和過往編程經驗的人,寫出的代碼是十分可怕的。”
大牛不僅僅止步于機器學習
當然,數學基礎再好,代碼寫得再漂亮,也只是一個優秀的機器學習工程師。
真正的大佬,是不會止步于此的。
一位現在在搞神經科學的網友給出了獨到的建議:
如果想做真正創新,有趣的工作,那么僅憑機器學習知識是不夠的。還需要其他專業知識。
在特定環境中,清楚需要用那種 ML 算法來結解決問題,并且能高效處理數據,這樣才能讓你做出行業內獨樹一幟的先進成果。
以上就是 Reddit 機器學習社區的“過來人”給大家的忠告。
參考鏈接&傳送門
Reddit 熱議貼
https://www.reddit.com/r/MachineLearning/comments/ifn7ua/d_what_are_the_untold_truths_of_being_a_machine/
Reddit 網友推薦:2021 年最有價值的 10 本機器學習書
https://www.machineelearning.com/top-10-machine-learning-books-in-2021/
總結
以上是生活随笔為你收集整理的「表面光鲜,实则搬砖」,机器学习社区自嘲不为人知的AI工程师真相的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Win7音量图标在哪
- 下一篇: win7系统中用户帐户图片怎样修改