當別人在高談闊論機器學習時,你卻插不上嘴,這是一種怎樣的體驗?不懂機器學習沒有關系,但你一定要知道下面的十個機器學習基本常識。曾經在Endeca、谷歌和LinkedIn機器學習開發的Daniel Tunkelang爲我們概括總結了這十個常識。

每個人都應該知道的十個機器學習常識

1. 機器學習就是從數據中挖掘洞見,而人工智能是炒作。

只要使用了正確的訓練數據和算法,機器學習可以解決大部分問題。而所謂的人工智能,只不過是一種包裝。只要有助于營銷,你要把它叫作什麽都可以。

2. 數據和算法是機器學習的核心,而數據更爲重要。

雖然人們熱衷于研究機器學習算法,但數據才是機器學習的關鍵要素。機器學習可以沒有複雜完備的算法,但沒有高質量的數據就不行。

3. 如果你沒有大量數據,就不要使用太複雜的模型。

機器學習根據輸入參數來探索模型空間,參數越多,越有可能出現過擬合,所以應該要盡量遵循簡單模型的原則。

4. 機器學習的成果取決于數據的質量。

種瓜得瓜,種豆得豆。機器學習只能發現已經存在于數據中的模式。比如在解決分類問題時,就要求訓練數據具有清晰的特征。

5. 只有當訓練數據具有代表性時,機器學習才能奏效。

過去不能代表未來。要時刻警惕訓練數據和生産數據之間出現傾斜,經常性地訓練數據,避免數據模型過時。

6. 機器學習困難的部分其實是數據轉換。

機器學習的大肆炒作可能會給你造成一種印象,就是機器學習主要是如何選擇和調整算法。但實際上,機器學習工作的大部分時間花在了數據清理和特征工程上,也就是將數據的原始特征轉換成更具表示性的特征。

7. 深度學習是革命性的,但不是銀彈。

深度學習對部分傳統的特征工程進行了自動化,特別是在圖像和視頻處理領域。但深度學習不是銀彈,我們無法在它擅長的領域之外應用它,況且,我們仍然要花很多精力進行數據清理和轉換。

8. 機器學習系統也是高度脆弱的。

機器學習算法不會幹掉人類,幹掉人類的是人類自己。機器學習系統如果出現故障,通常都不是因爲機器學習算法本身,而是人類在訓練數據中引入了錯誤。要時刻警惕,軟件工程中出現的錯誤在機器學習系統中同樣會出現。

9. 機器學習可能在無意之中創造出可自我實現的預言。

今天通過機器學習做出的決策,將會影響未來收集到的訓練數據。如果你在機器學習系統中嵌入了某種偏見,它會持續不斷地生成新的訓練數據,這些數據反過來增強了這種偏見,而有些偏見會毀掉人類的生活。所以,不要讓機器學習系統有機會創造出可自我實現的預言。

10. 人工智能不會自我感知,也不會崛起到要幹掉人類。

很多吃瓜群衆從科幻電影中看到人工智能。但要注意,我們可以從科幻電影中獲得靈感,但它們畢竟不是現實,我們真正要擔心的是人類無意識地在機器學習系統中嵌入偏見。