【AI 並非無所不能】解構 Machine Learning (機器學習)的限制與應用

隨著機器學習產品愈來愈多,目前有兩個機器學習的發展方向,一個透過增加機器學習本身容量,提高機器學習的預測能力;而一些則專注於特定的問題。至於機器學習目前有什麼能做到的與不能做到的地方呢,了解真相後,發現 AI 也不是無所不能啊!

機器學習能做到的:分析學習內容

機器學習是人工智慧的一個分支。用最簡單的說法來解釋「機器學習」,就是讓機器擁有學習能力,能夠建立自己的「智慧」,進而在真實世界中進行推論(預測)、分類或是分群等動作。近年人們開始想從大數據(Big Data)中找出商業智慧或是利用這些資產來建立智慧。

去年,機器學習的市場參與者專注於加速圍繞機器學習算法,以預測特定業務情況下的需求。例如,語音翻譯機器學習產品透過聆聽客戶來電,以便更快地幫助呼叫操作者表達適當的基於解決方案的內容。機器學習產品的第一個工作將是建立模型,了解客戶呼叫的內容:產品代碼,行業特定語言,品牌項目和其他可能的詞彙。

像MindMeld和MonkeyLearn這樣的產品建立了基於顧客的學習模型,因此所得到的機器學習算法具有更高的準確度,不需要用戶手動輸入整個業務特定數據到產品中才能使其工作。其他產品,如 Lingo24 ,針對銀行和 IT 行業創建了自己特定的機器學習引擎,使其機器學習翻譯服務於正確的情況使用正確的句子。

開發這些產品的人們認識到,即使是現成的機器學習產品,要令機器學習時抓到重點,仍然需要大量的定制和數據處理,才能讓機器學習工具在任何特定的業務變得有效。

而在今年第一季度,最新一代機器學習工具旨在加快機器學習和預測分析途徑的下一個瓶頸:加快數據科學數據建模的過程。

機器學習能做到的:數據建模的機器學習

數據建模階段通常需要數據科學家迭代多個數據模型,並對比以往的數據,以便識別最準確的預測模型。由於這個過程太慢,一個Reddit Q&A甚至提出了「如何利用等待機器學習模型測試完成這段時間」這個問題。

Skytree上個月發布了Skytree Infinity 15.1,旨在實現數據建模過程的自動化,同時也分析何時適合運行大型數據機器學習活動。

「在數據科學中,創建模型是一個反復的過程。」Skytree首席產品官Martin Hack表示:「你需要創建模型,運行它們,再將結果與歷史精確度進行比較,然後將最準確的投入生產。通常都會有三個步驟:訓練,調試和測試。我們所做的是把它們結合成一個。數據科學家可能是一個巨大的節省時間,並縮短了數據模型的上市時間。」

Skytree最新版本的新功能提供了一個自動建模工具。用戶設置其最佳參數,Skytree將進行所有的迭代數據建模,直到單個數據模型以最一致的精度出現。

該功能是與具有早期版本的軟件的現有客戶一起創建的。 Hack確認自動建模功能經過測試,包括欺詐檢測,確定和降低保險費率以及市場營銷應用程序,用於細分和評分客戶。

機器學習能做到的:知道何時運行數據模型

Skytree的新版本還包括一個旨在預測實際運行大規模機器學習數據模型實驗的計算資源成本的功能。

隨著數據模型利用不斷擴大的數據量,Hack認為,需要使用機器學習來了解建模過程的成本,這將有助於企業決定正確的收益在哪裡:「我們的模型管理工具記錄了一切:我做了哪些流程?在通過數據科學過程演變時,特定模型的表現如何?我們稱這種基本的模型質量,您絕對希望能夠看到數據模型應用程序正在使用的資源,一直到CPU的變化。」

Hack 亦補充說:「計算和數據科學可以攜手並進。最終你會看到一個模型視圖,哪個模型運行得最好,每個模型使用的資源多少。即使Hadoop本身也意識到它需要有更多的分配感知/資源感知系統。」

機器學習能做到的:了解服務內容

雲端應用交付服務Instart Logic最近發布了他們的最新產品,並指它是業界首款旨在加速網絡應用的機器學習產品。

他們的SmartSequence工具優化瞭如何在Web瀏覽器和移動設備中加載HTML和JavaScript代碼。 SmartSequence是一種算法,用於確定收集和分析要提供的所需代碼/內容以獲得最佳性能所需的最佳採樣數量。該方法亦容許資源的擴展,在流量增加時可以增加額外的硬件容量。

SmartSequence整理客戶Web應用程序使用情況的數據,然後開始了解如何提高性能。

為了創建機器學習工具,Blum利用了數據技術棧以及自己創建的工具:「我們使用了一些現有的解決方案,如R,MatLab,Hadoop和Hive,但是對於生產實現,我們最終構建了一些我們自己的技術圍繞這一點,由於具體的用例和事實,它是我們分佈式架構的核心部分。作為我們服務的一部分,我們確實將現有的開源技術應用到我們的解決方案中。」

Blum還表示,Instart Logic具有內置架構,可以最大限度地減少運行SmartSequence算法所需的計算資源。

該公司亦擁有云端客戶體系結構,負責測量和監控。例如,它可以了解最終用戶瀏覽器如何使用和執行代碼。它將這些信息轉發回服務的雲部分進行分析和學習。正在學習網站負載的一小部分。

在雲端,公司擁有一個基本上完整代理的分層系統,可以在服務和最終用戶的瀏覽器之間發送和接收數據,並且還可以與客戶的後端Web服務器基礎架構進行通信。那就是SmartSequence技術所在的地方。

計算層從最終用戶的瀏覽器接收配置文件信息,並進行所有的分析和學習。一旦SmartSequence出現了正確的代碼優化,它將其傳遞給完整的代理層,以便將來的請求可以從學習周圍的哪些代碼發送到前端,而只需要根據需求發送。

機器學習能做到的:預測問題

而基於雲端的分析服務Sumo Logic正在使用機器學習來預測問題:按順序識別網絡參與指標的潛在離群值以防止潛在的未來問題。

與去年採用的文字挖掘,語音識別或語言翻譯,不同,今年的機器學習產品更加精細地集中在更大的工作流程中作為組件工具。

Sumo Logic表示,他們的異常檢測和預測分析功能集中在從機器日誌和網站和移動應用程序的用戶行為上識別大量非結構式數據(unstructured data)中的模式異常。

Sumo Logic從模式識別開始:公司在非結構式數據中查找數據的異常情況,並試圖理解試圖異常的原因,將結果縮小,以便人們了解發生的情況。

迄今為止,機器學習的最大用戶是安全系統的管理員,他們需要檢測定期取得網站內容以創建競爭網站的IP地址。

下一頁我們來看看 Machine Learning (機器學習所不能做到的事)。

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *

限制時效已用盡。請重新載入驗證碼。