1》Algorithm演算法由AI模型透過資料 自己找出 2〉降低特徵項目( 維度) Train+Test = 訓練+測試 1》選定[特徵]欄位 2>建立訓練資料(*.cvs), 3》產生AI model 4》建立測試資料(TEST) 5〉將測試資料送入AI model驗證 AI模型訓練,如何選出正確的演算法和資料特 徵? 文/ 若水Flow AI Blog 編輯團隊 【若水導讀】選擇AI數據與算法,三個提醒: 1. 選擇特徵,看見數據裡的「見樹不見林」 2. 掌握4個考量,選擇適合的AI算法 3. 建立企業的AI工具箱(Tool Box) 《2021 AI數據處理實戰攻略》系列文,若水邀請到前趨勢科技(Trend Micro)資深技術經理張佳彥,分享多年來每天管理人工智能團隊、AI項目的落地實戰經驗。 AI業界,流傳著一句話︰「 AI的數據和特徵 ,決定了機器學習(Machine Learning) 的上限。而AI模型和算法,只是逼近這個上限而已」, 可見 AI數據的特徵,對機器學習有相當大的影響 。 AI人工智慧的開始,該怎麼選AI數據特徵和算法? 有了數據和模型,AI人工智能要學什麼特徵? 在討論怎麼選擇特徵之前,可能有人會想,既然找特徵這麼費工,為什麼不全部採用深度學習(Deep Learning) 就好了? 深度學習(Deep Learning) 讓AI自行透過數據去學習和預測,不用選特徵,乍看之下好像比較輕鬆。 但其實,深度學習並不好訓練,再加上有太多複雜因素需要考慮 ,所以除非你的商業問題,已經被證實比較適合用深度學習來解決,否則不建議一開始就從深度學習入手。 過往在找AI數據特徵時,工程師通常會先從專家經驗(Expert Rule)著手 ,用人類的知識為該領域的數據抓出特徵 。 只不過專家經驗並非萬能,侷限在於,人類的認知可能過於主觀「見樹不見林」,或是 選出的特徵覆蓋率低,有時候100筆AI數據裡面,專家所抓出的特徵,可能只命中其中一筆而已 。 此時,如果能綜觀來看數據,從中取出一些具代表性的特徵,有助於改善特徵不夠精確的情況。 要取出代表性的特徵,可以用統計學的方式,也可以用深度學習的方式來解。 因為統計學本身就是一種從大數據(Big Data) 中抽樣,取出可以代表整體特徵的一種概念...