俄羅斯搜索巨頭Yandex開源了Gradient boosting機器學習庫CatBoost,它能夠在數據稀疏的情況下教機器學習。即使沒有像視頻、文本、圖像這類的感官型數據,CatBoost也能根據事務型數據或歷史數據進行操作。開源CatBoost只是Yandex新戰略的一個開頭。
Yandex是目前世界第五大搜索引擎
兩次亮相
Yandex昨天的登臺方式可不只一種。
首先,Yandex宣布,將用自研的新服務框架CatBoost替代原來的機器學習算法MartriNet。自2009年被研發出后,MartriNet一直被Yandex應用在多種任務處理上,比如排名、天氣預報、出租車服務以及推薦任務上。現在,這些工作將逐漸被CatBoost取代,于未來幾個月持續進行。
之后,Yandex宣布將免費提供CatBoost,任何想應用這項技術的人均可在Apache許可證下應用。“CatBoost是Yandex多年研究的尖端成果,”Yandex機器智能研究的主管Misha Bilenko在接受采訪時表示,“我們曾用過很多開源的機器學習工具,是時候向社會作出回饋了。”
成為“中心”
Bilenko補充說,還沒有計劃要將CatBoost商業化,或以其他任何專利的方式將其關閉。“這和競爭對手無關,”他說,“我們會很高興看到競爭對手使用它。”
近幾年,隨著Yandex實力增強,它一直在尋找提升它在俄語世界外的國際影響力。開源這項行為,不僅強調了Yandex對開源社區的承諾,還展示了Yandex想成為世界“中心”的雄心,無論作為大型科技公司還是更大的開發者社區。
CatBoost的三重奏
Bilenko說Yandex開源CatBoost是受到了兩方面啟示——一是谷歌在2015年開源TensorFlow,二是Linux的建立與成長。正如谷歌持續發展并升級TensorFlow一樣,CatBoost的第一版將繼續更新并將持續迭代。目前,這一版本主要有三種特性:
減少過擬合:它可以幫你在訓練項目中得到更好結果。這是“基于一種專有算法來構造不同于標準Gradient boosting方案的模型”。
支持類別特征:將改進你的訓練結果,同時允許使用非數字的因素,“而不是必須預先處理數據,或者花費時間和精力將數據轉換為數字。”
用戶友好的API界面:它還使用了一個API接口,允許從指令行或通過API讓Python或R語言使用CatBoost,包括公式分析和培訓可視化工具。
調適量少
雖然有大量其他數據庫幫助增加梯度或用其他解決方案幫助訓練機器學習系統,但Bilenko認為CatBoost相較其他框架的優點是測試精準度高。
“很多惡劣的機器學習代碼需要大量調試,”Bilenko說,“CatBoost只需少量調試,并且性能良好。這是最重要的一個區別。”
最后,附CatBoost開源代碼區地址:https://catboost.yandex/祝你玩得愉快~