近日,阿里巴巴推出了一款名爲DS Assistant的AI數據科學助手,它能夠自動化地完成從數據探索到模型評估的全流程,讓數據科學工作變得更加簡單、高效。

DS Assistant基於Modelscope-Agent框架開發,這一框架由阿里巴巴開源,具有豐富的工具生態和靈活的模塊設計。DS Assistant的推出,標誌着即使是沒有深厚數據科學背景的用戶,也能夠輕鬆地處理複雜的數據科學問題。

image.png

DS Assistant的核心優勢在於其自動化的工作流程。用戶只需提供需求,DS Assistant便能夠自動執行探索性數據分析、數據預處理、特徵工程、模型訓練和評估等步驟。這一過程不僅提高了工作效率,也降低了數據科學工作的門檻。

Modelscope-Agent框架是DS Assistant背後的強大支撐,它具備以下特點:

支持接入各主流開源模型,如vllm、ollama等;

提供RAG組件,快速接入知識庫;

豐富的工具生態,支持Modelscope社區模型和langchain工具。

DS Assistant採用了新興的plan-and-execute框架,通過明確計劃和執行步驟,高效完成複雜任務。其工作流程包括任務計劃、子任務調度、任務執行和結果整合,大幅提高了任務執行的效率和可控性。

系統架構方面,DS Assistant由四個主要模塊組成:DS Assistant本身作爲系統大腦,負責整體調度;Plan模塊負責生成任務列表並進行拓撲排序;Execution模塊負責具體執行和保存結果;Memory management模塊記錄任務中間執行結果。

在實戰案例中,DS Assistant成功應用於Kaggle上的ICR - Identifying Age-Related Conditions比賽任務。通過自動化的數據處理和分析流程,DS Assistant不僅提高了任務執行的成功率,還爲用戶生成了詳細的處理過程記錄。

DS Assistant的效果通過ML-Benchmark進行了評估,從Normalized Performance Score (NPS)、總時間和總token數三個維度來看,DS Assistant在部分複雜數據科學任務上取得了超越開源SOTA的效果。

DS Assistant的應用價值在於:

對於不熟悉數據分析流程的用戶,DS Assistant提供了快速瞭解數據處理思路和技術點的途徑;

對於瞭解數據分析流程的用戶,DS Assistant提供了詳細的處理方法描述,方便進行實驗參照比較;

對於所有人,DS Assistant都能自動化地快速實現對當前文件的更深層次理解。

未來,DS Assistant將從提高任務執行成功率、支持對話交互式任務推進和支持批處理相同任務多批文件的場景三個方向進行優化,以進一步提升用戶體驗。

阿里巴巴的這一創新工具,不僅降低了數據科學領域的入門門檻,也爲數據科學家們提供了強大的自動化助手,預示着數據科學領域的新變革。

官方倉庫:https://github.com/modelscope/modelscope-agent/blob/master/examples/agents/data_science_assistant.ipynb

參考資料:https://blog.langchain.dev/planning-agents/