今年春節開始,全網開始流行跳“鐵山靠”的小貓咪。背後的技術是阿里巴巴通義實驗室發佈的AI動畫項目AnimateAnyone,只需一張靜態圖片結合骨骼動畫,即可生成人物動畫視頻。這款AI項目與其他有何不同?
相關推薦
阿里巴巴通義實驗室推出 MAI-UI:超越同行的基礎 GUI 智能代理家族
阿里巴巴通義實驗室發佈MAI-UI多模態GUI智能代理家族,整合人機交互、工具使用與雲端協作,在通用及移動GUI導航方面表現領先,超越多個同行模型。該系統基於Qwen3VL構建,提供多種規模模型,支持自然語言指令處理。
阿里巴巴開源 Z-Image 圖像模型:支持中英雙語文字渲染
阿里巴巴開源Z-Image圖像生成模型,僅6B參數實現高效生成與編輯,視覺質量接近20B級別商業模型。該模型採用單流DiT架構,生成速度快、資源佔用低,有望推動AI圖像工具普及消費級應用。
阿里巴巴推出革命性語音識別模型FunAudio-ASR,降噪效果驚人
近日,阿里巴巴通義實驗室正式發佈了其最新的端到端語音識別大模型 ——FunAudio-ASR。這個模型的最大亮點在於它的創新 “Context 模塊”,讓高噪聲環境下的語音識別準確率得到了顯著提升,幻覺率從78.5% 大幅降低至10.7%,降幅近乎70%。這一技術突破爲語音識別行業樹立了新的標杆,尤其適用於嘈雜的場合,如會議、公共場所等。FunAudio-ASR 模型在訓練過程中使用了數千萬小時的音頻數據,並將大語言模型的語義理解能力融入其中,使其在遠場、嘈雜和多說話人等複雜條件下的表現,已經超
阿里通義萬相首尾幀生視頻模型Wan2.1-FLF2V-14B開源
阿里巴巴旗下的通義實驗室在Hugging Face和GitHub平臺正式開源了其最新的Wan2.1-FLF2V-14B首尾幀生視頻模型。這一模型以其支持高清視頻生成和靈活的首尾幀控制功能引發業界熱議,爲AI驅動的視頻創作提供了全新可能。Wan2.1-FLF2V-14B:首尾幀驅動的視頻生成新標杆Wan2.1-FLF2V-14B是阿里通義萬相系列的最新力作,基於數據驅動訓練和**DiT(Diffusion Transformer)**架構,專爲首尾幀視頻生成設計。據社交媒體平臺上的討論,該模型只需用戶提供兩張圖片作爲首幀和尾幀,即可生成一段長約5秒、720p分辨率的
阿里通義實驗室開源視覺文檔RAG系統ViDoRAG,準確率達79.4%
近日,阿里巴巴通義實驗室宣佈開源其最新研發成果——ViDoRAG,這是一款專爲視覺文檔理解設計的檢索增強生成(RAG)系統。ViDoRAG在GPT-4o模型上的測試顯示,其準確率達到了令人矚目的79.4%,相較傳統RAG系統提升了10%以上。這一突破標誌着視覺文檔處理領域邁出了重要一步,爲人工智能在複雜文檔理解上的應用提供了新的可能性。多智能體框架賦能視覺文檔理解ViDoRAG並非傳統的單一模型,而是採用了創新的多智能體框架設計。據介紹,該系統結合了動態迭代推理代理(Dynamic Iterative Reason
