今年春節開始,全網開始流行跳“鐵山靠”的小貓咪。背後的技術是阿里巴巴通義實驗室發佈的AI動畫項目AnimateAnyone,只需一張靜態圖片結合骨骼動畫,即可生成人物動畫視頻。這款AI項目與其他有何不同?
相關推薦
阿里巴巴推出革命性語音識別模型FunAudio-ASR,降噪效果驚人
近日,阿里巴巴通義實驗室正式發佈了其最新的端到端語音識別大模型 ——FunAudio-ASR。這個模型的最大亮點在於它的創新 “Context 模塊”,讓高噪聲環境下的語音識別準確率得到了顯著提升,幻覺率從78.5% 大幅降低至10.7%,降幅近乎70%。這一技術突破爲語音識別行業樹立了新的標杆,尤其適用於嘈雜的場合,如會議、公共場所等。FunAudio-ASR 模型在訓練過程中使用了數千萬小時的音頻數據,並將大語言模型的語義理解能力融入其中,使其在遠場、嘈雜和多說話人等複雜條件下的表現,已經超
阿里通義萬相首尾幀生視頻模型Wan2.1-FLF2V-14B開源
阿里巴巴旗下的通義實驗室在Hugging Face和GitHub平臺正式開源了其最新的Wan2.1-FLF2V-14B首尾幀生視頻模型。這一模型以其支持高清視頻生成和靈活的首尾幀控制功能引發業界熱議,爲AI驅動的視頻創作提供了全新可能。Wan2.1-FLF2V-14B:首尾幀驅動的視頻生成新標杆Wan2.1-FLF2V-14B是阿里通義萬相系列的最新力作,基於數據驅動訓練和**DiT(Diffusion Transformer)**架構,專爲首尾幀視頻生成設計。據社交媒體平臺上的討論,該模型只需用戶提供兩張圖片作爲首幀和尾幀,即可生成一段長約5秒、720p分辨率的
阿里通義實驗室開源視覺文檔RAG系統ViDoRAG,準確率達79.4%
近日,阿里巴巴通義實驗室宣佈開源其最新研發成果——ViDoRAG,這是一款專爲視覺文檔理解設計的檢索增強生成(RAG)系統。ViDoRAG在GPT-4o模型上的測試顯示,其準確率達到了令人矚目的79.4%,相較傳統RAG系統提升了10%以上。這一突破標誌着視覺文檔處理領域邁出了重要一步,爲人工智能在複雜文檔理解上的應用提供了新的可能性。多智能體框架賦能視覺文檔理解ViDoRAG並非傳統的單一模型,而是採用了創新的多智能體框架設計。據介紹,該系統結合了動態迭代推理代理(Dynamic Iterative Reason
谷歌Gemini Live語音大升級!語速隨心調、口音任你選,ChatGPT語音模式遭遇最強挑戰
谷歌Gemini Live語音功能實現五大突破:實時語速調節、情緒化語氣、個性口音切換、無障礙優化及多模態整合,推動AI語音進入“擬人化2.0”時代。其超越基礎對話能力,模擬人類呼吸節奏,精準打擊ChatGPT語音模式,標誌着AI從“能聽會說”邁向“懂你所想”新階段。(140字)
百度崑崙芯片M100/M300發佈,五年戰略曝光:劍指“百萬卡集羣”
在2025世界大會上,百度執行副總裁沈抖發佈新一代崑崙芯片M100、M300及天池256、512超節點,並公佈未來五年產品戰略:每年推新品,強化高性能計算雲基礎設施,助力企業客戶。
