OpenAI宣佈明天美國西部時間早上8點將開啓新的發佈直播,並稱請開發人員(以及那些想成爲開發人員的人)的人收看。

MiniMax Audio推出的Speech-02系列語音模型席捲全球,強勢登頂Artificial Analysis Speech Arena和Hugging Face TTS Arena兩大權威榜單,力壓ElevenLabs、OpenAI等國際頂尖競爭對手。這款模型以超高語音逼真度和多語言支持驚豔業界,成爲AI語音技術的全新標杆。AIbase綜合最新動態,深入解析Speech-02的技術亮點及其對行業的深遠影響。雙榜奪冠:客觀與主觀兼優Speech-02系列包括Speech-02-HD和Speech-02-Turbo兩款模型,分別針對高保真和實時應用場景優化。在Artificial Analysis Speech Arena的ELO評分中,Speech-02-HD以卓越的語音質量
在近日的一場人工智能活動上,OpenAI 首席執行官 Sam Altman 分享了關於 ChatGPT 未來發展的激動人心的願景。他提到,理想中的 ChatGPT 將能夠記錄用戶生活中的每一個瞬間,從而提供更個性化的服務。當被問及如何讓 ChatGPT 更加貼近用戶時,Altman 表示希望開發出一個小型推理模型,能夠整合人們的生活經歷與背景信息。他設想的這個模型,能夠包含用戶一生中的對話記錄、閱讀過的書籍、發送的郵件和瀏覽過的信息等。這種模型不僅僅是存儲信息,更重要的是能夠對這些信息進行高效的推理
埃隆・馬斯克創辦的人工智能初創公司 xAI 近期因其聊天機器人 Grok 在南非 “白人種族滅絕” 話題上產生爭議性迴應而備受關注。對此,xAI 正在努力解決此問題,並表示已接到指示採取行動。根據報道,Grok 的一些迴應不僅與該話題相關,還在回覆不相關查詢時主動提及,導致用戶的不滿和強烈反對。爲了解釋這一異常行爲,xAI 進行了內部調查,並於近日在社交媒體平臺 X 上發佈了最新進展。該公司表示,Grok 的系統提示符被未經授權的人員修改,這違反了公司的內部政策和核心價值觀。
騰訊正式發佈其最新的混元圖像2.0模型(Hunyuan Image2.0),標誌着 AI 圖像生成技術邁入 “毫秒級” 響應時代。新模型在速度上有了顯著提升,相比於前代產品,混元圖像2.0的參數量提高了一個數量級,結合了高效的圖像編解碼器和全新的擴散架構,能夠在同類商業產品通常需要5到10秒的推理速度下,實現毫秒級的快速響應。用戶在生成圖像時,可以一邊輸入文本或進行語音指令,一邊獲得實時圖像輸出,極大地改變了傳統的 “抽卡 - 等待 - 抽卡” 模式,提升了用戶的交互體驗。超寫實的
Hugging Face推出的SmolVLM多模態模型迎來重大突破:通過WebGPU技術,SmolVLM現可在瀏覽器中實現實時網絡攝像頭圖像識別,無需服務器支持,全部計算在用戶設備上完成。這一創新不僅提升了隱私保護,還極大降低了AI應用的部署門檻。AIbase綜合最新動態,深入解析SmolVLM的本地化實時演示及其對AI生態的影響。技術核心:WebGPU賦能本地化AI推理SmolVLM是一款超輕量多模態模型,參數規模從256M到500M,專爲邊緣設備優化。其最新演示利用WebGPU,一種現代瀏覽器GPU加速標準,讓模型直接在瀏覽器中運行圖