近日,谷歌Google AI發布了一個名為SANPO的發布數據集。這個多屬性視頻數據集包括真實世界數據和合成數據,視頻數據數據數據長月燼明支持各種密集預測任務。包含發布公告中指出,現實數據集將在未來用以幫助開發視覺導航系統,合成幫助視力受損者,谷歌并推動視覺場景理解領域的發布發展。
此次發布的視頻數據數據數據數據集SANPO包括真實數據(SANPO-Real)和合成數據(SANPO-Synthetic)。其中,包含真實數據集包含701個會話,現實使用兩個立體攝像機錄制,合成總計11.4小時的谷歌視頻。而合成數據集SANPO-Synthetic則包含使用虛擬化 Zed 攝像機記錄的發布 1961 個會話,所有會話都具有精確的視頻數據數據數據長月燼明相機姿勢軌跡、密集像素精確深度圖和時間一致的全景分割掩模以模擬真實場景。
“由于硬件、算法和人為錯誤,現實世界的數據具有不完美的真實數據標簽,但合成數據可以定制,可以提供近乎完美的‘真實數據’?!毖芯繄F隊在公告中介紹,SANPO-Synthetic是谷歌與合成數據生成公司Parallel Domain合作,創建的,將作為SANPO-Real的補充。
據介紹,與此前的重要視頻數據集如SCAND、MuSoHu、Ego4D、VIPSe等相比,SANPO具備同時擁有全景分割和深度圖、數據集內涵蓋真實數據和合成數據等優勢。
數據是數字經濟時代的“新石油”,人工智能技術商業化進程加速亦難離優質數據的驅動。在新一輪AI浪潮下,數據成為各類企業的“必爭之地”。
由于可能存在缺失、噪聲、重復等情況,從數據源收集而來的數據并不能直接用于大模型訓練,需要經過清洗、標注等工序后,生成可供大模型使用的數據集,再與算法、算力等結合,共同支撐起大模型的運轉。
國盛證券研報指出,高質量的數據集決定了AIGC質量與商業模式。數據集可以被視作是生成式人工智能的“糧食和血液”,國內外在發展這一領域上都做出了不少努力。
不久之前,谷歌的DeepMind團隊開放了一個名為Open X-Embodiment的大型共享數據集。據介紹,這是迄今為止最大的開源真實機器人數據集,通過匯集 60 個現有機器人數據集構建而成。它包含超過 100 萬條真實的機器人軌跡,涵蓋 22 個機器人實施例,展示了 527 項技能(160266 項任務),從單機器人手臂到雙手動機器人和四足機器人。
而國內多地都曾發布相關政策以求推動建立高質量數據集。上海市就于去年10月發布《上海市促進人工智能產業發展條例》,指出要推動人工智能領域高質量數據集建設。今年5月,《北京市促進通用人工智能創新發展的若干措施(2023-2025年)(征求意見稿)》指出,要提升高質量數據要素供給能力,歸集高質量基礎訓練數據集;深圳也在6月發布的《深圳市加快推動人工智能高質量發展高水平應用行動方案(2023—2024年)》提到要搭建全市公共數據開放運營平臺,建立多模態公共數據集,打造高質量中文語料數據等。
來源:21世紀經濟報道
作者:馮戀閣 李奕君