文章ID:91時間:2025-04-18人氣:
用微信掃碼二維碼

分享至好友和朋友圈
出品 | 網易科技《態度》欄目
當全球AI競賽聚焦于千億參數堆砌與算力軍備戰時,卻以“技術平權”的姿態撕開了行業裂縫。
其推出的DeepSeek-R1模型不僅將企業級市場的深度推理能力直接賦予C端用戶,更將行業長期信奉的“預訓練霸權”推向瓦解邊緣。
然而在技術祛魅的浪潮下,一些爭議也隨之涌現:當DeepSeek-R1-Zero通過強化學習自主生產數據,傳統數據標注行業是否面臨消亡?高調推出的grok 3在數學推理測試中“翻車”,是否暴露了AI評測體系的深層缺陷?······
帶著這些疑問,網易科技《Future Talk》邀請到了兩位專家一起探討,他們分別是星塵數據CEO章磊、天云數據CEO。(注:由于部分原因,星塵數據產品負責人張毅倜代CEO章磊參與直播討論)
星塵數據成立于2017年,是國內首家專注于AI數據自動處理技術的標桿企業。公司以技術創新為核心驅動,自主研發全球首款AI數據全生命周期引擎MorningStar,覆蓋數據采集、標注到模型迭代的全鏈路管理,顯著提升企業數據生產效率50%以上,助力解決“數據債”難題。(類似于軟件開發過程中的“技術債”,“數據債”是指在機器學習的各個環節中,由于低估了數據的重要性,在推進項目的過程中忽視了數據質量的把控,從而欠下的各種“債務”。)
而天云數據是一家國有參股企業,首批國家級專精特新小巨人企業,北京市科學技術獎廠商。是國內能夠同時提供數據基礎設施和數字原生全產業服務鏈的數據科學公司。秉承“數據+智能”的理念致力于大數據(AI-Native 數據庫)和人工智能軟件的研發與創新,賦能產業數智化轉型。在數據供給側和數據消費側均獲得多項權威認可。
DeepSeek攪局者還是革命者?
天云數據CEO雷濤認為,DeepSeek實現了大模型的祛魅,開啟了中美后訓練時代的大門。
在他看來,曾經被廣泛依賴的技術大模型預訓練模式,如今已不再是唯一的 “金科玉律”。進入后訓練階段,模型更多地承擔起將通用世界知識向領域知識轉化的重任。以DeepSeek-R1系列為例,它以強化學習為主導,并將長思維鏈CoT(Chain of Thought)這一原本為等模型廠商的閉源recipe直接開放給community。這一舉措,在模型交付層面,將國產和北美大廠的模型推理能力差距瞬間拉平,無疑是對傳統市場格局的一次大膽挑戰。
星塵數據產品負責人張毅倜進一步補充道:“DeepSeek將數據從量的問題轉化成一個質的問題,將會對數據行業產生重大影響。"
他分析稱,以往行業多聚焦于傳統的Ground Truth單模態數據訓練,而DeepSeek的出現,將徹底改變未來數據生產方式。今后,我們完全可以借助強化學習生成的模型,實現數據增強。這一轉變,將使整個數據行業從低附加值領域,邁向技術附加值高的新臺階。(Ground Truth即用于訓練、驗證和測試AI模型的經過驗證的真實數據。)數據枯竭之爭:真相與出路
隨著AI模型朝著高質量方向迅猛發展,不少人斷言當下數據已陷入 “枯竭” 困境。對此,張毅倜認為這是一個偽概念。
他解釋說,當前所謂枯竭的數據,主要集中在互聯網圖文類數據。而實際上,大量數據正以多模態或非結構化形式,隱匿于人類日常生活的各個角落。
“我們目前看到的數據,僅僅是冰山一角。”張毅倜補充道。那么,如何將這些未被充分挖掘的數據轉化為高質量數據呢?張毅倜給出了幾種途徑:其一,由專業團隊人工手動生成,這類數據堪稱高質量的專家數據;其二,受DeepSeek-R1-Zero啟發,通過大規模強化學習訓練模型,進而利用該模型生產數據;其三,借助專業的AI數據平臺如MorningStar進行訓練,在訓練過程中挖掘出高質量數據。
雷濤則從另一角度解讀數據質量問題,他認為數據質量的高低并非由主觀認知簡單判定,而是取決于所采用的AI算法。他表示,如今已有大量數據由AI生成,但這并不意味著這些數據就是 “假數據”。
“所謂高質量與低質量數據,其評價標準與方式,歸根結底在于AI算法。” 雷濤進一步闡釋,“這就是當下熱議的數據概念。AI模型使用的數據由其自身生成,數據飛輪正是構建模型持續迭代生長的關鍵方法。”
Grok 3:技術秀肌肉還是戰略拼圖?
在談及Grok 3時,張毅倜認為它不過是馬斯克AI體系中的一次技術溢出。
他指出,畢竟在馬斯克的宏大戰略版圖中,AI占據著核心地位,宛如大腦之于人體。“Grok 3更多是馬斯克在各個領域展示技術實力的一種體現。他真正的目標,是將機器人、火箭、地下隧道以及特斯拉等現實世界業務與虛擬世界緊密打通,這或許也是他構建AI超算中心的最大初衷。”張毅倜進一步分析道。對于馬斯克宣稱其模型在數學推理方面優于國內模型,卻在 “9.9與9.11哪個大” 這類簡單問題上 “翻車” 的現象,張毅倜指出,目前所有模型評測大多基于開源數據集,而這些Benchmark最早由北美主導制定,在計算層面重視程度相對不足。此外,國外通常會制定兩套Benchmark,一套面向普惠大眾,一套用于推理測試。而推理模型的Benchmark在邏輯上,其實是在其自行公布的數據集測試中超越了OpenAI o1系列大模型。
雷濤則表示,不能僅依據幾個Benchmark,便在傳統認知賽道中評判模型優劣。我們更應關注多模型之間的通用性。為實現端到端的訓練合成數據,如何運用AI手段進行數據生產,已然成為行業發展的必備邏輯。
行業走向:“通用模型+專業服務”還是“行業模型主導”?
雷濤認為,行業內存在大量個性化數據,許多行業知識無法單純依靠transformer的排列組合進行推理。
DeepSeek的架構為我們帶來啟示,我們可以將行業深層領域的知識,通過驗證激勵機制融入強化學習,從而在大模型層面,而非傳統機器學習層面,更有效地獲取行業科學知識體系。
他表示:“領域知識的探索之路還很漫長,絕非簡單的微調、過濾與蒸餾所能涵蓋。”
張毅倜則認為行業模型的概念是模糊的,它沒有一個明確的邊界,很難去定義。
他表示,未來的模型由Personal Language Model和Lagre Language Model來劃分。
(Personal Language Model是大模型結合私有化知識構建出的私有化小模型。)而在實際業務場景應用中,專業模型才是未來趨勢的主導。
(當Personal Language Model的訓練模式用于企業私有化模型的生產,誕生的模型就是專業模型。)“一個企業往往需要多個專業模型,這些專業模型協同合作,組成一個‘專家團’,將極大提升企業生產效率,”張毅倜總結道。網易科技態度見聞 2025-04-17 21:10:00
林丑丑的慢生快活 2025-04-15 23:24:04
DeepSeek攪局者還是革命者?
天云數據CEO雷濤認為,DeepSeek實現了大模型的祛魅,開啟了中美后訓練時代的大門。
星塵數據產品負責人張毅倜進一步補充道:“DeepSeek將數據從量的問題轉化成一個質的問題,將會對數據行業產生重大影響。"
數據枯竭之爭:真相與出路
他解釋說,當前所謂枯竭的數據,主要集中在互聯網圖文類數據。而實際上,大量數據正以多模態或非結構化形式,隱匿于人類日常生活的各個角落。
“所謂高質量與低質量數據,其評價標準與方式,歸根結底在于AI算法。” 雷濤進一步闡釋,“這就是當下熱議的數據概念。AI模型使用的數據由其自身生成,數據飛輪正是構建模型持續迭代生長的關鍵方法。”
Grok 3:技術秀肌肉還是戰略拼圖?
在談及Grok 3時,張毅倜認為它不過是馬斯克AI體系中的一次技術溢出。
雷濤則表示,不能僅依據幾個Benchmark,便在傳統認知賽道中評判模型優劣。我們更應關注多模型之間的通用性。為實現端到端的訓練合成數據,如何運用AI手段進行數據生產,已然成為行業發展的必備邏輯。
行業走向:“通用模型+專業服務”還是“行業模型主導”?
DeepSeek的架構為我們帶來啟示,我們可以將行業深層領域的知識,通過驗證激勵機制融入強化學習,從而在大模型層面,而非傳統機器學習層面,更有效地獲取行業科學知識體系。
他表示,未來的模型由Personal Language Model和Lagre Language Model來劃分。
而在實際業務場景應用中,專業模型才是未來趨勢的主導。
內容聲明:1、本站收錄的內容來源于大數據收集,版權歸原網站所有!
2、本站收錄的內容若侵害到您的利益,請聯系我們進行刪除處理!
3、本站不接受違規信息,如您發現違規內容,請聯系我們進行清除處理!
4、本文地址:http://www.lianouzz.com/zuixinwz/91.html,復制請保留版權鏈接!
中移動原董事長王建宙:5G建設初期難在哪?,王建宙,運營商,中國移動,5g手機,中國電信,中國聯通
互聯網資訊 2025-04-18 20:20:29
江億院士:建立新型電力系統建設是實現“雙碳”的關鍵,儲能,光伏,充電樁,風電,電力
互聯網資訊 2025-04-18 20:20:09
智見丨對話梅宏院士:數字化轉型不是想不想,而是必須轉,院士,機器人,互聯網,梅宏
互聯網資訊 2025-04-18 20:19:58
智見丨清華大學丁津泰教授:抵御量子計算威脅從抗量子密碼開始,丁津泰,量子計算,量子計算機,密碼學,教授,公鑰
互聯網資訊 2025-04-18 20:19:57
智見丨專訪周鴻祎:頭部公司才做大模型大部分人得專注場景,周鴻祎,人工智能,微軟,大數據,史蒂夫·喬布斯,深度學習
互聯網資訊 2025-04-18 20:19:49
又一富豪上太空世界首富貝索斯圓了5歲的夢想,貝索斯,宇航員,布蘭森,謝潑德,馬斯克
互聯網資訊 2025-04-18 20:19:16
神舟十四一飛沖天!中國航天,還有多少“神秘”任務?,神舟,載人飛船,貨運飛船,航天員,航天
互聯網資訊 2025-04-18 20:18:58
榮耀Magic5系列上手體驗:頂級影像表現征服我的卻不止這一點,magic,手機,長焦,相機
互聯網資訊 2025-04-18 20:12:36
華為MateX3輕體驗:老余兌現了「折疊屏比直板機輕薄」承諾,華為mate,直板機,手機,智能手機,華為
互聯網資訊 2025-04-18 20:12:26
千元檔iQOOZ7真機賞析:內置5000mAh電池,還有120W快充,電池,手機,mah,iqoo,長續航,像素
互聯網資訊 2025-04-18 20:12:20
iQOONeo8Pro體驗:天璣9200+芯片加持,帶來越級游戲體驗,芯片,天璣,neo,iqoo
互聯網資訊 2025-04-18 20:12:10
iQOO11S體驗:性能表現強悍,標準版也能有Pro級實力,iqoo,電競,游戲,手游,亞運會,iqoo11s
互聯網資訊 2025-04-18 20:08:19
榮耀MagicV2拍照體驗:折疊屏也可以成為影像旗艦,手機,magic,像素,變焦,樣張
互聯網資訊 2025-04-18 20:07:54
榮耀GT評測:全性能旗艦來襲,帶給年輕人的誠意之作,手機,智能手機,游戲,操控
互聯網資訊 2025-04-18 20:05:13
何祚庥院士:楊振寧和翁帆是段千載難逢的良緣,可遇不可求,何祚庥,楊振寧,翁帆,院士,物理學家
最新資訊 2025-04-18 20:02:18
21萬一輛,2026年量產,馬斯克“載入史冊”的無人出租車被waymo創始人潑冷水,馬斯克,特斯拉,自動駕駛,出租車,自動駕駛技術,萊萬多夫斯基
最新資訊 2025-04-18 20:00:33
對話投資人硅谷李師傅:DeepSeek的出現是另一起斯普特尼克事件,斯普特尼克,硅谷,馬斯克,朱嘯虎,徐勇,deepseek
最新資訊 2025-04-18 19:58:35
DeepSeek之后,階躍星辰要用生態突圍,deepseek,階躍,模態,智能體
最新資訊 2025-04-18 19:58:19
英偉達最新財報回擊“DeepSeek焦慮”|態度,英偉達,deepseek,態度,黃仁勛,財季,芯片
最新資訊 2025-04-18 19:58:13
獨家專訪魔法原子總裁吳長征:2025具身智能生死年,吳長征,機器人,原子,人形,本體,靈巧手
最新資訊 2025-04-18 19:58:07
李斌回應“好人論”:過去十年,我讓二十多個VP走人了,李斌,蔚來,秦力洪,特斯拉,賣車,智能駕駛
最新資訊 2025-04-18 19:57:39
對話七維科技CEO殷元江:AI加速XR虛擬制作周期,殷元江,機器人,英偉達,xr
最新資訊 2025-04-18 19:57:22
連夜包機!蘋果急運600噸印度產iPhone回美,工廠周日加班生產,iphone,蘋果,apple,富士康,工廠,特朗普
最新資訊 2025-04-18 19:56:07
OpenAI推"降速換降價"新服務!模型使用費直接腰斬,openai,人工智能,谷歌,人工智能公司,token
最新資訊 2025-04-18 19:55:50
一個App輕松管理多個郵箱!鴻蒙版QQ郵箱已支持三方郵箱登錄,qq,app,gmail,云盤
最新資訊 2025-04-18 19:53:42
日均調用量106倍狂飆豆包搶灘“Agent生態卡位戰”,調用量,算法,文生,豆包,agent,卡位戰
最新資訊 2025-04-18 19:53:38