[汽車之家 資訊] 12月27日,理想汽車連續三天推出“2024理想 AI Talk”,分享了對人工智能的最新思考,以及包含智能駕駛和理想同學在內的人工智能技術的最新進展。李想宣布基于自研基座大模型Mind GPT的理想同學從車機進入手機,App已于12月27日全量上線。此外,理想汽車宣布OTA 7.0版本車機系統將于12月底全量推送AD Max用戶,新增AI推理可視化、高速端到端等功能,并實現Mind GPT-3o、Mind Diffusion V2.0的能力升級。
為期三天的直播當中,李想宣布了理想將轉型成為人工智能企業,具體信息可點擊鏈接查看。在第二天的直播當中,李想和智駕負責人郎咸朋在直播中講解了理想汽車在智駕方面的發展動向。按照理想現在的端到端+VLM體系繼續迭代,有望在2025年實現L3級自動駕駛,具體信息可點擊鏈接查看。
● 理想同學和智能駕駛是理想汽車的兩大核心AI產品
理想汽車董事長兼CEO李想表示:“我們在做的理想同學和自動駕駛,通常被視作獨立的領域。我們的大語言模型Mind GPT是認知智能,連接數字世界;而自動駕駛被稱為空間智能,關乎物理世界。我們同時在這兩個領域探索,并堅信認知智能與空間智能的結合——我們稱之為VLA(Vision Language Action Model,視覺語言行動模型)——是一個更值得相信和追求的機遇。”
● L3有監督智能駕駛,不是L2輔助駕駛的延續,而是L4自動駕駛的先導
在自動駕駛的不同階段,L3為有監督智能駕駛,不是L2輔助駕駛的延續,而是L4高度自動駕駛的先導程序。輔助駕駛只實現了特定功能,自動駕駛則關乎整體能力。傳統的L2輔助駕駛依賴上一代自動駕駛方案,通過預設條件來執行不同場景下的智駕功能,無法窮盡所有的corner case(極端情況)。理想汽車借鑒人類駕駛技能提升的過程,用人工智能的方式做自動駕駛,推出了端到端+VLM的雙系統解決方案,利用Scaling Law(規模效應)不斷迭代和提升自駕能力,以適應所有可能的駕駛環境。
隨著端到端+VLM雙系統的不斷迭代,理想汽車希望在2025年實現L3有監督智能駕駛,并為用戶提供一個全場景、一體化端到端的產品。截至12月25日,理想汽車智駕總里程已達29億公里,訓練算力提升至8.1EFLOPS。
● 電動車不是李想創業的終點
李想認為汽車企業發展的這么多年,可能跟傳統汽車廠的競爭結束了,你會發現又有很多外來者。開始大家看到的是新勢力、特斯拉跟傳統汽車的競爭,后來華為進來了,小米進來了,競爭又發生了新的變化,我覺得這是這個世界的精彩和豐富之處。
● 怎么看待小米汽車做出來了,有給過雷軍什么建議?
李想:我說“你必須All in”,只要做到這一點,小米汽車就會成功。雷軍做硬件的能力非常強,這個沒什么可質疑的,他不只是做車做好了,他的電視機、空調做得也非常好,這是他本身就有的優勢,而且他帶著那種發燒友的心態去做。我們跟小米關系也不錯,包括理想MEGA(參數|詢價)以后理想L6又很艱難,雷軍來幫我們站臺,我們都非常感激,幫了我們非常非常多。(文/汽車之家 姚宇)
直播問答全文如下:
01.到Agent階段,才是真正的“iPhone 4時刻”
張小珺:你第一次用ChatGPT是什么時候,當時是什么感受?
李想:發布的時候就用了,當時一個最大的感覺就是,人工智能應該有的樣子。
張小珺:如果讓你做OpenAl的CEO,你會比Sam做得更好嗎?
李想:不會,我覺得Sam Altman他們做得非常成功。
張小珺:如果現在讓你做OpenAI的CEO,你會做什么?
李想:今天還是OpenAl定義的AGI(通用人工智能)第一個階段:聊天機器人,我覺得OpenAl完全按照這個定義做了最好的產品體驗。第二個階段是推理者,到第三個階段Agent(智能體)的時候,才是真正的“iPhone 4時刻”,普通老百姓都能用了,它能獨立地、持續地、連續地完成任務,而不需要靠密集的提示詞。但這時候產品應該是個什么交互,對于所有的這些頭部企業,都是應該要認真去思考的。
02.讓人和Al之間的交互,像人與人交互一樣自然
張小珺:為什么一個車企要自研大模型?這個決策是怎么做出的?
陳偉:這個事情也是逐漸達成共識的,我們當時已經把線上的關于自然語言處理的技術,切換到了預訓練的模式下,任務型對話能夠在車里面,做車控、媒體、導航這樣非常多垂域的覆蓋,上面用預訓練的模式能夠快速高效地、高質量地完成這樣的能力。
2022年年底,ChatGPT發布了,我們看到了大模型帶來的認知智能和語言智能上突飛猛進的變化,這件事情對我們來說是有非常大震撼的。我們內部也在想,為什么我們沒有快速地考慮把這個模型架做得那么高那么大。
后來想哥就提了一個話題,他說現在我們應該回歸用戶體驗,核心的問題在認知智能上面。那么認知智能這件事,我們就需要考慮怎么把技術做升維,能夠用更厲害、更先進的技術,把理想同學的認知快速拉上來,把天花板拉高。這件事對于我們后面去做基座模型,我覺得是指引性的狀態。
所以我們必須要從基座,從底層開始建設,這樣未來我們在做更多技術創新的時候,產品和研發才能有更快速的迭代,體驗才能持續地去做創新,而不是只做行業的一個平均水平。
張小珺:作為一個后來者,你們準備怎么追趕ChatGPT?
陳偉:我覺得OpenAl現在是整個行業的標桿,除了目前OpenAl宣稱進入L2(推理者)以外,絕大部分的團隊現在還停留在L1(聊天機器人)這個階段。在這樣的一個狀態下,技術處于早期,而我們在做一個無限游戲。探索邊界還不清晰的情況下,我們最重要的事情就是把握住目前的第一性原理Scaling Law(規模效應)。
我們的迭代也非常快,去年年底12月OTA 5.0之后一直到現在,Mind GPT 云端的大模型已經迭代了30多次。
張小珺:Mind GPT 是怎么迭代的?
陳偉:Mind GPT 到現在為止一共經歷了三代。
2023年4月,Mind GPT 1.0的第一版模型出來,到2023年年底的時候,我們車機的OTA 5.0發布了這個大模型的上車,是行業第一家把大模型推動上車的公司,也是(汽車行業)首家通過國家大模型備案的。2023年年底上車的時候,其實已經經歷了第六個版本。
今年年中,我們完成了 Mind GPT 2.0的變化,對于我們算法團隊來說,除了關注模型效果的提升以外,還要關注整個訓練效率和推理效率。Mind GPT 未來的模型架構,肯定會是一個MoE(混合專家模型)加Transformer的結構,會持續往前迭代,我們在MoE模型上線的時候,相較于 Mind GPT 1.0大概翻了一倍,但是推理成本跟 Mind GPT 1.0基本保持一致。這樣在效果和效率上,就達到了一個我認為是雙贏的局面。Mind GPT 2.0的重點在語言的理解和知識上,另外一塊是在長上下文上有了比較大的突破,也就是在邏輯推理能力上做了進一步的強化。
今年年底,我們會上線 Mind GPT 3.0,這是我們的第三代的 Mind GPT 的能力。Mind GPT 3.0相較于前面兩代的核心不同在于,以前我們的重點放在了語言模型上,但是我們認為未來的在人機交互的過程中,它應該是一個多模態的端到端的大模型,應該融合了整個人機交互的體系里,像語音、視覺、語言這樣的模態進去,能夠理解不同的模態,然后能夠在一個模型內完成從感知到認知再到表達的完整能力。這樣的好處就是它能夠讓人機交互的延遲,從以前的比如說幾秒鐘變成可能500毫秒以內,這樣人和機器、人和Al之間的交互,就能像人與人交互一樣這么自然。
張小珺:這是多大規模的數據量?
陳偉:我們現在的預訓練數據規模量已經到10萬億Token的規模了,有了高質量的課本知識以外,我們還需要給大模型提供一個由簡單到復雜、由粗到精的一個過程,讓它逐漸地一步一步去學習。所以我們在預訓練后訓練階段,也要構建一套分段學習的邏輯,同時在數據的構建上,我們要考慮怎么能給它建立一套好的學習邏輯,所以現在重要的就是要盡快地把強化學習后訓練的事情做好。
張小珺:你們有一些特色化的數據嗎?
陳偉:第一個是多模態的數據,有自動駕駛的,也有理想同學的對話模態,這些數據是獨有的。第二個是用戶在產品里自己使用的數據,代表了你的場景或產品本身場景的一些特性,這也是自己獨有的,所以我們也在構建自己的數據飛輪,爭取能夠把這些數據的能力進一步發揮出來。
03.不做人工智能,我們就什么都不是
張小珺:理想同學跨越到L3(智能體)的點會是什么?
陳偉:對于邏輯推理來說,更重要的是做好子任務分解以后,還要讓它針對自己的思考方式去做更多的發散性思考,在每一個思考路徑上做出自己的反思,做到自我糾錯。甚至忽然間碰到死胡同的時候還能回溯回來,所以我覺得這是一個非常強的思考能力。
我們的重心是希望能夠實現從L1 ChatBot(聊天機器人)到L2(推理者)的變化。我們定義L1有兩個核心的特點,第一個是能夠實現多模態,因為人就是能聽會看的,所以我們認為語音和視覺加入到大模型是非常關鍵的。第二個是指令遵循的能力,能夠聽得懂人在跟它講什么,再復雜的命令也能聽得懂,并且能夠比較準確地執行。
所以支撐理想同學的技術,就是 Mind GPT 的多模態智能體的技術,理想同學走到L3的時候,Mind GPT 應該長成的樣子,就是一個多模態智能體。
張小珺:現在大家都覺得預訓練的Scaling Law(規模效應)達到了天花板,這對于中國團隊的影響是什么?
陳偉:如果我們想做好后訓練,我們依然需要有個好的基座模型,因此我們依然需要去具有自己的預訓練的Scaling Law(規模效應)。
這件事情短期內會出現,會傳出來有些公司在模型做得更大以后,效果可能沒有想象中的明顯,但我認為這個可能還是一個從AI的算法到Al的infra之間,目前的有些要待攻克的問題。
第二個點我覺得Scaling Law(規模效應)本身在解決的問題是模型的效果和數據和模型規模之問的關系。我們越來越覺得數據不只是規模的,需要有高質量的數據才能把規模做上去,才真正有價值。
所以這個過程中可能大家對于Scaling Law(規模效應)的看法也會有一個粗到精的過程,理解才能更深刻,但是我認為這個肯定會是大模型時代的第一性原理。
張小珺:第一次聽李想說他要做一個人工智能企業的時候,你在想什么?
陳偉:大家有一個充分的共識,AI技術是未來最大的機會。
我們內部做了非常長時間的關于AI戰略的討論,最后做決策主要基于幾點,對于用戶的理解,對于行業發展趨勢的判斷,對于市場,對于競爭,還有對于自身的分析。所以當我聽到這個消息的時候,我覺得是一個自然而然也必將發生的事情。
而且想哥是非常堅決的,他說,如果我們要是在未來不做人工智能,我們什么都不是。
張小珺:你覺得理想汽車有這樣的技術基因嗎?因為你們的創始人并不是一個有技術背景的人。
陳偉:理想汽車創造的爆品背后的這種邏輯是因為我們推出的產品都是之前行業沒有見過的,有我們非常多的背后的技術創新,這些都是李想帶領團隊做出來的。
大模型時代來了之后,AI的從業者,大家對于技術這塊的認知和想法可能也都需要重構,包括技術棧也需要重新迭代。那么我覺得大家對于這件事的認知都在同一個起跑線上,那就取決于學習的速度,而他恰恰又是一個學習速度非常快的人。在幾個月前OpenAl的o1推出之前,他當時跟我們說我們的重心不要只放在基座模型訓練上,要花更多的精力放在模型的后訓練這件事情上。OpenAl的o1發布之后,其實整個的大模型的訓練范式,跟他幾個月前的判斷是非常一致的。
04.競爭又有了新變化,這是這個世界的精彩和豐富之處
張小珺:電動車不是你創業的終點,但現在電動車這場仗還沒打贏,什么時候能打贏?
李想:并不存在打贏不打贏這件事。汽車企業發展的這么多年,可能跟傳統汽車廠的競爭結束了,你會發現又有很多外來者。開始大家看到的是新勢力、特斯拉跟傳統汽車的競爭,后來華為進來了,小米進來了,競爭又發生了新的變化,我覺得這是這個世界的精彩和豐富之處。
張小珺:你覺得為什么蘋果現階段放棄造車?
李想:我認為有兩個挑戰,第一是如果做汽車,蘋果的組織模式必須發生變化,因為汽車確實比手機更復雜。第二是如果你做規則算法、知識圖譜,數據就是隱私,但是如果你真正做到了大模型階段,如果它變成了Token,就跟隱私什么關系都沒有了,相反,它是解決隱私解決最好的一個方式。這些厲害的企業,都是一幫足夠聰明人,當他看明白、去擁抱Al的時候,可能比大家想象的進步速度要快得多。
張小珺:你怎么看待小米汽車做出來了?你有給過雷軍什么建議嗎?
李想:我說“你必須All in”,只要做到這一點,小米汽車就會成功。雷軍做硬件的能力非常強,這個沒什么可質疑的,他不只是做車做好了,他的電視機、空調做得也非常好,這是他本身就有的優勢,而且他帶著那種發燒友的心態去做。我們跟小米關系也不錯,包括理想MEGA以后理想L6又很艱難,雷軍來幫我們站臺,我們都非常感激,幫了我們非常非常多。
05.我是理想產品的天花板,也是瓶頸
張小珺:你是理想產品的天花板嗎?
李想:從0-1的階段,產品是由我來主導的,一是因為我對三排座的車有非常深的體驗,二是因為我沒有司機。對于產品經理來說,體驗的能力和體驗的范圍和深度是你的預訓練、你的基座模型,所以我是天花板。到1-10的階段,我就是瓶頸了,所以我們要升級,把體驗變成一個能力,讓他們去擁有。建立一個培養他們的體系,讓大家在上面能運營得越來越好,讓每個做產品的都比三四年前的李想更好。
張小珺:作為CEO,你其實喜歡高管和自己吵架是嗎?
李想:就像喬布斯講的那個故事,他的鄰居大爺拿著一堆石頭,放在一個機器里,幾天以后拿出來都是非常漂亮的球。真正頂級的團隊,在做產品、做研究、做創造的時候,就應該是這樣的。我喜歡看到大家在吵架,讓這些可以跟李想吵一兩個月的人,吵得特別開心、結果特別好的人,變成大將軍,主導我們后邊的產品,這是我們想要的,也是這個階段必須要擁有的能力。
張小珺:作為產品經理,你最想討好的人是誰?
李想:我不想討好任何人。我覺得還是要去思考一些本應屬于用戶的價值,這些價值今天沒有實現,影響它實現的障礙到底是什么?這是最重要的。比如大家都覺得電動車很好,但充電很難,這是全行業的難題,我們怎么解決?所以我們有了增程,有了5C,有了自建充電網絡。
它是個取舍,你得知道自己想要什么。能夠像谷歌那么克制地變成一個搜索框,像OpenAl那么克制地變成一個對話框,這需要巨大的能力,因為簡單所以豐富,不是因為復雜所以豐富,復雜就僵化了,這是我們解決問題的方式。
張小珺:你對產品了解更深,還是對技術能力認知更深?
李想:過去我們提供的東西叫功能,功能最主要的獲取方式是體驗,通過不同的產品,獲得不同的體驗,判斷功能的價值。人工智能時代看能力,必須得搞研究,對技術方向進行有效的判斷,再搞技術研發,再產品化。
06.在最艱難的十字路口,看透本質是創始人最重要的能力
張小珺:沒有上過大學,會讓你在社會中遇到更多挫折嗎?
李想:本質上沒有什么挫折,它并不影響我去學習,并不影響我去獲取知識。唯一遺憾的可能就是,我的人生中缺少這么一段大家都有的體驗,在這方面跟大家沒有共同的語言。
張小珺:你說你是一個敏感的人,這對于做CEO會有問題嗎?
李想:沒什么問題,CEO有不同的類型的。每當在一個最艱難的十字路口的時候,創始人能不能看透本質,做出對團隊而言最好的選擇,并通過未來去驗證,這是最重要的一個能力。
張小珺:2019年是你最困難的時候嗎?
李想:我最困難的時候還是2008年5月,是真的會自己傷心到哭的程度。幾個小股東要把我和樊錚趕出公司,融錢也融不到,公司的現金流也完全斷掉了。當時要把我們趕出公司的是三個合伙人之一,我來北京的時候我們在林業大學租了個40平米的房子,一室一廳,白天工作,晚上甚至在一張床上睡覺。
后來我們和解了,他幫我獲得了最大的一次成長。他說如果你當時把這些困難跟大家說出來,我們愿意把房子抵押了,來支持公司繼續發展下去,但是你并不給我們這樣的機會,你選擇自己死扛,而公司變得越來越差。那一刻我就做了一個巨大的反思。我從小受到的教育,就是你要對自己特別嚴格,甚至要對自己苛刻,你不需要對自己好。我選擇創業,就很難再去找一份工作了,因為學歷什么都不行。
所以我就學到了兩個特別重要的能力。第一,要接受自己的優點,也能接納自己的不足。第二,如果有一些對我而言是致命的缺點,嚴重影響到身邊所有的人了,而且也影響到自己了,我肯定要改。如果從來沒有吃過糖,我怎么給別人甜頭。
07.只有成長是我的欲望
張小珺:你非常關注人的工作,最近有對人性多一層認知嗎?
李想:2024年,在人的方面,最大的收獲來自3000多人的校招團隊,比我們那代人優秀10倍以上,他們受最好的教育,心智也很成熟。在技術展示會上,AI相關產品有一半以上都是校招團隊做出來的,非常之驚訝。大家老是講一個時代過去了,我從他們身上看到一個新的時代開始了。
張小珺:你現在的欲望是什么要做一個1萬億市值的企業嗎?
李想:1萬億市值不是我的欲望,只有成長是我的欲望。經營公司有兩件事情是最重要的,一是推出長遠有價值、有意義的產品和服務,要做判斷、要出題、要訓練、要投資。二是設定好有向往感、有意義的目標,目標是特別有效的管理方式,1萬億反映了對用戶的價值,也反映了行業地位,它不是空洞的,背后還有很多東西要去做。
張小珺:一個1萬億市值的企業需要具備什么條件?
李想:如果不能實現L4自動駕駛,我們肯定不能邁入萬億俱樂部。后來者必須使用最先進的技術,提供完全不同的產品體驗。今天大家買車是為了開車,但未來不開車才是革命性的。一定要采用完全不同的商業模式,同時還有非常好的能力來支撐。技術、產品、用戶三個層面的高速增長,是最頂級的企業都具備的特質。?
張小珺:如果理想沒有成為全球領先的人工智能企業,會是因為什么?
李想:我覺得一定是我們在綜合能力方面有缺失,包含研究、研發、產品、商業能力,當然也包含自身的造血能力,它是一場非常大的仗。我會全力以赴地確保我們成為全球領先的人工智能企業,做好每一個環節。但是如果在我的有生之年沒有辦法實現,或者我們因為犯了巨大錯誤沒法實現,我也非常樂于看到有中國企業能夠在人工智能方面做得非常好,實現人工智能的第五階段,我愿意為這樣的企業而鼓掌。
好評理由:
差評理由: