如果說大模型的上半場(chǎng)是以互聯(lián)網(wǎng)大數(shù)據(jù)預(yù)訓(xùn)練為代表的數(shù)字AI;而下半場(chǎng),是以機(jī)器人、世界模型等為代表的物理AI。汽車可能正好處于兩者之間的分水嶺上。
在杭州云棲小鎮(zhèn)的會(huì)場(chǎng),今年云棲大會(huì),無論是會(huì)場(chǎng)外的天氣熱度,和會(huì)場(chǎng)內(nèi)的人群熱度,都達(dá)到了一個(gè)相當(dāng)高的程度。
每一個(gè)我遇見的新老朋友都會(huì)說,今年大家對(duì)AI的關(guān)注度明顯提高了,討論的問題也都非常的實(shí)際。
而我這次對(duì)大會(huì)的關(guān)注點(diǎn),是汽車。因?yàn)檫@個(gè)產(chǎn)業(yè),是觀察AI未來發(fā)展脈絡(luò)一個(gè)非常好的切入點(diǎn)。
在云棲大會(huì)的汽車峰會(huì)開場(chǎng)詞里,有這樣一段話:
1886年,卡爾本茨發(fā)明了第一輛汽車。人類突破了肌肉的限制。139年后的今天,我們正在突破認(rèn)知(智能)的邊界。汽車成為了移動(dòng)的計(jì)算平臺(tái),駕駛成為了人機(jī)協(xié)作的藝術(shù),速度由數(shù)據(jù)的流轉(zhuǎn)效率重新定義物理,實(shí)現(xiàn)擁抱數(shù)字智能,數(shù)字智能融入實(shí)體產(chǎn)業(yè),汽車恰好站在這個(gè)交匯點(diǎn)上,成為虛實(shí)融合的最佳載體。
我的理解是:如果說大模型的上半場(chǎng)是以互聯(lián)網(wǎng)大數(shù)據(jù)預(yù)訓(xùn)練為代表的數(shù)字AI;而下半場(chǎng),是以機(jī)器人、世界模型等為代表的物理AI。
汽車可能正好處于兩者之間的分水嶺上,承上啟下。重要性如何形容都不為過。
不過,分量既然重,難度系數(shù)也高。
一方面,是面向汽車智能化,所需要的資金資源,都在指數(shù)級(jí)增長(zhǎng);另一方面,消費(fèi)者雖然喜歡中國(guó)車企所創(chuàng)造的智能體驗(yàn),但要真金白銀買單,或許還不到火候。
汽車的“卷”字,大概也就從中而來。這是一個(gè)投入和收益的剪刀差時(shí)刻。
此情此景之下,汽車產(chǎn)業(yè)成員在思考什么?阿里云,作為一個(gè)云和AI的基礎(chǔ)設(shè)施提供者,有什么解決之道?就特別值得探究。
一、當(dāng)汽車學(xué)會(huì)"看"與"想"
智能駕駛,無疑是汽車智能化下半場(chǎng)最激昂的旋律。
因?yàn)闊o論將其推向L4、L5有多難,其不是選修課,而是決定一家車企生死的必修課,是不爭(zhēng)的事實(shí),這也是所有我這次云棲大會(huì)期間所訪談的汽車人士的共識(shí)。
而談到智能駕駛,又必然談到VLA。
云棲大會(huì)汽車峰會(huì)的圓桌討論環(huán)節(jié),元戎啟行創(chuàng)始人兼CEO周光說了一句讓人深思的話:"自動(dòng)駕駛分級(jí)的定義太早了,是30年前的定義。當(dāng)時(shí)定義L4就是基于高精度地圖、基于SLAM的定義,有個(gè)地圖能在里面跑就叫L4。"
這個(gè)觀察切中要害。30年前,當(dāng)美國(guó)汽車工程師學(xué)會(huì)(SAE)制定智能駕駛分級(jí)標(biāo)準(zhǔn)時(shí),人工智能還處于"專家系統(tǒng)"時(shí)代。那時(shí)的工程師們想象的智能駕駛,是一臺(tái)遵循預(yù)設(shè)規(guī)則的精密機(jī)器——如果看到紅燈就停車,如果前方有障礙物就繞行,如果車道線向左彎就轉(zhuǎn)動(dòng)方向盤。
VLA的出現(xiàn),改變了游戲規(guī)則。
VLA(Vision-Language-Action)是一種新一代AI架構(gòu),它不僅能“看懂”圖像、“讀懂”語(yǔ)言,還能基于理解直接驅(qū)動(dòng)決策與動(dòng)作,被視為大模型從“會(huì)說”走向“會(huì)做”的關(guān)鍵拐點(diǎn)。

理想汽車自動(dòng)駕駛研發(fā)高級(jí)副總裁郎咸朋在圓桌上分享了一個(gè)生動(dòng)的案例:"有用戶發(fā)了個(gè)'十連繞'場(chǎng)景的視頻——經(jīng)過施工路段,隔一段就有井蓋或路障,車輛繞來繞去都成功通過。用戶第一天繞了不信,但第二天又試,還是能繞過去。"
他特別強(qiáng)調(diào):"我們并沒有定義'連續(xù)繞十次井蓋'這個(gè)場(chǎng)景。這就是能力涌現(xiàn),我們做的是能力而不是功能。"
所謂能力與功能的區(qū)別,我想就像音樂家與音樂盒的區(qū)別。音樂盒只能播放固定的曲目,每個(gè)音符都是預(yù)設(shè)的;而音樂家理解音樂的本質(zhì),可以即興創(chuàng)作,可以根據(jù)現(xiàn)場(chǎng)氛圍調(diào)整演奏。當(dāng)自動(dòng)駕駛從"功能定義"進(jìn)化到"能力涌現(xiàn)",汽車就從機(jī)器進(jìn)化成了某種新的存在。

廣汽集團(tuán)自動(dòng)駕駛首席科學(xué)家周寅在圓桌討論中,也從技術(shù)層面解釋了VLA為什么如此特別:"VLA利用了VLM(Vision-Language Model)的預(yù)訓(xùn)練,利用互聯(lián)網(wǎng)海量知識(shí)讓模型具有常識(shí)(common sense)。然后通過自動(dòng)駕駛數(shù)據(jù)喚醒激活,能夠處理長(zhǎng)尾案例,實(shí)現(xiàn)零樣本遷移(zero-shot transfer)。"
他列舉了幾個(gè)具體的能力涌現(xiàn)案例:"道路施工自動(dòng)避讓、復(fù)雜交通標(biāo)識(shí)識(shí)別、潮汐車道處理,以及對(duì)紙箱、小動(dòng)物等未訓(xùn)練過的物體識(shí)別。"
郎咸朋進(jìn)一步解釋了VLA中"L"(Language)的深層含義:"它并不是大家想象的對(duì)話或文字。它背后是人類長(zhǎng)時(shí)序的思考、邏輯推理能力的體現(xiàn)。有人問我,不會(huì)說話的人就沒有思維能力嗎?不是的,他們也會(huì)看書、看文字,這些都是人類知識(shí)高度濃縮和壓縮的過程,表達(dá)了長(zhǎng)時(shí)間思維能力。"
這個(gè)解釋讓我想起了維特根斯坦的名言:"語(yǔ)言的界限就是世界的界限。"當(dāng)我們給機(jī)器賦予語(yǔ)言能力,我們實(shí)際上是在擴(kuò)展它理解世界的邊界。
但這種認(rèn)知能力的獲得是有代價(jià)的,是巨大的代價(jià)。

元戎啟行CEO周光直言不諱地談到了智駕成本結(jié)構(gòu)的變化:"以前可能97%