下棋是人類延續(xù)至今最古老的智力游戲,又稱對弈。巧合的是,人類與AI的“對弈”正是從對弈開始。1997年IBM人工智能軟件“深藍”擊敗國際象棋大師卡斯帕羅夫。約20年后的2016年,圍棋世界冠軍李世石敗于谷歌研發(fā)的AI軟件AlphaGo。AlphaGo也被韓國棋院授予“名譽九段”,成為人類第一位AI棋手。顛覆由此開始。
2022年ChatGPT橫空出世,AI離人類理想中的模樣更近了。于是,所謂的“大模型”時代悄然開啟。不到2年的時間,各種類型的AI大模型層出不窮。從谷歌、微軟、英偉達到華為、阿里,科技互聯網行業(yè)巨擘紛紛入局。一時間海內外財經、科技人士言必稱“大模型”。谷歌、微軟、英偉達、蘋果等7家科技公司市值一度達到13萬億美元,超過A股總市值。于是一種“AI才是人類未來”的說法甚囂塵上。從“名譽九段”到微軟首個“AI碼農”,從自動生成文字、圖片、視頻、代碼,AI的顛覆山雨欲來。其實, AI的競爭邏輯已經從資本、技術的積累向應用和生態(tài)延伸。也就是說,AI在產業(yè)層面的應用更關鍵。那么作為一家礦山無人駕駛企業(yè),路凱智行又是如何理解AI在產業(yè)內的應用的?
路凱智行聯合創(chuàng)始人兼CTO那崇寧博士是AI大模型領域的專家,長期從事相關領域的研究和應用。早在2018年谷歌推出BERT的時候,那崇寧博士就斷定未來5年在自然語言處理領域內會實現一個通用的人工智能,只會在自然語言處理這個領域里面實現通用的人工智能。站在2024回看過去,時間證明了那崇寧博士的預測。那崇寧博士認為,目前較為成熟的AI大模型包括自然語言語言處理(NLP)類的AI大模型和計算機視覺類(CV)的AI大模型,隨著近幾個月SORA的橫空出世,融合語言與視覺的多模態(tài)模型也已初露崢嶸,但目前市面上的通用大模型并非“萬金油”,面向垂直領域內的各類生成式AI應用還需要結合場景需求積累數據和構建定制化的模型。礦山無人駕駛已經邁過了“下安全員”的門檻,現階段需要追平甚至超過有人駕駛的運輸效率。這一階段,AI對于提升無人駕駛的運營效率的意義不言而喻。那崇寧博士領導下的路凱智行研發(fā)團隊,早已開始了相關布局。視覺類的AI大模型目前已應用于路凱智行自動駕駛感知算法的研發(fā),實際上,在AIGC概念提出之前,路凱智行的研發(fā)團隊已廣泛應用生成式神經網絡(GAN)等技術手段增強圖像、點云等感知數據集,用于對自動駕駛感知算法進行算法優(yōu)化,提升算法在更加通用的礦山場景下的準確性、魯棒性和穩(wěn)定性,在路測的基礎上提供了低成本的算法優(yōu)化研發(fā)替代路徑。路凱智行的研發(fā)團隊在布局基于多模態(tài)AI大模型的自動駕駛綜合算法,將現有的面向感知任務的AI大模型理解和生成能力擴展到融定位、感知、規(guī)劃、控制、決策的綜合性模型,其中多模態(tài)體現在綜合融合結構化信息(如地圖、車輛狀態(tài)等)、類圖像信息(圖像、點云、其他雷達數據)及文本信息(規(guī)范、標準等)構建以數據為驅動,以規(guī)范為約束的自動駕駛綜合智能體。目前該工作還處于模塊研發(fā)和原理驗證階段,面向實際應用還需在算法的復雜度、實時性、魯棒性、穩(wěn)定性及可解釋性等方面開展大量的工作。此外,類ChatGPT的語言類AI大模型在智慧礦山綜合管控方面有廣泛的應用場景,一方面可以運用AI大模型為智慧礦山的運營者和管理者構建一個一體化的人機交互系統(tǒng),綜合管理礦山內的各類知識資產(政策、規(guī)范、標準、設計圖紙等)和數據資產(實際生產、運營數據等),另一方面可運用AI大模型的低代碼能力(如NL2SQL類的數據分析能力)以較低的溝通和研發(fā)成本完成運營信息的整合、分析、挖掘與決策應用,從而提升礦山運行的綜合效能。語言類AI大模型的實際落地應用應關注以下問題:一是通用AI大模型與企業(yè)應用場景的適配,私有化部署能力及針對企業(yè)業(yè)務和數據的模型微調是關鍵因素;二是通用AI大模型的幻覺風險防控,利用CoT、提示工程等非顯式干預方法,或運用API、RPA、NL2SQL等顯式干預方法是關鍵。路凱智行已在相關領域布局基礎模型和工具鏈的研發(fā),并在礦山制度管理、低代碼數據分析等領域形成落地能力。“現有的通用大模型無法直接賦能端到端礦山無人駕駛。但是,沿著這個思路,基于通用大模型的基本構建原理,去構建適用于礦山無人駕駛的模型的方向可以去嘗試。當然,礦山場景的算力、數據能否支撐我們去從0開始構建基礎的模型,仍需時間去驗證工程的實用性。”億歐汽車2023全球科技出行大會上,那崇寧博士回答了媒體關于礦山無人駕駛大模型的暢想。(源于公眾號:全球智慧礦業(yè)創(chuàng)新研究院)