紅杉資本:關(guān)于AI的一份訪談報告_天天觀點
(原標題:紅杉資本:關(guān)于AI的一份訪談報告)
作者 | Michelle Fradin & Lauren Reeder
【資料圖】
來源 | Sequoiacap導語:所有被訪企業(yè)都認為AI的發(fā)展速度太快,難以跟上節(jié)奏。
ChatGPT通過大型語言模型(Large Language Models)引發(fā)了創(chuàng)新浪潮,越來越多的公司將自然語言交互的能力應用到他們的產(chǎn)品中。
語言模型API的采用正在形成一種新的技術(shù)風潮。為了更好地了解人們正在構(gòu)建的應用和所使用的技術(shù)棧,我們與紅杉網(wǎng)絡(luò)中的33家公司進行了訪談,包括種子階段的初創(chuàng)企業(yè)和大型上市企業(yè)。
我們在兩個月前和上周進行了訪談,以捕捉到變化的速度。
由于許多創(chuàng)始人和開發(fā)者自己還在摸索他們的人工智能戰(zhàn)略,我們希望分享我們的發(fā)現(xiàn),即使這個領(lǐng)域正在快速發(fā)展。
紅杉網(wǎng)絡(luò)中的幾乎每家公司都在將語言模型集成到他們的產(chǎn)品中
我們已經(jīng)看到了許多神奇的自動完成功能,涵蓋了從代碼(Sourcegraph、Warp、Github)到數(shù)據(jù)科學(Hex)的各個領(lǐng)域。我們還看到了更好的聊天機器人,用于客戶支持、員工支持和消費者娛樂等方面。其他一些公司則通過以人工智能為核心來重新構(gòu)想整個工作流程,如視覺藝術(shù)(Midjourney)、營銷(Hubspot、Attentive、Drift、Jasper、Copy、Writer)、銷售(Gong)、聯(lián)系中心(Cresta)、法律(Ironclad、Harvey)、會計(Pilot)、生產(chǎn)力(Notion)、數(shù)據(jù)工程(dbt)、搜索(Glean、Neeva)、雜貨購物(Instacart)、消費者支付(Klarna)和旅行規(guī)劃(Airbnb)。這只是一小部分示例,這僅僅只是開始。
應用程序的新技術(shù)棧以語言模型API、檢索和編排為中心,但開源模型的使用也在增長
65%的公司已經(jīng)將應用程序投入生產(chǎn),相比兩個月前的50%有所增加,其余的公司仍在進行實驗。
94%的公司正在使用基礎(chǔ)模型API。在我們的樣本中,OpenAI的GPT是明顯的首選,占比為91%,然而Anthropic的興趣在過去的一個季度增長到了15%(有些公司使用多個模型)。
88%的公司認為檢索機制,比如向量數(shù)據(jù)庫,將仍然是他們技術(shù)棧的關(guān)鍵部分。為模型提供相關(guān)上下文以進行推理有助于提高結(jié)果的質(zhì)量,減少“幻覺”(不準確性)并解決數(shù)據(jù)新鮮度問題。一些公司使用定制的向量數(shù)據(jù)庫(Pinecone、Weaviate、Chroma、Qdrant、Milvus等),而其他公司使用pgvector或AWS的解決方案。
38%的公司對像LangChain這樣的LLM編排和應用開發(fā)框架很感興趣。有些公司在原型設(shè)計中使用它,而其他公司在生產(chǎn)中使用它。在過去幾個月里,采用率有所增加。
不到10%的公司正在尋找監(jiān)控LLM輸出、成本或性能以及A/B測試提示的工具。我們認為隨著更多大公司和受監(jiān)管行業(yè)采用語言模型,這些領(lǐng)域的興趣可能會增加。
少數(shù)公司正在研究補充性的生成技術(shù),例如結(jié)合生成文本和語音。我們也相信這是一個令人興奮的增長領(lǐng)域。
15%的公司從頭開始或使用開源工具構(gòu)建定制語言模型,通常是在使用LLM API。幾個月前,定制模型訓練的需求有所增加。這需要自己的計算、搭建模型庫、托管、訓練框架、實驗跟蹤等技術(shù)棧,其中包括一些備受喜愛的公司,如Hugging Face、Replicate、Foundry、Tecton、Weights & Biases、PyTorch、Scale等。
我們與每位從業(yè)者交談時都說AI的發(fā)展速度太快,無法對最終技術(shù)棧有很高的信心,但他們一致認為LLM API將繼續(xù)是一個關(guān)鍵支柱,其次是檢索機制和LangChain類似的開發(fā)框架。開源和定制模型訓練和調(diào)整似乎也在增長。其他領(lǐng)域的技術(shù)棧也很重要,但還處于早期階段。
根據(jù)其獨特的上下文定制語言模型通用的語言模型很強大,但對于許多用例來說,并不具備差異化或足夠的能力。很多公司希望能夠在其數(shù)據(jù)上實現(xiàn)自然語言交互,例如開發(fā)者文檔、產(chǎn)品庫存、人力資源或IT規(guī)則等。在某些情況下,這些公司還希望根據(jù)用戶的數(shù)據(jù)進行模型定制,比如個人筆記、設(shè)計布局、數(shù)據(jù)指標或代碼庫。
目前,有三種主要的定制語言模型的方法(有關(guān)更深入的技術(shù)解釋,請參閱Andrej在Microsoft Build上的最新GPT現(xiàn)狀演講):
1)從頭開始訓練一個定制模型,這也是最困難的方法。
這是解決這個問題的經(jīng)典和最困難的方式。通常需要高技能的機器學習科學家、大量相關(guān)數(shù)據(jù)、訓練基礎(chǔ)設(shè)施和計算資源。這也是為什么在歷史上大部分自然語言處理創(chuàng)新發(fā)生在大型科技公司內(nèi)部的主要原因之一。
BloombergGPT是一個很好的例子,它是一個在大型科技公司之外進行定制模型工作的努力,使用了Hugging Face和其他開源工具資源。隨著開源工具的改進和更多公司對LLM進行創(chuàng)新,我們預計會看到更多定制模型和預訓練模型的使用。
2)微調(diào)基礎(chǔ)模型,難度適中。
這是通過使用專有數(shù)據(jù)或領(lǐng)域特定數(shù)據(jù)進行額外訓練來更新預訓練模型的權(quán)重。開源創(chuàng)新也使這種方法變得越來越可行,但它通常仍需要一個精通的團隊。
一些從業(yè)者私下承認,微調(diào)比聽起來要困難得多,并且可能會產(chǎn)生意想不到的后果,比如模型漂移和在沒有預告的情況下“破壞”模型的其他技能。雖然這種方法更有可能變得更普遍,但目前對于大多數(shù)公司來說仍然不可行。但同樣,這一切正在迅速改變中。
3)使用預訓練模型并檢索相關(guān)上下文,難度最低。
人們通常認為他們希望為自己進行微調(diào)的模型,實際上他們只是希望在合適的時候讓模型對其信息進行推理。有許多方法可以在適當?shù)臅r間為模型提供正確的信息:
向SQL數(shù)據(jù)庫進行結(jié)構(gòu)化查詢、在產(chǎn)品目錄中進行搜索、調(diào)用一些外部API或使用嵌入式檢索。嵌入式檢索的好處是可以使用自然語言輕松搜索非結(jié)構(gòu)化數(shù)據(jù)。
從技術(shù)上講,這是通過將數(shù)據(jù)轉(zhuǎn)化為嵌入式向量、將其存儲在向量數(shù)據(jù)庫中,在查詢發(fā)生時搜索這些嵌入式向量以獲得最相關(guān)的上下文,并將其提供給模型來實現(xiàn)的。
這種方法有助于突破模型的有限上下文窗口,成本更低,解決了數(shù)據(jù)新鮮度的問題(例如,ChatGPT不了解2021年9月之后的世界),并且可以由單獨的開發(fā)人員在沒有正式機器學習訓練的情況下完成。向量數(shù)據(jù)庫在高規(guī)模情況下非常有用,它們使存儲、搜索和更新嵌入式向量變得更加容易。
到目前為止,我們觀察到較大的公司仍在使用他們的企業(yè)云協(xié)議內(nèi)的工具,并使用他們云服務(wù)提供商的工具,而初創(chuàng)公司傾向于使用專門構(gòu)建的向量數(shù)據(jù)庫。
然而,這個領(lǐng)域變化非??焖?。上下文窗口正在增長(剛剛發(fā)布的消息,OpenAI將擴展到16K,而Anthropic推出了10萬個令牌的上下文窗口)?;A(chǔ)模型和云數(shù)據(jù)庫可能會直接嵌入檢索功能到其服務(wù)中。我們將密切關(guān)注這個市場的發(fā)展。
LLM API的技術(shù)棧與定制模型訓練的技術(shù)棧可能感覺有些分離,但隨著時間的推移,它們會趨于融合有時候我們會感覺存在兩個技術(shù)棧:利用LLM API的技術(shù)棧(更多是閉源的,面向開發(fā)人員)與訓練定制語言模型的技術(shù)棧(更多是開源的,歷史上面向更復雜的機器學習團隊)。一些人納悶,LLM通過API的可用性是否意味著公司會減少自己的定制訓練。到目前為止,我們看到的情況恰恰相反。
隨著對AI的興趣增加和開源開發(fā)的加速,許多公司對訓練和微調(diào)自己的模型越來越感興趣。我們認為LLM API和定制模型的技術(shù)棧將隨著時間的推移越來越融合。例如,一家公司可能從開源中訓練自己的語言模型,但通過向量數(shù)據(jù)庫進行檢索來解決數(shù)據(jù)新鮮度的問題。為定制模型技術(shù)棧構(gòu)建工具的智能初創(chuàng)公司也在努力擴展其產(chǎn)品,使其與LLM API的革命更相關(guān)。
技術(shù)棧變得越來越適合開發(fā)人員使用語言模型API將強大的現(xiàn)成模型交到了普通開發(fā)人員手中,而不僅僅是機器學習團隊?,F(xiàn)在,使用語言模型的人群已經(jīng)顯著擴大到所有開發(fā)人員,我們相信會看到更多面向開發(fā)人員的工具。
例如,LangChain通過抽象常見的問題,幫助開發(fā)人員構(gòu)建LLM應用程序:將模型組合成更高級的系統(tǒng),將多個模型調(diào)用鏈接在一起,將模型與工具和數(shù)據(jù)源連接起來,構(gòu)建可以操作這些工具的代理,并通過簡化切換語言模型,幫助避免供應商鎖定。有些人在原型設(shè)計中使用LangChain,而其他人則繼續(xù)在生產(chǎn)環(huán)境中使用它。
語言模型需要在輸出質(zhì)量、數(shù)據(jù)隱私和安全性方面變得更可信,以實現(xiàn)全面采用在將LLM完全應用于他們的應用程序之前,許多公司希望有更好的工具來處理數(shù)據(jù)隱私、隔離、安全性、版權(quán)以及監(jiān)控模型輸出。從金融科技到醫(yī)療保健的受監(jiān)管行業(yè)的公司尤其關(guān)注這一點。報告稱很難找到解決這個問題的軟件解決方案(這是創(chuàng)業(yè)者的一個潛在領(lǐng)域)。
理想情況下,會有軟件來警告(如果不是阻止)模型生成錯誤/幻覺、歧視性內(nèi)容、危險內(nèi)容或其他問題。
一些公司還擔心與模型共享的數(shù)據(jù)被用于訓練:例如,很少有人了解到ChatGPT Consumer數(shù)據(jù)默認用于訓練,而ChatGPT Business和API數(shù)據(jù)則不用于訓練。隨著政策的明確和更多的監(jiān)管措施的出臺,語言模型將獲得更多信任,并且我們可能會看到采用率的另一個重大變化。
語言模型應用將越來越多元化很多公司已經(jīng)找到了將多個生成模型結(jié)合起來產(chǎn)生巨大效果的有趣方法:結(jié)合文本和語音生成的聊天機器人可以實現(xiàn)全新的對話體驗。文本和語音模型可以結(jié)合使用,幫助您快速修正視頻錄制中的錯誤,而無需重新錄制整個視頻。
模型本身也越來越多元化。我們可以想象未來豐富的消費者和企業(yè)AI應用將結(jié)合文本、語音/音頻和圖像/視頻生成,以創(chuàng)建更具吸引力的用戶體驗并完成更復雜的任務(wù)。
目前仍處于早期階段人工智能正逐漸滲透到技術(shù)的方方面面。只有65%的受訪公司目前處于生產(chǎn)階段,而且其中許多應用相對簡單。隨著越來越多的公司推出LLM應用,新的障礙將出現(xiàn),為創(chuàng)業(yè)者創(chuàng)造更多機會。
未來幾年基礎(chǔ)設(shè)施層將繼續(xù)快速發(fā)展。如果我們看到的演示中只有一半進入生產(chǎn)階段,我們將迎來一個令人興奮的未來??吹綇淖钤缙诘腁rc投資到Zoom的創(chuàng)始人們都專注于同一件事情——用人工智能來讓用戶滿意,這真是令人激動。
關(guān)鍵詞:
相關(guān)閱讀
-
紅杉資本:關(guān)于AI的一份訪談報告_天天觀點
其他一些公司則通過以人工智能為核心來重新構(gòu)想整個工作流程,如視覺藝 -
當前簡訊:比興是修辭手法嗎_比興手法是...
1、比興是中國詩歌中的一種傳統(tǒng)表現(xiàn)手法,宋代朱熹比較準確地說明了... -
火藥屬于什么危險化學品_致密炸藥粉 每...
1、加基森那個大師級訓練有吧。2、其他高級圖紙除了爆的全部都在永望鎮(zhèn) -
政策逐步兌現(xiàn),外圍環(huán)境改善,市場或轉(zhuǎn)...
1、四、五月經(jīng)濟數(shù)據(jù)邊際偏弱后,政策開始密集發(fā)力,同時中美關(guān)系也迎 -
登時的意思解釋_頓時的意思
1、頓時,指立刻。2、多用于敘述已過去的事情。3、【拼音】dùnshí【 -
定西多舉措讓文旅消費“熱”起來
每日甘肅網(wǎng)6月19日定西訊(新甘肅甘肅經(jīng)濟日報記者丁陸軍)今年以來,
精彩放送
-
紅杉資本:關(guān)于AI的一份訪談報告_天天觀點
其他一些公司則通過以人工智能為核心來重新構(gòu)想整個工作流程,如視覺藝 -
當前簡訊:比興是修辭手法嗎_比興手法是...
1、比興是中國詩歌中的一種傳統(tǒng)表現(xiàn)手法,宋代朱熹比較準確地說明了... -
火藥屬于什么危險化學品_致密炸藥粉 每...
1、加基森那個大師級訓練有吧。2、其他高級圖紙除了爆的全部都在永望鎮(zhèn) -
登時的意思解釋_頓時的意思
1、頓時,指立刻。2、多用于敘述已過去的事情。3、【拼音】dùnshí【 -
定西多舉措讓文旅消費“熱”起來
每日甘肅網(wǎng)6月19日定西訊(新甘肅甘肅經(jīng)濟日報記者丁陸軍)今年以來, -
政策逐步兌現(xiàn),外圍環(huán)境改善,市場或轉(zhuǎn)...
1、四、五月經(jīng)濟數(shù)據(jù)邊際偏弱后,政策開始密集發(fā)力,同時中美關(guān)系也迎 -
大眾氣質(zhì)SUV,搭載全新1.5T!只賣12萬,...
現(xiàn)在的大眾汽車是越來越拼了,有一款新車型今年三月份才剛剛上市,現(xiàn)在 -
3.5%預定利率壽險產(chǎn)品將全面退出 儲蓄...
每經(jīng)記者 涂穎浩 每經(jīng)編輯 張益銘6月8日,六家國有大行率先下調(diào) -
環(huán)球今頭條!“三夏”一線|秸稈回收 ...
01:41齊魯網(wǎng)·閃電新聞6月18日訊糧食顆粒歸倉之后,如何處理大量廢棄的 -
在供應憂慮的情況下3只石油庫存增加_每...
由于石油價格跳升至七周高位,該行業(yè)在7月10日星期三顯示出新的買盤興