2025年10月21日 星期二

google agent builder

 

我們分析了數小時的Google與OpenAI技術講座,為你揭示5個關於AI代理(Agent)的驚人真相

當前,圍繞「AI代理(Agent)」的討論與炒作達到了前所未有的熱度,似乎每個人都在談論能夠自主規劃與執行任務的智慧系統。然而,在這股熱潮之下,許多技術愛好者、開發者甚至產品經理都感到困惑:這些代理究竟是如何實際構建的?本文從多場Google與OpenAI的技術講座中,為你提煉出5個最令人驚訝且反直覺的關鍵洞察,幫助你撥開迷霧,看清AI代理的真實面貌。

--------------------------------------------------------------------------------

1. 真相一:「代理」並非單一概念,真正的力量在於混合模式

許多人想像中的AI代理是一個擁有完全自主決策能力的黑盒子,但現實遠比這更為精妙。業界在實踐中發現,純粹的「代理」模式並非萬靈丹。實際上,存在兩種極端的AI應用架構:

  • 鏈(Chains): 這是一種固定的工作流程,開發者明確定義一系列的執行步驟。其最大的優點是可靠且可預測,你知道系統每一步會做什麼,經典的例子就是「檢索增強生成(RAG)」。然而,它的缺點也同樣明顯——僵化且缺乏靈活性,無法動態適應未預期的情況。
  • 代理(Agents): 這種模式將大型語言模型(LLM)置於一個決策循環的中心,讓模型自行判斷下一步該調用哪個工具、執行哪個動作。它的優點是極度靈活與動態,能應對複雜多變的任務。但其致命傷在於可靠性低,由於LLM決策的不確定性,代理很容易「偏離軌道」,導致任務失敗或產生無法預料的結果。

最令人驚訝的發現是,業界的真正突破口並不在於選擇其中一種,而是尋求一種結合兩者優點的混合模式

"On one hand we have chains, reliable, predictable but rigid and on the other hand we have these agents, flexible and dynamic but unreliable. So the question is can we have both?"

Google在其技術講座中展示的LangGraph框架就是這種思路的典範。它使用圖形(Graph)結構來明確定義應用的控制流程,其運作方式就像一個狀態機(state machine),開發者可以精準控制狀態之間的轉換。你可以在圖的某些節點上強制執行固定的「鏈式」邏輯以確保可靠性,而在其他節點上則賦予「代理」般的靈活性,讓LLM進行決策。

這種混合模式之所以重要,是因為它直接解決了AI應用開發中的核心矛盾:如何在追求AI高度自主性的同時,保持系統的穩定性與可控性。

2. 真相二:Google的AI代理生態系,一個令人驚訝的「多重宇宙」

與其說Google提供了一個統一的AI代理平台,一個更準確的比喻是,它提供了一個由多種工具和服務組成的「多重宇宙」。開發者並非只有單一選擇,而是需要根據自身的需求、技術棧和開發模式,在這個多重宇宙中找到最適合自己的路徑。

以下是在Google Cloud上構建AI代理的幾種主要方式:

  • 在Cloud Run上自訂框架: 這是最靈活的方式。開發者可以使用像LangGraph這樣的開源框架,將其打包成容器,部署在Cloud Run這個完全託管的無伺服器環境中。這種方式享有極高的擴展性、成本效益和語言自由度。
    • 最適合誰: 需要最高客製化彈性、熟悉容器化部署、且對成本控制極為敏感的開發者團隊。
  • 使用Vertex AI Agent Engine與ADK: 這是Google推薦的企業級路徑。開發者使用Agent Development Kit (ADK) 這個開源框架來構建更複雜、可測試、可維護的代理。然後,通過專為代理優化的Vertex AI Agent Engine進行部署,後者負責處理擴展、安全和監控等底層設施。
    • 最適合誰: 追求穩定性、安全性和可觀測性,需要構建企業級複雜代理應用,並希望將基礎設施管理工作交給雲平台的團隊。
  • 使用Agent Builder(基於Dialogflow): 這是一個UI優先的低代碼工具,非常適合需要快速整合現有數據庫(Data Store)和外部API(透過OpenAPI規範)的場景。它允許開發者透過圖形化介面配置和管理多個協同工作的子代理。
    • 最適合誰: 希望透過圖形化介面快速整合現有數據與API,且團隊中包含較少程式背景成員的產品團隊或業務單位。
  • 使用Gemini Business中的新Agent Builder: 這是Google最新的產品,集成在Gemini Business/Enterprise訂閱(每月分別為21或30美元)中。其最大亮點是可以用自然語言描述來設計代理流程。然而,目前它的功能非常受限,特別是其連接器數量極少(僅9個)。
    • 最適合誰: 已經是Gemini Business/Enterprise的用戶,希望用自然語言快速搭建簡單的內部自動化流程,且目前需求能被其有限的連接器滿足的業務人員。

了解這些不同選項的優劣勢、適用場景和成熟度,對於在Google Cloud上做出正確的技術選型至關重要。並不存在一個「最好」的方案,只有「最適合」的方案。

3. 真相三:Google正在秘密押注開放性—從開源框架到通用協議

挑戰「大型科技公司必然建立封閉生態系統」的普遍看法,一個令人驚訝的事實是,Google在AI代理領域的策略中,開放性是一個核心支柱。這不僅僅是口號,而是透過兩個關鍵行動體現的:

  1. 開源框架: Google的Agent Development Kit (ADK)不僅是開源的,更被設計為「模型無關(model agnostic)」和「部署無關(deployment agnostic)」。這意味著開發者使用ADK構建的代理,既可以選擇Gemini模型,也可以使用OpenAI或任何開源模型;既可以部署在Google Cloud上,也可以部署在其他雲端平台甚至本地伺服器。這給予了開發者極大的自由,避免了技術鎖定。
  2. 開放標準: Google與超過50個行業夥伴共同推出了「代理對代理(Agent-to-Agent, A2A)協議」。這是一個開放的技術標準,旨在讓不同公司、在不同平台上構建的代理,能夠像API一樣互相發現、溝通與協作。

"True power lies in enabling them to collaborate and share their unique capabilities. Think of stacking Legos over one another."

這表明Google的長遠目標可能不僅僅是成為一個封閉平台的擁有者,而是希望成為未來AI代理互聯時代的基礎設施提供者。通過推動開源工具和開放協議,Google正在為一個由無數專業代理組成的、可互操作的網絡奠定基礎。

4. 真相四:部署AI代理的門檻正在崩塌—比你想像的更簡單、更便宜

許多開發者心中普遍存在一個觀念:部署一個能夠處理高併發、穩定運行的AI應用,既複雜又昂貴。然而,技術講座中的具體案例徹底顛覆了這一認知。

  • 簡化部署: 在Cloud Run的演示中,開發者僅用一個命令gcloud run deploy,就將本地的源代碼在幾分鐘內變成了一個全球可訪問的、安全的HTTPS端點。這個命令自動完成了打包、上傳、構建容器、部署和流量切換等所有繁瑣的步驟。這極大地降低了從開發到上線的技術門檻。
  • 低成本模型: 在Vertex AI Agent Engine的介紹中,其定價模式給人留下了深刻印象。它採用的是「按使用付費(pay as you go)」模式,沒有固定費用。更具體的數字是:「如果你的代理使用一個核心的CPU和1GB的內存,連續運行整整一個小時,預計花費僅約11美分。」

這種極低的部署複雜度和可負擔的定價,意味著即使是個人開發者或小型初創團隊,也能夠輕鬆地實驗、迭代並推出自己的AI代理應用,而無需擔心高昂的基礎設施成本和複雜的運維工作。

5. 真相五:在無代碼戰場上,Google最新的武器出乎意料地落後了

無代碼/低代碼工具是AI普及化的關鍵戰場,Google和OpenAI都在此積極佈局。然而,一個出乎意料的觀察是:Google最新為Gemini Business用戶推出的Agent Builder,在當前階段的功能上,反而比其主要競爭對手,甚至比Google自己的另一款工具(基於Dialogflow的Agent Builder)更受限制。

根據多位分析師的評測,其主要限制體現在:

  • 高昂的准入門檻: 使用該工具的前提是必須訂閱每月21或30美元的Gemini Business/Enterprise服務。
  • 極其有限的連接器: 目前僅提供9個官方連接器,且絕大多數是Google自家的或與其生態緊密相關的產品,缺乏廣泛的第三方應用支持。
  • 生態封閉: 雖然提供了一個「代理尋找器」來發現合作夥伴的代理,但整合流程繁瑣,用戶需要單獨聯繫供應商進行購買和配置。

作為對比,OpenAI的Agent Builder在生態開放性和功能靈活性上展示了更強的實力。它不僅透過MCP(Model Context Protocol)提供更多元的連接器選項,更允許開發者在「Widget Studio」中設計豐富的互動式輸出格式(而不僅是純文字),並透過視覺化的「if/else」節點實現更複雜的邏輯分支控制——這是目前Google新版工具所缺乏的精細度。

這對正在進行技術選型的企業和開發者來說是一個重要的提醒:最新的產品不一定是最強大的。一個工具的成熟度、生態系統的開放性以及社區的支持,在實際應用中同樣至關重要。

結論:超越炒作,看見未來

深入分析這些技術細節後我們發現,AI代理的世界遠比表面上看起來的更複雜、更多元。真正的進展並非來自於單一的、無所不能的通用代理,而是體現在混合模式的務實、開放生態的遠見以及低門檻部署的普及上。

當可靠性、靈活性和互操作性都成為可能時,我們距離那個由無數專業AI代理組成的、能夠高效協同工作的「AI員工」團隊,還有多遠?這是一個值得我們持續關注和探索的問題。

沒有留言:

張貼留言

市場恐慌,但你可能都想錯了?揭示當前幣圈 5 個反直覺的驚人真相

  當前市場瀰漫著恐懼。比特幣價格跌破了被視為關鍵心理支撐的 $108,000 美元價位,負面消息鋪天蓋地而來,社群中充斥著熊市即將來臨的呼聲。在這種普遍的恐慌情緒下,許多投資者感到焦慮,認為賣出是唯一的選擇。 然而,在恐慌性拋售的浪潮之下,更深入的分析是否會揭示一個完全不同的故...