為 AI 裝上大腦:Google 揭示「情境工程」如何賦予 AI 記憶與個人化能力

為 AI 裝上大腦:Google 揭示「情境工程」如何賦予 AI 記憶與個人化能力

大型語言模型 (LLM) 儘管能力強大,卻存在一個根本性的致命弱點:它們天生是「無狀態的 (stateless)」。每一次互動都是一次全新的開始,如同與一位記憶永遠歸零的對談者交流。這種健忘症正是將 AI 從巧妙的「無狀態」聊天機器人,提升為具備持久價值的智慧應用的最大障礙。要跨越這道鴻溝,我們需要的不是更多的提示技巧,而是一套全新的架構性準則。

近期,Google 與 Kaggle 合作的 AI 代理程式密集課程,便揭示了這套完整的藍圖。其核心概念——情境工程 (Context Engineering)——代表著一場典範轉移:從戰術性的「提示工程」,演進為一套戰略性的架構實踐。這是一門必要的紀律,旨在為 AI 裝上大腦,打造真正具備狀態感知、長期記憶與深度個人化能力的智慧代理程式。

1. 重新定義 AI 互動的基石——情境工程

長期以來,開發者社群專注於「提示工程 (Prompt Engineering)」,試圖透過精雕細琢的靜態指令來引導模型。然而,要建構真正智慧的代理程式,我們必須演進到一個更全面、更動態的框架。提示工程關注的是為模型提供一份固定的行為說明書,而情境工程則是一個完整的動態建構過程,它確保模型在每一次互動中,都能獲得完成當前任務所需的一切資訊。

這個概念的核心精神,可以用廚師的法文術語「備料 (mise en place)」來比喻。如果說提示工程只是給廚師一份食譜,那麼情境工程則是確保廚師在動手烹飪前,工作台上已經備妥了所有高品質的食材(相關情境)、鋒利的專用刀具(函式定義),並且充分理解用餐者的飲食偏好與過敏史(用戶記憶)。唯有如此,廚師才能穩定地創造出卓越且個人化的菜餚。

情境工程透過一個清晰的四步驟操作循環,在每一次對話輪次中為 AI 精心「備料」:

1. 擷取情境 (Fetch Context): 根據用戶當前查詢,從記憶、RAG 文件庫等外部系統中檢索相關資訊。

2. 準備情境 (Prepare Context): 將所有資訊動態組合成最終的提示字串。這是位於互動「熱路徑 (hot path)」上的關鍵步驟,直接影響回應延遲。

3. 調用模型與工具 (Invoke LLM and Tools): 將準備好的情境發送給 LLM,並根據其回應執行必要的工具。

4. 上傳情境 (Upload Context): 在背景非同步地將本次互動中產生或更新的資訊,寫入記憶等持久性儲存中。

這個循環所管理的複雜 payload(資訊負載),主要由三個核心部分組成,它們共同構成了 AI 的「當前意識」:

• 引導推理的情境 (Context to guide reasoning): 這部分定義了代理程式的行為模式與能力邊界,包含系統指令、工具定義與少樣本範例 (Few-Shot Examples)。

• 證據與事實資料 (Evidential & Factual Data): 這是代理程式進行推理的實質依據,包含長期記憶、透過 RAG 檢索的外部知識、以及工具的輸出。

• 即時對話資訊 (Immediate conversational information): 這部分讓代理程式錨定在當前的互動中,包含對話歷史、臨時狀態/草稿區 (State / Scratchpad) 以及用戶當前的提示。

情境工程的戰略重要性在於,它透過動態組織、篩選和注入上述資訊,直接解決了「情境腐化 (context rot)」的問題。當過多無關或陳舊的資訊塞滿模型的上下文視窗時,模型的推理能力會顯著下降。情境工程就像一位高效的資訊管理者,確保 AI 的「工作記憶」永遠保持清晰、相關且高效。

為了實現這一宏觀願景,情境工程依賴兩個核心的實踐元件:一個處理即時互動的「工作台」,以及一個儲存長期知識的「檔案櫃」。

2. 雙軌記憶系統:對話的工作台與知識的檔案櫃

為了賦予 AI 記憶,我們需要一個雙軌系統。Google 的白皮書巧妙地運用了「工作台 (workbench)」與「檔案櫃 (filing cabinet)」的比喻,來闡述這套系統的運作模式。代理程式透過「對話 (Sessions)」這個工作台來處理當前、即時的短期資訊;同時,透過「記憶 (Memory)」這個檔案櫃來建立一個有組織、可供長期查閱的個人化知識庫。這兩者協同運作,構成了 AI 從健忘到能夠學習與適應的基礎。

2.1 短期記憶:對話的「工作台」(Sessions)

「對話 (Session)」是一個自我包含的容器,用於記錄單一、連續的互動過程。它不僅僅是一份聊天紀錄,更是一個結構化的短期記憶單元,主要包含兩個關鍵部分:按時間順序排列的「事件 (Events)」,如用戶輸入、代理程式回應、工具呼叫等;以及結構化的「狀態 (State)」,如同一個臨時草稿區,用於存放當前任務的關鍵變數。

然而,在生產環境中管理 Session 面臨著嚴峻的挑戰:

• 安全性與隱私: 每個 Session 都與特定用戶綁定,必須實施嚴格的存取控制以確保用戶間的資料隔離。更關鍵的是,在任何對話資料被寫入永久儲存之前,都必須進行 PII (個人可識別資訊) 的偵測與編修,以符合法規要求並保護用戶信任。

• 效能與延遲: Session 資料位於每次互動的「熱路徑 (hot path)」上,意味著它需要在極短時間內被讀取與處理。隨著對話歷史變長,傳輸和處理的資料量增加,會直接導致 API 成本上升與使用者感受到的延遲增加。

• 上下文管理: 為了避免龐大的對話歷史超出模型的上下文視窗限制,必須採用「壓縮策略 (Compaction strategies)」。簡單的方法包括僅「保留最後 N 輪對話」。更複雜的方法,如「遞歸摘要 (Recursive Summarization)」,則會利用 LLM 在背景將舊的對話內容總結成精簡的摘要。這種方法能保留更高品質的情境,但其權衡之處在於需要一次額外、可能增加成本與延遲的 LLM 調用。

2.2 長期記憶:個人化的「檔案櫃」(Memory)

如果說 Session 是處理當下任務的工作台,那麼「記憶 (Memory)」就是一個精心整理、可供長期查閱的檔案櫃。此處的區分不僅是學術上的,它更是一項核心架構決策,決定了代理程式最終是成為一個事實檢索工具,還是一位個人化夥伴。Google 的專家以一個生動的類比來區分二者:RAG 如同研究圖書管理員,它讓代理程式從龐大的外部知識庫中查找事實,成為事實專家;而 Memory 則像是個人助理,它記錄了關於你的偏好與歷史互動,讓代理程式成為你的專家

記憶的生成並非簡單的儲存,而是一個由 LLM 驅動、主動進行自我管理的 ETL (擷取、轉換、載入) 管道。這個由記憶管理器運行的過程,是一個智慧的、持續的策展行為,為了不影響用戶體驗,它必須在背景非同步執行:

1. 擷取 (Extraction): 首先,LLM 會分析嘈雜的對話紀錄,並根據預先定義好的主題,從中過濾並提取出有意義的信號。

2. 整合 (Consolidation): 接著,系統會將新擷取的資訊與檔案櫃中已有的記憶進行比對。LLM 會智慧地決定是更新現有記憶、合併重複資訊,還是刪除過時或矛盾的內容,以確保知識庫的準確性與一致性。

3. 儲存 (Storage): 最後,經過處理和整合後的記憶會被持久化儲存到向量資料庫或知識圖譜中,以備未來快速檢索。

一種更具自主性的架構模式是「記憶即工具 (Memory-as-a-Tool)」。在此模式下,代理程式被賦予 create_memory 或 query_memory 等工具,由 LLM 自行判斷在對話中何時需要儲存或檢索資訊。這賦予了代理程式更高的自主性,但其代價是可能需要額外的 LLM 調用來決定是否使用工具,從而帶來潛在的延遲與成本。

從認知科學的角度來看,這些記憶主要分為兩種類型:

• 宣告式記憶 (Declarative memory): 關於事實的知識(知道「是什麼」),例如:「用戶最喜歡的運動隊是巨人隊。」

• 程序式記憶 (Procedural memory): 關於流程的知識(知道「如何做」),例如:「成功預訂機票所需的一系列工具呼叫順序。」

2.3 記憶的基石:來源與信任 (Memory Provenance)

「垃圾進,自信的垃圾出 (garbage in, confident garbage out)」是 LLM 時代的一句格言,對於記憶系統而言更是致命風險。為了建立可靠的代理程式,我們必須能夠評估記憶的品質,而其信任度直接源自於它的來源 (provenance)——即一份記憶的原始出處與歷史。

代理程式必須根據記憶的來源類型與時效性來評估其可信度。例如,由 CRM 系統預先載入的引導式資料 (Bootstrapped Data) 通常具有高可信度,而從對話中隱性推斷 (implicitly inferred) 的用戶偏好則可信度較低。這種信任層級在解決衝突時至關重要:當 CRM 記錄的聯絡資訊與用戶在對話中的隨口提及不一致時,系統應優先採納哪個版本?此外,當用戶撤銷對某個數據源的訪問權限時,所有源自該數據的衍生記憶都必須被可靠地刪除或重新生成,這對維護數據完整性與用戶隱私構成了重大的運營挑戰。

理論框架雖已清晰,但其實際應用充滿挑戰。接下來,讓我們借鏡來自第一線專家的洞見,探討這些概念如何從理論走向實踐。

3. 專家洞察:從理論到實踐的未來展望

本節匯集了來自 Google 內外部專家的觀點,深入探討情境工程與記憶系統在真實世界中的應用、挑戰與未來趨勢。

Google Labs 的 Stephen Johnson 將 NotebookLM 描述為一個「面向消費者的上下文管理使用者介面」。他指出,這個工具讓非開發背景的用戶也能直觀地控制模型的上下文,只需上傳文件,就能決定模型應該基於哪些資訊進行回應。藉助百萬級 token 的上下文視窗和背後強大的 RAG 技術,用戶可以輕鬆地與大量資料進行深度對話,這正是情境工程理念在產品形態上的絕佳體現。

在開發者框架層面,Google 的 Julia Visinger 揭示了 ADK (Agent Development Kit) 的未來藍圖。ADK 近期引入了更清晰的上下文劃分,將其分為「靜態指令」(代理程式的核心身份)、「使用者訊息」(用戶的原始輸入)和「輪次指令」(應用程式在每次請求中動態生成的引導)。Visinger 強調,這種結構化設計之所以至關重要,是因為它能確保在生產環境中進行審計、保障安全性和實現規模化的需求。展望未來,ADK 將在動態上下文注入記憶個人化方面進行大量投入。

來自 Cohere 的 Jay Alamar 則從模型與檢索的角度提供了深刻洞見。他強調,高效的記憶系統遠不止於簡單的向量搜索,而是需要一個結合了關鍵字搜索、向量搜索以及多層次重排(reranking)的混合式檢索系統。在深入探討了記憶來源、衝突解決和整合的複雜性後,白皮書作者、Google 工程師 Kimberly Milam 的觀點則顯得格外有力,她坦言:「把記憶做好非常、非常困難 (it is very very hard to do memory well)」。這句話精準地總結了高品質記憶維護的挑戰,也凸顯了其在建構可靠代理程式中的核心地位。

專家們的洞見描繪了一幅充滿機遇與挑戰的畫卷,從他們的實踐與展望中,我們可以提煉出整個領域發展的宏觀結論。

4. 結論:打造真正具備適應性 AI 的藍圖

綜合來看,情境工程並非單一技術,而是構建下一代智慧代理程式的總體性指導原則與核心紀律。它透過精妙地協調「對話 (Sessions)」這一即時工作台和「記憶 (Memory)」這一長期檔案櫃,為 AI 系統性地解決了「健忘症」這一根本缺陷。這套框架讓代理程式從只能進行一次性問答的研究圖書管理員,進化為能夠真正學習、適應並深入了解用戶的個人助理

這一框架的深遠影響在於,它為開發者社群提供了一套清晰的藍圖。依循這套藍圖,開發者可以打造出能夠與用戶建立長期關係、具備持續性與深度個人化能力的 AI 體驗。這意味著未來的 AI 不再是冷冰冰的工具,而是能夠與我們共同成長,記住我們偏好、理解我們目標的智慧夥伴。這正是通往下一代個人化、自適應 AI 服務的必經之路。

正如 Jay Alamar 在課程中向開發者社群發出的呼籲:「勇於挑戰極限 (shoot for the sky)」。情境工程、Session 與 Memory 等新工具與框架已經備妥,現在正是利用它們來共同塑造代理程式與 AI 未來的最佳時機。一場關於 AI 互動體驗的深刻變革,正由此拉開序幕。

--------------------------------------------------------------------------------

資料來源

  • Context Engineering: Sessions, Memory, Authors: Kimberly Milam and Antonio Gulli

Read more

AI浪潮下的組織再造:為何「首席生產力長」將是企業的下一個關鍵角色?

AI浪潮下的組織再造:為何「首席生產力長」將是企業的下一個關鍵角色?

近期,《華爾街日報》的報導揭示了一個令人不安的趨勢:大型企業正積極利用人工智慧(AI)處理過去由白領階級執行的任務。然而,這波裁員潮背後有著雙重因素:其一是企業對AI效率的積極擁抱,其二則是對疫情期間過度招聘所進行的一次「預期中的修正」。這股浪潮不僅衝擊了資深員工,也減少了職場新人的機會,在職場中引發了普遍的焦慮感。然而,在這份對未來的擔憂之下,一場更深刻、更具結構性的組織變革正在悄然醞釀。這場變革的核心問題不再是「哪些工作會被取代?」,而是「企業該如何重塑自身,以駕馭人與機器協作的新時代?」 1. 技術革命的核心:為何是「人事部門」站上第一線? 面對 AI 驅動的顛覆性變革,企業的焦點正意外地轉向一個傳統上被視為支援性部門的單位:人力資源部。在這場轉型的核心,人資長(Chief Human Resource Officer, CHRO)的角色正從功能性管理者,演變為企業存續的關鍵策略夥伴。 BCG 的顧問 Julia Dhar 引述其同事 Rishi Varma 的一個絕佳比喻,

By Wesley Tsai
Gemini 3 的「思維簽章」不只是技術升級:關於 AI 責任與信任,你該知道的 5 個驚人真相

Gemini 3 的「思維簽章」不只是技術升級:關於 AI 責任與信任,你該知道的 5 個驚人真相

「職場上需要人類背黑鍋,所以不用擔心 AI 會取代全人類。」這句流傳已久的笑話,或許道出了人類在自動化時代殘存的某種價值。然而,隨著 Google Gemini 3 的推出,其核心的「思維 (Thinking)」機制與「思維簽章 (Thought Signature)」功能,似乎正讓這個玩笑瀕臨失效。這是否意味著人類連背黑鍋的作用都沒有了?答案遠比想像中更複雜,也更發人深省。 1. AI 正式進入「慢思考」時代 諾貝爾獎得主 Daniel Kahneman 曾提出人類心智運作的雙系統理論:「系統 1 (快思)」依賴直覺與反射,而「系統 2 (慢思)」則進行審慎的邏輯推理。過去,所有大型語言模型都像是純粹的「系統 1」生物,其核心任務就是急著預測下一個字,完全憑藉訓練數據中的模式直覺反應。這導致我們必須設計各種複雜的提示詞工程

By Wesley Tsai
深度解析 Gemini 的「思考」引擎:從 Deep Think 到思維簽章的技術與市場變革

深度解析 Gemini 的「思考」引擎:從 Deep Think 到思維簽章的技術與市場變革

1. 導論:從「黑箱」到「可釋義」,AI 思維的下一個疆界 長期以來,大型語言模型 (LLM) 因其難以捉摸的「黑箱問題」而在企業應用中面臨著根本性的信任挑戰。決策者們不禁要問:AI 的建議是源於嚴謹的推導,還是僅僅是訓練數據中的巧合?這種不確定性使得銀行、醫院、律師事務所等高度重視合規與責任的機構,在全面擁抱生成式 AI 的道路上步履維艱。 諾貝爾經濟學獎得主 Daniel Kahneman 曾提出人類思維的「系統 1 (快思)」與「系統 2 (慢思)」理論。過去的 LLM 更像是依賴「系統 1 (快思)」進行快思考,憑藉直覺和模式匹配,條件反射般地預測下一個詞彙。開發者必須透過複雜的提示詞工程,如同教導孩童般,一步步引導模型進行邏輯推理。然而,隨著

By Wesley Tsai
他們不只交付程式碼,更交付「商業」成功:解密 AI 時代最搶手的前線部署工程師 (FDE)

他們不只交付程式碼,更交付「商業」成功:解密 AI 時代最搶手的前線部署工程師 (FDE)

試想一支特種部隊,他們不待在安逸的總部,而是直接空降到客戶所在的「前線戰場」。這不僅是個比喻,這個職位名稱的字源——「前方展開 (Forward Deployed)」——正來自軍事術語,反映了其在高風險、真實環境中作戰的本質。他們不僅攜帶總部最先進的技術平台,更重要的是,他們在塵土飛揚的真實環境中,與客戶並肩作戰,利用現場情報、克服未知障礙,最終達成關鍵的商業任務。這支精銳部隊,就是前線部署工程師 (Forward-Deployed Engineer, FDE)。 FDE並非傳統的軟體工程師或顧問,他們是深入客戶第一線,將頂尖技術實作與敏銳商業策略融為一體的複合型專家。他們不只交付程式碼,更交付商業成功。本文將為您揭開FDE的神秘面紗,深入解析他們的工作模式、核心價值,以及為何在AI浪潮席捲全球的今天,他們成為了科技業最不可或缺的關鍵角色。 1. FDE到底是什麼?不只是「懂技術的顧問」 如果說傳統的技術顧問是繪製作戰地圖的參謀,那麼FDE就是親赴前線、執行任務的特種部隊指揮官。他們的核心特質在於「動手實作」而非「紙上談兵」。FDE會直接進駐客戶的辦公室、工廠,親手編寫生產級別的

By Wesley Tsai