星期三, 5月 20, 2026

Google I/O 2026 keynote in 35 minutes

 

這部來自 The Verge 的 35 分鐘精華影片,全面記錄了 Google I/O 2026 主演講的核心發表。本次大會的焦點正式從「生成式對話」跨入「AI 代理人(AI Agents)與通用模態」的全新時代。

以下為大會核心重點摘要:

1. 全新 AI 模型與代理人底座

  • Gemini Omni: 全新多模態模型,結合了對現實世界的物理理解與多媒體生成能力。它能透過簡單提示生成高度精準的影片(如蛋白質折疊的黏土動畫解說) [04:35],更支援以對話方式直接對影片內容、環境風格進行修改或加入全新角色 [05:07], [25:23]。付費訂閱者大會當天即可體驗 [19:04]。

  • Gemini 3.5 Flash 與 Anti-gravity 2.0: 推出運算速度比其他前沿模型快 4 倍的 Gemini 3.5 Flash,並大幅強化在編碼與經濟價值任務上的表現 [07:06], [07:47]。與其深度協同的 Anti-gravity 2.0 則是全新獨立的桌面應用程式,主打「代理人優先(Agent-first)」,支援多代理人協同運作、子代理人(Sub-agents)等架構 [08:36]。現場展示 93 個子代理人協同,在 12 小時內從零建構出一個可執行《毀滅戰士(Doom)》的作業系統核心 [09:32]。

2. 個人與工作 AI 代理人應用

  • Gemini Spark: 個人 AI 代理人,在 Google Cloud 專用虛擬機器上 24 小時不間斷運行,即便關閉筆電也能在背景處理長期任務 [10:28]。現場示範只需透過一段複雜的語音交辦(將特定會議調整顏色、幫鄰居寫Block Party邀請函、幫孩子列出學期末待辦清單並分類優先級),Spark 就會自動拆解成多個獨立任務並在背景完成(如自動生成包含格式、時程、顏色標記的 Google 文件) [11:22], [21:22]。今夏將直接內建於 Chrome 瀏覽器中,年底將推出 Android 專屬基地「Android Halo」 [13:03]。

  • Docs Live: 允許用戶用語音直接向 Gemini 進行實時的靈感傾倒(Brain dump),它能自動抓取 Drive 的履歷或 Gmail 中的活動資訊,直接生成並動態修改排版(例如將內容轉化為便於閱讀表格、加粗特定文字) [01:43]。

  • Mac OS 原生應用大升級: 整合語音能力與 Gemini Spark。現場展示選擇 Finder 中的多份發票與 PDF 文件後,直接以用語音口述:「幫我寫信給寵物旅館,並把這些文件轉換成包含寵物疫苗、過敏資訊的友善表格」,AI 即使面對語音中的口誤修正(「星期四...不,改為星期五」),也能精準自動去噪並產出完美的內嵌表格信件 [22:32]。

  • Daily Brief(每日簡報): 整合用戶的收件匣、行事曆與任務,提供晨間個人化摘要,不僅總結數據,還會組織主題並提供內嵌的下一步行動建議 [20:25]。

3. 搜尋與電商體驗重新想像

  • 智慧搜尋框(Intelligent Search Box): 迎來 25 年來最大升級,支援文字、影像、檔案、影片等多模態輸入與推理 [13:26]。AI Overview 與 AI 模式全面無縫整合,對話脈絡會持續保留 [13:54]。

  • 資訊搜尋代理人(Information Agents): 今夏推出。用戶可設定代理人在背景 24 小時追蹤特定網頁、社群或論壇(例如持續追蹤符合特定採光、位置條件的租屋處,或監控喜愛運動鞋的聯名發售訊息) [14:28]。

  • 生成式 UI(Generative UI): 將 Anti-gravity 的程式能力注入搜尋。當大學生搜尋複雜的複雜天體物理問題(如黑洞如何影響時空),搜尋引擎能在毫秒內自動編寫程式,當場在 AI Overview 中生成完全客製化、實時且可互動的動態視覺小元件(Interactive visual) [15:26], [16:23]。此功能今夏免費開放 [16:40]。

  • 通用購物車(Universal Cart): 用戶在搜尋、Gemini 對話、看 YouTube 或讀 Gmail 時,皆可一鍵將商品加入這個通用購物車。AI 會在背景自動監控價格波動、歷史價格、優惠折扣並在補貨時提醒,今夏率先於美國推出 [16:48]。

4. 創作工具與安全防偽

  • Google Pix 與 Flow 升級: 推出 Workspace 的新影像創作工具 Pix,能理解物件關係進行無縫移除、縮放與翻譯 [24:09]。創意協作工具 Flow 則支援「多任務同時執行」,將單一圖片直接解析生成 16 支不同鏡頭角度的影片,或將整段影片環境精準從清晨切換成深夜(大燈亮起、照亮沙塵等細節) [25:43]。Flow Music 則支援音樂人錄入一段旋律,自動生成具備人聲的 R&B 樂曲民主導盲帶 [27:13]。

  • Synth ID 與內容憑證全面擴展: 為應對 AI 假造風險,Google 的浮水印技術 Synth ID 與內容憑證(Content Credentials)全面擴展至搜尋與 Chrome(右鍵即可查詢圖片是否由 AI 生成或經 Photos 修改) [05:24], [05:57]。OpenAI、Kuaishou(快手)、ElevenLabs 等多家夥伴皆已加入該浮水印生態系 [06:37]。

5. 智慧硬體與科學醫療前沿

  • 全新語音智慧眼鏡(Audio Glasses): 將於今年秋季推出(與 Warby Parker 及 Gentle Monster 合作) [28:34]。無顯示螢幕,全天候透過耳邊私密語音與 Gemini 互動。現場演示強大的跨 App 背景自動自動化能力:配戴者用語音要求導航至上週與朋友去過的地方,並順道去咖啡店點「老樣子」,Gemini 會自動開啟 DoorDash App、在背景自動點擊所有規格選項完成冷飲外帶下單,並在耳邊詢問用戶是否確認並支付 20% 小費,全程完全不需掏出手機 [28:45]。

  • Gemini for Science & 醫療: 推出專門科學原型,簡譯科學文獻、將研究目標自動轉為可用程式碼 [13:14]。科學模擬 AI Alpha Earth Foundations 作為地球的「數位雙生(Digital Twin)」,協助解決去森林化與糧食安全問題 [33:55]。Isomorphic Labs 則進入前臨床階段,透過模擬分子交互作用,加速開發針對免疫系統失調與癌症的全新藥物 [34:17]。

Google 執行長 Sundar Pichai 在結尾指出,人類正站在通用人工智慧(AGI)與奇點(Singularity)的腳下,這項技術將成為人類創造力的乘數,迎來科學探索的新黃金時代 [32:20], [35:07]。

沒有留言:

張貼留言