巴斯筆記: Google I/O 2026 keynote in 35 minutes

星期三, 5月 20, 2026

Google I/O 2026 keynote in 35 minutes

這部來自 The Verge 的 35 分鐘精華影片，全面記錄了 Google I/O 2026 主演講的核心發表。本次大會的焦點正式從「生成式對話」跨入「AI 代理人（AI Agents）與通用模態」的全新時代。

以下為大會核心重點摘要：

1. 全新 AI 模型與代理人底座

Gemini Omni： 全新多模態模型，結合了對現實世界的物理理解與多媒體生成能力。它能透過簡單提示生成高度精準的影片（如蛋白質折疊的黏土動畫解說） [04:35]，更支援以對話方式直接對影片內容、環境風格進行修改或加入全新角色 [05:07], [25:23]。付費訂閱者大會當天即可體驗 [19:04]。
Gemini 3.5 Flash 與 Anti-gravity 2.0： 推出運算速度比其他前沿模型快 4 倍的 Gemini 3.5 Flash，並大幅強化在編碼與經濟價值任務上的表現 [07:06], [07:47]。與其深度協同的 Anti-gravity 2.0 則是全新獨立的桌面應用程式，主打「代理人優先（Agent-first）」，支援多代理人協同運作、子代理人（Sub-agents）等架構 [08:36]。現場展示 93 個子代理人協同，在 12 小時內從零建構出一個可執行《毀滅戰士（Doom）》的作業系統核心 [09:32]。

2. 個人與工作 AI 代理人應用

Gemini Spark： 個人 AI 代理人，在 Google Cloud 專用虛擬機器上 24 小時不間斷運行，即便關閉筆電也能在背景處理長期任務 [10:28]。現場示範只需透過一段複雜的語音交辦（將特定會議調整顏色、幫鄰居寫Block Party邀請函、幫孩子列出學期末待辦清單並分類優先級），Spark 就會自動拆解成多個獨立任務並在背景完成（如自動生成包含格式、時程、顏色標記的 Google 文件） [11:22], [21:22]。今夏將直接內建於 Chrome 瀏覽器中，年底將推出 Android 專屬基地「Android Halo」 [13:03]。
Docs Live： 允許用戶用語音直接向 Gemini 進行實時的靈感傾倒（Brain dump），它能自動抓取 Drive 的履歷或 Gmail 中的活動資訊，直接生成並動態修改排版（例如將內容轉化為便於閱讀表格、加粗特定文字） [01:43]。
Mac OS 原生應用大升級： 整合語音能力與 Gemini Spark。現場展示選擇 Finder 中的多份發票與 PDF 文件後，直接以用語音口述：「幫我寫信給寵物旅館，並把這些文件轉換成包含寵物疫苗、過敏資訊的友善表格」，AI 即使面對語音中的口誤修正（「星期四...不，改為星期五」），也能精準自動去噪並產出完美的內嵌表格信件 [22:32]。
Daily Brief（每日簡報）： 整合用戶的收件匣、行事曆與任務，提供晨間個人化摘要，不僅總結數據，還會組織主題並提供內嵌的下一步行動建議 [20:25]。

3. 搜尋與電商體驗重新想像

智慧搜尋框（Intelligent Search Box）： 迎來 25 年來最大升級，支援文字、影像、檔案、影片等多模態輸入與推理 [13:26]。AI Overview 與 AI 模式全面無縫整合，對話脈絡會持續保留 [13:54]。
資訊搜尋代理人（Information Agents）： 今夏推出。用戶可設定代理人在背景 24 小時追蹤特定網頁、社群或論壇（例如持續追蹤符合特定採光、位置條件的租屋處，或監控喜愛運動鞋的聯名發售訊息） [14:28]。
生成式 UI（Generative UI）： 將 Anti-gravity 的程式能力注入搜尋。當大學生搜尋複雜的複雜天體物理問題（如黑洞如何影響時空），搜尋引擎能在毫秒內自動編寫程式，當場在 AI Overview 中生成完全客製化、實時且可互動的動態視覺小元件（Interactive visual） [15:26], [16:23]。此功能今夏免費開放 [16:40]。
通用購物車（Universal Cart）： 用戶在搜尋、Gemini 對話、看 YouTube 或讀 Gmail 時，皆可一鍵將商品加入這個通用購物車。AI 會在背景自動監控價格波動、歷史價格、優惠折扣並在補貨時提醒，今夏率先於美國推出 [16:48]。

4. 創作工具與安全防偽

Google Pix 與 Flow 升級： 推出 Workspace 的新影像創作工具 Pix，能理解物件關係進行無縫移除、縮放與翻譯 [24:09]。創意協作工具 Flow 則支援「多任務同時執行」，將單一圖片直接解析生成 16 支不同鏡頭角度的影片，或將整段影片環境精準從清晨切換成深夜（大燈亮起、照亮沙塵等細節） [25:43]。Flow Music 則支援音樂人錄入一段旋律，自動生成具備人聲的 R&B 樂曲民主導盲帶 [27:13]。
Synth ID 與內容憑證全面擴展： 為應對 AI 假造風險，Google 的浮水印技術 Synth ID 與內容憑證（Content Credentials）全面擴展至搜尋與 Chrome（右鍵即可查詢圖片是否由 AI 生成或經 Photos 修改） [05:24], [05:57]。OpenAI、Kuaishou（快手）、ElevenLabs 等多家夥伴皆已加入該浮水印生態系 [06:37]。

5. 智慧硬體與科學醫療前沿

全新語音智慧眼鏡（Audio Glasses）： 將於今年秋季推出（與 Warby Parker 及 Gentle Monster 合作） [28:34]。無顯示螢幕，全天候透過耳邊私密語音與 Gemini 互動。現場演示強大的跨 App 背景自動自動化能力：配戴者用語音要求導航至上週與朋友去過的地方，並順道去咖啡店點「老樣子」，Gemini 會自動開啟 DoorDash App、在背景自動點擊所有規格選項完成冷飲外帶下單，並在耳邊詢問用戶是否確認並支付 20% 小費，全程完全不需掏出手機 [28:45]。
Gemini for Science & 醫療： 推出專門科學原型，簡譯科學文獻、將研究目標自動轉為可用程式碼 [13:14]。科學模擬 AI Alpha Earth Foundations 作為地球的「數位雙生（Digital Twin）」，協助解決去森林化與糧食安全問題 [33:55]。Isomorphic Labs 則進入前臨床階段，透過模擬分子交互作用，加速開發針對免疫系統失調與癌症的全新藥物 [34:17]。

Google 執行長 Sundar Pichai 在結尾指出，人類正站在通用人工智慧（AGI）與奇點（Singularity）的腳下，這項技術將成為人類創造力的乘數，迎來科學探索的新黃金時代 [32:20], [35:07]。

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)