Pocket Flow 透過 AI 將代碼庫轉化為易於理解的教程。#
#AI #Codebase #Tools
GitHub - The-Pocket/PocketFlow-Tutorial-Codebase-Knowledge: Pocket Flow: Codebase to Tutorial
VoltAgent#
VoltAgent,一個開源的 TypeScript AI 代理框架,簡化 AI 代理應用的開發。它提供了一系列模組化構建塊和工具,幫助開發者快速構建從簡單聊天機器人到複雜多代理系統的各種 AI 應用。
#AI #Tools #Agents
從大型機時代到 AI Agents:邁向真正個性化技術的漫長旅程#
Sean Falconer 探討了技術從大型機時代到 AI 代理時代的演變,以及這一過程中個人技術體驗的發展。儘管過去的每一輪技術變革都曾承諾帶來更個性化的體驗,但直到 AI 的出現,技術才真正開始適應用戶,而非讓用戶去適應技術。
從 20 世紀 50 年代到 70 年代的大型機時代,計算機是巨大的共享機器,用戶需要適應機器的規則,通過終端輸入命令,且沒有個性化可言。到了 80 年代到 90 年代的桌面電腦時代,圖形用戶界面(GUI)的出現讓用戶可以通過點擊圖標和菜單進行操作,但軟件仍然無法根據用戶行為進行學習和適應,用戶仍需學習如何使用軟件。隨後,互聯網的普及讓用戶能夠選擇瀏覽器、瀏覽網站和搜索信息,但交互仍然不夠個性化,推薦系統僅基於一般趨勢和寬泛類別。進入 2000 年代的移動時代,智能手機通過應用程序和觸摸屏技術,讓用戶能夠隨時隨地獲取個性化信息,但這種個性化仍然是基於規則的,而非真正的智能學習。
AI 的出現改變了這一局面。AI 不僅能夠根據用戶的行為和偏好提供個性化的內容,還能通過自然語言處理技術讓用戶以最自然的方式與技術進行交互。AI 系統通過學習用戶的意圖和行為模式,能夠實時調整和優化用戶體驗。例如,Spotify 和 Netflix 利用 AI 分析用戶的行為數據,為用戶提供個性化的音樂和影視內容推薦,從而顯著提升了用戶參與度和滿意度。在電商領域,亞馬遜通過 AI 驅動的產品推薦系統,實現了高達 35% 的收入增長。Sephora 則結合 AI 和增強現實(AR)技術,為用戶提供個性化的美妝建議,提升了用戶參與度和轉化率。耐克的 “Nike By You” 平台則通過 AI 為用戶提供定制化的產品設計體驗。
AI 技術的快速發展得益於大型語言模型(LLM)、檢索增強生成(RAG)和自適應系統等技術的支撐。LLM 能夠理解和生成自然語言,使用戶能夠以自然的方式與系統交互。RAG 技術則允許模型在生成響應之前檢索實時信息,確保輸出內容的準確性和時效性。自適應系統則通過監測用戶行為和反饋,不斷優化自身的性能和推薦效果。
隨著 AI 技術的持續發展,未來的應用程序將不再僅僅是用戶的服務工具,而是能夠與用戶共同成長和進化的夥伴。這些應用程序將通過學習用戶的行為和偏好,實時調整和優化用戶體驗,從而提供更加自然和有用的交互方式。然而,隨著技術的個性化程度不斷提高,確保其公平性、透明性和可訪問性也變得至關重要,以確保所有用戶都能從中受益。
#AI #思考 #用戶體驗
From Mainframes to AI Agents: The Long Journey to Truly Personal Tech
OpenDeepWiki 源碼解讀#
#AI
Claude 4 發布#
Claude 4 是 Anthropic 推出的下一代 AI 模型,包括 Claude Opus 4 和 Claude Sonnet 4,以下是其主要特點總結:
- 高級編程能力:Claude Opus 4 是當前最強的編程模型,在 SWE-bench 等基準測試中表現卓越,能長時間處理複雜編碼任務,導航錯誤率從 20 % 降至近 0。支持 20 多種編程語言的代碼生成與調試,適合複雜代碼庫管理。
- 混合推理模式:提供即時響應和擴展思考兩種模式,擴展思考模式支持深入推理並結合工具使用(如網絡搜索),提升複雜任務的響應質量。
- 增強的多模態能力:支持文本、圖像處理,並可能擴展到視頻內容分析和圖像生成,適合媒體、教育和安全等領域的應用。
- 擴展的上下文窗口:保持 200 K token 的上下文窗口(約 350 頁文本),適合處理長文檔和複雜對話,上下文保留能力優於前代。
- 高級推理與問題解決:在研究生級推理(GPQA)、數學和邏輯任務中表現突出,推理能力較 Claude 3.5 提升 40 %,數學錯誤率降低 60 %。
- 倫理與安全:延續 Anthropic 的憲法 AI 方法,強化安全措施和偏見緩解,確保 AI 行為負責任,符合 GDPR 等全球法規。
- 高效性能與成本:處理速度提升 2.5 倍,保持高性能的同時成本效益高,定價為 Opus 4($15 / 百萬輸入 token,$75 / 百萬輸出 token)和 Sonnet 4($3 / 百萬輸入 token,$15 / 百萬輸出 token)。
- 企業級應用:提供 SDK、實時調試和開源插件,支持跨平台集成,適用於零售、醫療、教育等行業的複雜工作流,如數據分析、個性化體驗和自動化任務。
- 多語言支持與全球化:支持多語言實時翻譯和內容生成,增強全球可訪問性。
- 用戶體驗優化:提供 “styles” 功能定制寫作風格,支持內容創作和技術文檔;“artifacts” 功能生成互動式內容;支持長期任務的記憶優化,提升連續性。
局限性:視覺識別能力可能不如 Gemini 2.5,需更精確的提示工程以充分發揮性能。
Claude 4 在編程、推理和多模態能力上顯著提升,強調倫理 AI 和企業應用,適合需要深度推理和複雜任務處理的場景。
#Claude #AI
Anthropic 發布 Claude Opus 4 和 Claude Sonnet 4。#
Claude Opus 4 是迄今為止最強大的模型,也是世界上最好的編碼模型。
Claude Sonnet 4 比其前代產品有了重大升級,提供了卓越的編碼和推理能力。
#Claude #AI
利用新的生成媒體模型和工具激發創造力#
谷歌 DeepMind 團隊發布了一系列新的生成式媒體模型和工具,旨在激發創意並為創作者提供更多表達手段。這些模型包括 Veo 3、Imagen 4 和 Flow,它們在圖像、視頻和音樂生成方面取得了顯著突破,能夠幫助藝術家將創意願景變為現實。
Veo 3 是谷歌最新的視頻生成模型,不僅在質量上超越了 Veo 2,還首次實現了視頻與音頻的同步生成,例如可以在城市街道場景中生成背景交通噪音,或在公園中生成鳥鳴聲,甚至能夠生成角色之間的對話。Veo 3 在文本和圖像提示、真實物理效果以及精確的口型同步方面表現出色,能夠根據用戶的故事描述生成相應的視頻片段。Veo 3 已於當天在美國上線,供 Gemini 應用程序的 Ultra 訂閱用戶以及 Flow 用戶使用,同時企業用戶也可以在 Vertex AI 上獲取該模型。
Imagen 4 是谷歌最新的圖像生成模型,結合了速度與精度,能夠生成具有驚人細節清晰度的圖像,無論是複雜的織物紋理、水滴還是動物皮毛,都能精確呈現。該模型支持多種寬高比和高達 2K 分辨率的圖像生成,適用於打印或演示。此外,Imagen 4 在拼寫和排版方面也有了顯著提升,能夠更輕鬆地創建賀卡、海報甚至漫畫。Imagen 4 已在 Gemini 應用程序、Whisk、Vertex AI 以及 Workspace 的幻燈片、視頻、文檔等工具中上線,並且即將推出一個速度更快的變體,其生成速度比 Imagen 3 快 10 倍,能夠更快速地探索創意。
Flow 是一款為 Veo 設計的 AI 影視製作工具,結合了谷歌 DeepMind 最先進的模型,包括 Veo、Imagen 和 Gemini。用戶可以通過自然語言描述鏡頭,管理故事中的角色、場景、物品和風格,並將這些元素編織成精美的場景。Flow 已於當天在美國上線,供 Google AI Pro 和 Ultra 計劃的訂閱用戶使用,未來幾個月將擴展到更多國家。
此外,谷歌還宣布了 Lyria 2 的更新,這是一款音樂生成模型,能夠為音樂家、製作人和詞曲作者提供實驗性工具,激發新的創作靈感。Lyria 2 現已通過 YouTube Shorts 和 Vertex AI 向創作者和企業用戶開放。谷歌還推出了 Lyria RealTime,這是一個交互式音樂生成模型,能夠實時生成、控制和表演生成式音樂,用戶可以通過 API 或 AI Studio 使用該模型。
在負責任的創作方面,谷歌自 2023 年以來通過 SynthID 水印技術標記了超過 100 億張圖像、視頻、音頻文件和文本,以幫助識別 AI 生成的內容,減少虛假信息和錯誤歸因的可能性。Veo 3、Imagen 4 和 Lyria 2 生成的內容將繼續帶有 SynthID 水印。同時,谷歌還推出了 SynthID Detector,這是一個驗證門戶,用戶可以上傳內容以識別其中是否含有 SynthID 水印,從而判斷內容是否由 AI 生成。
#Google #AI #Tools
Fuel your creativity with new generative media models and tools
Claude Code SDK#
Anthropic 團隊推出 Claude Code SDK,幫助開發者將 Claude Code 功能集成到應用程序中。該 SDK 當前支持命令行使用,未來將推出 TypeScript 和 Python 版本。
基本使用方面,開發者可以通過命令行以非交互模式運行 Claude Code,例如使用 -p 參數直接傳遞提示詞,或者通過管道將輸入傳遞給 Claude Code。此外,還可以指定輸出格式為文本、JSON 或流式 JSON,以滿足不同開發需求。
在高級使用場景中,SDK 支持多輪對話功能,開發者可以繼續最近的對話或通過會話 ID 恢復特定對話。此外,還可以通過自定義系統提示來引導 Claude 的行為,例如指定其以特定角色(如高級後端工程師或數據庫架構師)進行回答。此外,Model Context Protocol(MCP)配置允許開發者擴展 Claude Code 的功能,通過加載外部服務器提供的工具和資源,例如文件系統訪問或 GitHub 集成。
CLI 選項方面,SDK 提供了豐富的命令行選項,包括非交互模式運行、指定輸出格式、恢復會話、限制對話輪數、覆蓋或追加系統提示等。這些選項為開發者提供了靈活的控制能力,以適應不同的開發場景。
輸出格式支持多種類型。默認的文本輸出僅返回響應文本;JSON 輸出則包含結構化數據和元數據,如成本、持續時間和會話 ID;流式 JSON 輸出則逐條返回消息,適合處理多輪對話。
消息架構方面,返回的消息嚴格遵循特定模式,包括助手消息、用戶消息、會話初始化消息和最終結果消息。每種消息類型都包含特定字段,例如會話 ID、消息類型和子類型等。
最佳實踐建議開發者使用 JSON 輸出格式以便於程序解析,並通過檢查退出代碼和錯誤日誌來優雅地處理錯誤。同時,建議利用會話管理功能維持多輪對話的上下文,並在必要時設置超時和遵守速率限制。
實際應用場景中,Claude Code SDK 可以與開發工作流深度集成,例如通過 GitHub Actions 提供自動化代碼審查、創建拉取請求和問題分類等功能。Anthropic 團隊還提供了完整的 CLI 文檔、教程和相關資源,以幫助開發者更好地利用該 SDK。
#Claude #AI #SDK
如何讓用戶體驗良好的同時,提高產品轉化率?#
用戶引導設計的初衷是幫助用戶快速上手產品,降低使用門檻,但在追求轉化率的過程中,有時會變成一種 “溫柔的控制”,甚至可能侵犯用戶的基本權益。例如,一些產品在引導用戶開通會員時,將 “試用 3 天後自動續費” 的條款寫得極小,而取消訂閱的流程卻極為複雜。這種設計雖然可能在短期內提高轉化率,但長期來看會損害用戶的信任感,甚至可能因違反法律法規而面臨風險。
為了實現用戶體驗與轉化率的平衡,DesignLink 提出了以下幾點建議:
- 尊重用戶的選擇權:設計應讓用戶真正擁有選擇的權利,而不是通過視覺或交互手段強迫用戶做出決策。例如,不應將 “同意” 按鈕設計得過於顯眼,而將 “拒絕” 選項隱藏或弱化。同時,應提供明確的退出路徑,讓用戶能夠輕鬆地取消操作或稍後決定。
- 保障用戶的信息透明權:在請求用戶權限或收集用戶數據時,必須清晰地告知用戶目的、內容和後果。例如,當需要訪問用戶的麥克風或攝像頭時,應明確說明用途,而不是僅以 “為了更好的服務體驗” 為由讓用戶感到困惑。此外,用戶協議等重要信息應使用通俗易懂的語言,避免使用過於複雜的法律術語。
- 賦予用戶數據控制權:用戶應能夠輕鬆地管理自己的數據,包括導出、修改和刪除。產品設計中應提供便捷的數據管理功能,讓用戶能夠隨時查看和控制自己的數據。
- 優化退出與取消流程:取消訂閱或退出服務的流程應簡潔明了,避免設置過多的障礙。例如,不應讓用戶在取消訂閱時填寫複雜的問卷或聯繫客服,而應提供一鍵取消的功能。同時,取消後應保留用戶的數據訪問權一段時間,讓用戶能夠隨時恢復服務。
設計倫理在用戶體驗設計中至關重要。設計師應以用戶為中心,站在用戶的角度思考問題,確保用戶在使用產品時感到安心、自由和被尊重。例如,在設計註冊、支付或分享等關鍵節點時,應提供清晰、易懂的選項,並設置二次確認機制,避免用戶因誤操作而後悔。
DesignLink 提出了建立可持續的體驗與權益平衡模型的方法。例如,採用 “三段式設計審查機制”,在功能上線前確認用戶是否真正需要該功能,在中期檢查用戶是否能夠自主掌控引導流程,並在後期收集用戶反饋,持續優化產品。同時,設計模型應具備公平性、可解釋性、可逆性和可反饋性,確保所有用戶都能順暢使用產品,並能夠隨時反悔或提出意見。
#用戶體驗 #體驗設計
Google Stitch#
Google 發布 Stitch,號稱是生成出色設計和 UI 界面最簡單、最快捷的產品。
Stitch 是一個 AI 驅動的工具,幫助應用程序構建器為移動和 Web 應用程序生成高質量的用戶界面,並輕鬆將它們導出 Figma,或直接訪問前端代碼。
#Google #AI
谷歌今天在 I/O 2025 大會上宣布了一系列新的 AI 模型、工具和訂閱服務#
生成媒體
- Veo 3 是 Google 最先進的視頻生成模型,能夠創建帶有音效甚至對話的視頻,目前在美國,Google AI Ultra 訂閱用戶可以通過 Gemini 應用和 Flow 使用,也可以在 Vertex AI 上進行私人預覽,並將在未來幾周內更廣泛地推出
- Veo 2 正在獲得新功能,例如參考驅動的視頻(用於一致的風格和角色)、用於精確鏡頭調整的相機控制、用於擴展縱橫比的外畫以及對象添加 / 刪除,現在 Flow 中提供了一些新控件,而 Vertex AI 即將提供全套控件
- Imagen 4 可生成更豐富、更細緻、更準確的圖像,改進文本渲染和快速結果,現已在 Gemini 應用程序、Whisk、Workspace(幻燈片、文檔、視頻)和 Vertex AI 中免費提供,新的快速版本即將推出
- Flow 是一款全新的 AI 電影製作工具,可讓您通過自然語言和資產管理,使用 Veo、Imagen 和 Gemini 創建電影剪輯;現在可供美國的 Google AI Pro 和 Ultra 訂閱用戶使用
- Google 的音樂生成模型 Lyria 2 現已在 Vertex AI 中上線,用於高保真自適應音樂生成,Lyria RealTime 可作為實驗性交互式音樂模型通過 Gemini API 和 Google AI Studio 使用,用於實時創作和演奏生成音樂
Gemini 應用程序
- Canvas 新增一鍵 “創建” 按鈕,可輕鬆將聊天內容轉換為交互式內容,例如信息圖表、測驗和 45 種語言的播客,而 Deep Research 現在可讓您上傳文件和圖像,並且即將推出 Google Drive 和 Gmail 集成
- Gemini Live 相機和屏幕共享功能現已在 Android 和 iOS 上免費提供(正在推出),並將很快與日曆、Keep、地圖和 Tasks 等 Google 應用集成
訂閱
- Google AI Pro(每月 19.99 美元)可在美國和其他國家 / 地區使用,但一些最新功能(如 Chrome 中的 Flow 或 Gemini)將首先在美國推出,並計劃在更廣泛的範圍內推出
- Google AI Ultra(249.99 美元 / 月,新用戶前三個月可享受 50% 的優惠)提供最高的使用限制、最早使用 Veo 3 和 Gemini 2.5 Pro Deep Think 等高級模型、最高限制的 Flow,以及獨家使用 Agent Mode 以及 YouTube Premium 和 30TB 存儲空間,現已在美國推出,更多國家即將推出
- 美國、英國、巴西、印度尼西亞和日本的大學生可以免費獲得一學年的 Google AI Pro
Chrome 和代理模式下的 Gemini
- Chrome 中的 Gemini 正在桌面上推出,供美國(英語)的 Google AI Pro 和 Ultra 用戶使用,以便您可以總結、澄清和獲取您正在閱讀的任何網頁的幫助,並通過隱私控制使 Gemini 僅在您提出要求時採取行動
- 代理模式即將面向 Ultra 桌面用戶推出,該模式允許 Gemini 使用 MCP 協議和自動導航在線處理複雜的目標,例如篩選列表、填寫表格或根據搜索結果進行安排
人工智能在搜索中的應用
- AI 模式將以新標籤頁的形式在 Google 搜索中向所有美國用戶推出,該模式由 Gemini 2.5 提供支持,提供更高級的推理、更長的查詢、多模式搜索和即時的高質量答案,其中的 “深度搜索” 可同時進行數百次搜索並綜合引用的報告
- Project Astra 的實時功能(指向你的相機,詢問你所看到的內容)、Project Mariner 的代理工具(購買門票、進行預訂、管理任務)以及 Gmail 或其他 Google 應用的個人上下文將進入 AI 模式,由用戶控制
Gemini 2.5
- Gemini 2.5 Pro 和 2.5 Flash 是領先的編碼和推理基準,Gemini 2.5 Flash 有一個新的預覽版本,具有更好的速度、效率和編碼 / 推理能力,兩種型號都將於 2025 年 6 月全面上市
- Gemini 2.5 Pro Deep Think 引入了一種實驗性的增強推理模式,包括用於複雜任務的並行思維技術,在全面推出之前,首先通過 Gemini API 向值得信賴的測試人員推出,然後讓用戶控制答案深度和速度的思考預算
- Gemini API 和 SDK 原生支持模型上下文協議 (MCP),從而可以更輕鬆地跨系統集成代理和工具
- Gemini API 和 Vertex AI 現在提供 “思想摘要”,逐步解釋 Gemini 的推理和工具使用
Project Starline -> Google Beam、Astra -> Gemini Live、Mariner -> 特工模式
- Starline 項目現已更名為 Google Beam,這是一個由人工智能驅動的 3D 視頻通話平台,可將 2D 流媒體轉化為身臨其境的逼真會議,並將於今年晚些時候與惠普和其他企業合作夥伴合作推出
- Gemini Live 內置 Astra 的實時攝像頭和屏幕共享功能,這些功能已在 Android 上免費提供,現已在 iOS 上推出
- Project Mariner 的代理計算機使用功能(例如多任務處理和瀏覽器自動化)現已面向美國 Ultra 用戶開放,並將很快通過 Gemini API 和 Vertex AI 面向開發者開放
開放模型和開發工具
Gemma 3n 是一種新型高效多模態開放模型,專為快速、低內存設備設計,支持文本、音頻、圖像和多語言輸入,目前已在 AI Studio 和 AI Edge 上為開發者提供預覽版。
- Jules 是一款由 Gemini 2.5 Pro 提供支持的異步編碼代理,目前處於公開測試階段,並且免費,可在 GitHub 或您的 repo 中處理實際的編碼任務,並具有並發任務和音頻更新日誌
- Gemini Diffusion 是一種用於快速文本生成的實驗性研究模型,其輸出速度約為 Google 之前最快模型的五倍,目前已通過候補名單向開發者提供預覽。
SynthID Detector 是一個用於檢查圖像、音頻、視頻或文本是否由 Google 的 AI 工具生成的門戶,目前正通過候補名單向早期測試人員推出,後續將提供更廣泛的訪問權限
AlphaEvolve:基於 Gemini 的編碼代理,用於設計高級算法#
AlphaEvolve,一個由 Gemini 模型驅動的進化型編碼智能體,專門用於通用算法的發現與優化。AlphaEvolve 結合了 Gemini Flash 和 Gemini Pro 兩種大型語言模型(LLM)的能力,前者注重廣度探索,後者提供深度建議,共同提出實現算法解決方案的計算機程序代碼。通過自動化評估器驗證、運行和評分這些程序,AlphaEvolve 在數學和計算機科學等可量化領域表現出色。
AlphaEvolve 在谷歌的計算生態系統中發揮了重要作用,包括數據中心調度、硬件設計和 AI 模型訓練等。例如,它為谷歌 Borg 系統發現了一種高效啟發式算法,平均恢復了谷歌全球計算資源的 0.7%,顯著提高了數據中心的效率。在硬件設計方面,AlphaEvolve 為谷歌的張量處理單元(TPU)提出了優化建議,提升了矩陣乘法運算的效率。此外,它還通過優化 GPU 指令,為 Transformer 模型中的 FlashAttention 核心實現了高達 32.5% 的加速。
在數學和算法發現領域,AlphaEvolve 也取得了突破性進展。它提出了一個用於矩陣乘法的新型梯度優化過程,發現了多種新算法。例如,它找到了一種將 4×4 複值矩陣相乘僅需 48 次標量乘法的算法,優於此前被認為最佳的 Strassen 算法。此外,AlphaEvolve 在 50 多個數學分析、幾何、組合學和數論的開放問題中進行了測試,約 75% 的情況下重新發現了已知的最優解,而在 20% 的情況下改進了已知的最佳解決方案,例如在 11 維空間中為 “接吻數問題” 建立了新的下界。
#Google #AI #Gemini #Agents
AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms
SMS 2FA 不僅不安全,而且對山區居民不友好#
stillgreenmoss 描述了居住在北卡羅來納州西部山區的一位老年女士因短信雙因素認證(SMS 2FA)所面臨的問題。這位女士生活在山區,儘管距離城鎮僅 20 分鐘車程,但她的住所由於地形原因無法接收到穩定的手機信號。她使用 Spectrum 提供的網絡服務和手機套餐,但由於山區信號覆蓋不足,她無法接收用於登錄賬戶的短信驗證碼,導致無法訪問諸如電子郵件、銀行賬戶和醫療保健等重要服務。
儘管她啟用了手機的 Wi-Fi 通話功能,但發現來自五位數短碼的短信驗證碼仍然無法通過 Wi-Fi 接收。stillgreenmoss 進一步調查發現,某些互聯網服務提供商(ISP)提供的座機服務可以接收短信並由計算機語音讀出,但 Spectrum 並不提供此類服務。為了能夠正常使用這些服務,她需要將所有依賴 SMS 2FA 的賬戶改為使用基於時間的一次性密碼(TOTP)認證,但這需要她先登錄賬戶才能更改設置。因此,她不得不列出所有因 SMS 2FA 而無法訪問的網站,然後與朋友約定見面,前往城鎮,在朋友的幫助下逐一將這些賬戶改為 TOTP 認證。然而,部分網站不支持 TOTP,她還需要聯繫這些公司,請求關閉她賬戶的 SMS 2FA 功能,但發現如今很難與公司取得聯繫。
stillgreenmoss 指出其他解決辦法包括將手機號碼轉移到支持 Wi-Fi 接收短碼短信的 VoIP 提供商,或者花費數百美元在住所外安裝手機信號增強器,甚至考慮搬家,這些選項都顯得非常不合理。此外,儘管 TOTP 是一種替代方案,但需要下載專門的應用程序,且用戶在選擇應用時會面臨眾多高風險的選擇和複雜的技術說明。
儘管 SMS 2FA 在用戶體驗方面表現良好,且在技術上足夠安全,但其在山區的適用性極差。據估計,北卡羅來納州西部山區有 110 萬人口,整個阿巴拉契亞地區有 2500 萬人口,以及更多居住在西部山脈和太平洋沿岸山脈的人群,他們都面臨著類似的手機信號覆蓋不足的問題。stillgreenmoss 質疑,儘管這些地區有互聯網接入,但 F 級別的手機信號覆蓋使得 SMS 2FA 對於這些用戶來說幾乎無法使用,這凸顯了 SMS 2FA 在特定地理環境下的局限性。
#2FA #安全
SMS 2FA is not just insecure, it's also hostile to mountain people — stillgreenmoss
PDF 轉文本,一個具有挑戰性的问题#
Marginalia 探討了從 PDF 文件中提取文本信息的複雜性以及為搜索引擎優化文本提取的方法。團隊指出,PDF 文件本質上是一種圖形格式而非文本格式,其內容是字符映射到紙張上的坐標,字符可能旋轉、重疊且順序混亂,缺乏語義信息,這使得提取文本變得極具挑戰性。儘管如此,用戶仍能在 PDF 查看器中使用搜索功能,這本身就是一個值得驚嘆的成就。
搜索引擎更傾向於接收乾淨的 HTML 格式輸入,而目前最佳的 PDF 轉文本方法可能是基於視覺的機器學習模型,但這種方法難以在沒有 GPU 的單服務器上處理數百 GB 的 PDF 文件。因此,團隊選擇從 Apache PDFBox 的 PDFTextStripper 類入手,雖然該類能夠提取 PDF 中的文本,但存在諸多限制,例如無法識別標題等語義信息,而這些信息對於搜索引擎來說至關重要。
為了使 PDF 轉文本提取更適合搜索引擎的需求,團隊進行了多項改進。在識別標題方面,一種簡單的方法是尋找半粗體或更粗的文本行,但並非所有標題都使用加粗字體,許多標題依賴於字體大小來區分。由於不同文檔的字體大小差異較大,因此無法找到一個全局的斷點來區分標題和正文,而是需要針對每頁構建字體大小統計信息。通過分析頁面的字體大小分佈,可以發現每頁通常有一個主導字體大小,即正文文本的字體大小。在提取標題時,將頁面中位數字體大小的 20% 作為因子,能夠較為可靠地識別標題,儘管存在一些例外情況。
此外,標題有時會分成多行,團隊嘗試將連續的標題行合併為一行,但這一操作的決策較為複雜。例如,某些標題可能右對齊,或者標題下方緊跟著作者姓名等其他加粗文本,這些情況都增加了合併標題的難度。儘管如此,將具有相同字體大小和權重的連續標題行合併通常能夠取得較好的效果,但也會產生一些不理想的結果。
在識別段落方面,PDFTextStripper 在識別段落方面表現不錯,它通過分析行間距和縮進來判斷何時分段,但其行間距邏輯仍有改進空間。該工具使用固定的行間距斷點,未考慮不同文檔的行間距差異,尤其是在學術草稿和預印本中,1.5 至 2 倍的行間距較為常見。如果行間距值過大,可能會干擾標題識別,導致某些標題被誤歸入正文段落。為解決這一問題,團隊再次採用與字體大小類似的統計方法。通過分析頁面文本的行間距分佈,可以發現中位數行間距正是正文文本所使用的行間距,因此可以在此基礎上添加一個因子,從而得到一種能夠適應任何行間距的段落分隔啟發式方法。
從 PDF 中提取文本永遠不會完美無缺,因為該格式並非為提取文本而設計,且在選擇 “足夠好” 的解決方案時需要權衡利弊。搜索引擎主要關注相關性信號,例如標題,如果能夠識別摘要並大致理解剩餘文本的結構,就可以認為這是一種相對優雅的解決方案。
#PDF #實踐
PDF to Text, a challenging problem
GitHub Copilot 編碼助手公開預覽版#
GitHub Copilot 編碼助手於 2025 年 5 月 19 日正式進入公開預覽階段,為開發者帶來全新的編程體驗。開發者可以像分配給其他開發者一樣將問題分配給 Copilot,它會在後台運行,利用 GitHub Actions 提供的雲端開發環境,探索代碼庫、進行修改,並通過測試和代碼規範驗證後提交代碼。完成任務後,Copilot 會通知開發者進行代碼審查,開發者可以通過在拉取請求中留言要求 Copilot 進行修改,或者在本地分支中繼續開發,Copilot 會全程協助。
Copilot 在處理低到中等複雜度的任務時表現優異,例如在經過良好測試的代碼庫中添加功能、修復漏洞、擴展測試、重構代碼以及改進文檔等,甚至可以同時處理多個問題。該功能目前面向 Copilot Pro+ 和 Copilot Enterprise 訂閱用戶開放,使用該功能會消耗 GitHub Actions 分鐘數和 Copilot 高級請求次數,從計劃中包含的權益開始計算。從 2025 年 6 月 4 日起,Copilot 編碼助手每次模型請求將使用一個高級請求,這是一項預覽功能,未來可能會發生變化。
#Github #Copilot #AI
GitHub Copilot coding agent in public preview - GitHub Changelog
Komiko#
Komiko 是一個一站式 AI 平台,專注於為創作者提供漫畫、插畫和動漫作品的創作支持。該平台由 Caffelabs 團隊開發,整合了多種強大的 AI 工具,旨在幫助藝術家和創作者快速高效地將創意轉化為現實作品。
Komiko 的核心功能包括角色設計、漫畫創作、插畫生成和動畫製作。在角色設計方面,平台提供了豐富的角色庫,用戶可以創建並使用自己的原創角色,確保角色在不同場景下的外觀一致性。對於漫畫創作,Komiko 提供了 AI 驅動畫布,用戶可以在其上自由排布漫畫分格,添加對話氣泡和效果,增強故事表現力。插畫生成功能則支持文本生成圖像、線稿自動上色、圖像放大、背景移除和重新打光等多種操作,大幅節省了人工創作的時間和精力。在動畫製作方面,Komiko 利用了行業領先的 AI 模型,如 Veo、Kling、Hailuo 和 Pixverse 等,能夠將關鍵幀轉化為流暢、高質量的動畫,並通過補幀和視頻放大工具加速專業動畫製作流程。
#AI #動漫 #插畫
Komiko – AI Anime Generator | Create Comics, Manga and Anime with AI
git-bug#
git-bug 是一個分布式、離線優先的缺陷跟蹤工具,它將問題、評論等嵌入到 Git 倉庫中,以對象形式存儲,而非文件形式。這種設計使得用戶能夠通過 Git 的推送和拉取操作來同步問題跟蹤數據。git-bug 的核心優勢在於其與 Git 的深度集成,借助 Git 的分布式架構,用戶可以在離線狀態下創建、編輯和管理問題,之後再無縫同步到遠程倉庫中。此外,它還支持與 GitHub、GitLab 等平台通過第三方橋接進行同步,用戶可以通過命令行界面(CLI)、終端用戶界面(TUI)或網頁界面與 git-bug 交互,靈活選擇適合自己的使用方式。
#Tools #Git
OpenAI 團隊發布 Codex#
OpenAI 團隊發布了 Codex,一個基於雲端的軟件工程代理工具,能夠並行處理多項任務,由 codex-1 提供支持。Codex 針對軟件工程進行了優化,通過強化學習在多種真實編碼任務環境中進行訓練,能夠生成符合人類風格和代碼審查偏好的代碼,精確遵循指令,並且可以持續運行測試直到通過。目前,Codex 已向 ChatGPT Pro、Enterprise 和 Team 用戶開放,未來也將支持 Plus 和 Edu 用戶。
用戶可以通過 ChatGPT 的側邊欄訪問 Codex,為其分配新的編碼任務,例如編寫功能代碼、回答代碼庫相關問題、修復漏洞以及提出待審查的拉取請求等。每個任務都在獨立的隔離環境中運行,預加載了用戶的代碼庫。Codex 可以讀取和編輯文件,運行包括測試框架、代碼檢查工具和類型檢查器在內的各種命令。任務完成時間通常在 1 到 30 分鐘之間,具體取決於任務的複雜性,用戶可以實時監控 Codex 的進度。
Codex 的安全性設計至關重要。它以研究預覽的形式發布,遵循 OpenAI 的迭代部署策略。在設計時,團隊優先考慮了安全性和透明性,使用戶能夠驗證其輸出結果。用戶可以通過引用、終端日誌和測試結果來檢查 Codex 的工作內容。當 Codex 遇到不確定的情況或測試失敗時,會明確告知用戶這些問題,以便用戶做出明智的決策。不過,用戶仍需手動審查並驗證所有由代理生成的代碼,然後才能進行集成和執行。
在訓練 codex-1 時,團隊的主要目標是使其輸出與人類的編碼偏好和標準保持一致。與 OpenAI o3 相比,codex-1 能夠更一致地生成更乾淨的補丁,這些補丁已準備好可立即進行人類審查,並且能夠無縫集成到標準工作流程中。
Codex 的推出為軟件開發帶來了新的可能性。OpenAI 團隊通過內部測試和與外部合作夥伴的協作,探索了 Codex 在不同代碼庫、開發流程和團隊中的表現。Codex 能夠幫助開發者更快地實現雄心勃勃的想法,加速功能開發、調試問題、編寫和執行測試以及重構大型代碼庫。它還可以讓工程師在後台運行複雜的任務,從而保持專注並加快迭代速度。
此外,OpenAI 團隊還發布了 Codex CLI 的更新版本,這是一個輕量級的開源編碼代理,可在終端中運行。它將類似 o3 和 o4-mini 的模型的強大功能引入本地工作流程,使開發者能夠更快地完成任務。新版本的 codex-1 是為 Codex CLI 特別設計的 o4-mini,支持更快的工作流程,並且在指令遵循和風格方面保持了相同的優勢。
Codex 目前處於研究預覽階段,仍有一些限制,例如缺乏前端工作所需的圖像輸入功能,以及無法在工作時進行課程糾正。不過,隨著模型能力的提升,預計 Codex 將能夠處理更複雜的任務,並且與開發者的互動將越來越類似於與同事的異步協作。
未來,OpenAI 團隊計劃引入更具互動性和靈活性的代理工作流程。開發者將能夠在任務執行中途提供指導,與代理合作制定實現策略,並接收主動的進度更新。團隊還計劃將 Codex 與開發者日常使用的工具進行更深入的集成,例如從 Codex CLI、ChatGPT Desktop 或問題跟蹤器和 CI 系統中分配任務。
#OpenAI #Codex #AI
Coinbase 稱黑客賄賂員工竊取客戶數據並索要 2000 萬美元贖金#
根據 CNBC 的報導,加密貨幣交易平台 Coinbase 遭遇了一起嚴重的網絡攻擊事件。攻擊者通過賄賂海外客服人員,獲取了部分客戶數據,並以此向 Coinbase 索要 2000 萬美元的贖金。Coinbase 在 5 月 11 日收到了一封勒索郵件,郵件中聲稱攻擊者已經獲取了部分 Coinbase 客戶賬戶信息以及其他內部文件,包括與客戶服務和賬戶管理系統相關的資料。
Coinbase 在向美國證券交易委員會提交的文件中披露了這一事件,並表示此次數據泄露可能涉及的修復成本高達 4 億美元。儘管如此,Coinbase 強調,此次泄露並未涉及用戶的密碼、私鑰或資金,受影響的數據主要包括客戶姓名、地址、電話號碼、電子郵件、部分銀行賬戶號碼、政府身份識別圖像以及賬戶餘額等敏感信息。Coinbase 在其博客中提到,攻擊者招募了一群海外客服人員,利用其對客戶支持系統的訪問權限,竊取了部分客戶賬戶數據,以便實施社會工程學攻擊。
Coinbase 在發現這一安全漏洞後,立即解雇了涉事員工,並向可能受到影響的客戶發出警告,同時增強了欺詐監控保護措施。此外,Coinbase 表示不會支付贖金,而是設立了 2000 萬美元的獎勵基金,用於提供有助於逮捕和定罪此次攻擊者的線索。
Coinbase 是美國最大的加密貨幣交易平台,近期剛剛宣布收購加密衍生品交易所 Deribit,並即將進入標普 500 指數。儘管面臨此次安全挑戰,Coinbase 的首席執行官 Brian Armstrong 仍表示,公司有志在未來五到十年內成為全球領先的金融服務應用。
#幣圈 #安全
Coinbase says hackers bribed staff to steal customer data and are demanding $20 million ransom
Material 3 Expressive,更好、更簡單、更情感化的用戶體驗#
Google Design 團隊詳細介紹了 Material 3 Expressive 設計系統的研發過程與核心理念。Material 3 Expressive 是 Google 設計系統有史以來經過最深入研究的更新版本,其設計理念源於對用戶情感驅動體驗的探索。
2022 年,Google 的研究實習生在研究用戶對 Google 應用中 Material Design 的情感反饋時,引發了團隊對應用界面同質化與缺乏情感表達的討論。隨後,團隊通過三年的研究與設計迭代,開展了 46 項獨立研究,涉及超過 18000 名全球參與者,測試了數百種設計方案,最終形成了 Material 3 Expressive 設計原則。這些原則基於堅實的用戶研究,並遵循長期的可用性最佳實踐,旨在幫助設計師打造出既美觀又高度可用的產品。
Material 3 Expressive 的核心在於情感化設計,它通過色彩、形狀、大小、運動和佈局等設計元素激發用戶情感,同時幫助用戶實現目標。研究表明,情感化設計受到各年齡段用戶的強烈偏好,尤其是在 18 至 24 歲的用戶群體中,偏好度高達 87%。這些用戶認為情感化設計在 “視覺吸引力” 和 “使用意願” 方面表現突出。
在研究過程中,團隊採用了多種方法,包括眼動追蹤、調查與焦點小組、實驗以及可用性測試。例如,在測試進度指示器時,團隊評估了哪些設計能讓等待時間感覺更短,同時又符合高端手機的設計風格;在研究按鈕大小時,團隊尋求在提高點擊速度與避免界面元素相互干擾之間找到平衡。此外,團隊還對新的浮動工具欄進行了多項研究,優化其現代、簡潔、充滿活力且易於使用的設計。
情感化設計不僅提升了產品的視覺吸引力,還顯著提升了品牌的現代感與相關性。研究表明,採用 Material 3 Expressive 設計的產品在 “亞文化感知” 方面提升了 32%,在 “現代性” 方面提升了 34%,在 “叛逆性” 方面提升了 30%。這些數據表明,情感化設計能夠讓品牌顯得更前沿、更創新,並且敢於突破傳統。
更重要的是,情感化設計在提升用戶體驗方面發揮了關鍵作用。通過眼動追蹤實驗,參與者在使用 Material 3 Expressive 設計的應用時,能夠更快地注意到關鍵 UI 元素,速度比傳統設計快了四倍。例如,在電子郵件應用中,新的 “發送” 按鈕更大、位置更靠下且使用了輔助色,使得用戶能夠更快地找到並點擊該按鈕。此外,情感化設計還縮小了不同年齡段用戶之間的視覺定位時間差距,使 45 歲以上的用戶能夠與年輕用戶一樣快速地找到關鍵交互元素。
儘管情感化設計帶來了諸多好處,但它並非適用於所有場景。例如,在某些需要遵循傳統 UI 模式的應用中,過度的情感化設計可能會導致可用性下降。因此,設計師在應用情感化設計時需要考慮上下文,尊重已有的設計模式和標準。
為了幫助設計師更好地應用 Material 3 Expressive 設計,Google Design 團隊提供了一系列建議:首先,鼓勵設計師嘗試新的設計選項,如更新後的 Figma Material 3 設計工具包;其次,建議設計師結合用戶的核心旅程,靈活運用情感化設計策略;此外,強調從用戶需求出發,優先考慮功能性和遵循無障礙標準;最後,建議通過持續的研究和迭代,找到新鮮感與熟悉度、趣味性與專業性之間的平衡。
#Google #設計 #Material