Clicky 互动拆解课
一个贴在光标旁的 AI 老师:能看屏幕、语音交互、并用指针指向界面元素。
先理解它解决的问题
把它看成一个“能力打包器”:把复杂流程拆成稳定步骤。关键概念是 workflow,你理解流程边界后,才能高质量指挥 AI 协作。
代码/配置翻译
CODE
macOS menu bar app + overlay cursor
Speech -> AssemblyAI -> Claude -> ElevenLabs
POINT:x,y:label tags drive cursor movement
Two NSPanel windows: dropdown control + full-screen transparent overlay
PLAIN ENGLISH
这些行是项目的“核心动作按钮”。
先跑通它们,就能建立可验证的主链路。
应用测验
第一次上手该项目,优先动作是什么?
核心组件如何协作
用“群聊”视角理解模块关系,定位问题更快。
组件对话动画
代码翻译
CODE
cd worker && npm install
npx wrangler secret put ANTHROPIC_API_KEY
npx wrangler deploy
grep -r "clicky-proxy" leanring-buddy/
worker routes: /chat, /tts, /transcribe-token
PLAIN ENGLISH
这一段决定了系统的职责边界。
边界清晰时,AI 才不会“哪里都想改”。
应用测验
功能异常时,最佳排查动作是?
数据流与执行路径
所有复杂系统都可以拆成“输入 -> 处理 -> 输出”。
消息流动画
User
Entry
Core
UI
点击 Next Step 开始
代码翻译
CODE
CompanionManager.swift
ClaudeAPI.swift (SSE streaming)
AssemblyAIStreamingTranscriptionProvider.swift
ElevenLabsTTSClient.swift
OverlayWindow.swift (pointer rendering)
PLAIN ENGLISH
这部分描述系统如何传递状态与结果。
当你能画出链路图,就能更快发现断点。
应用测验
结果错了,最有效的动作是?
部署与风险控制
最终目标不是“能跑一次”,而是“可持续使用”。
关键约束
上线稳定性的核心在于边界约束:版本兼容、权限最小化、以及可回溯日志。这里涉及 regression 风险,必须在每轮迭代后验证。
CODE
Requires macOS 14.2+ and Xcode 15+
Native Windows unsupported (use WSL not applicable for app runtime)
Permissions: microphone/accessibility/screen recording
Proxy URL hardcoded in multiple Swift files; must keep worker and app in sync
PLAIN ENGLISH
这是落地时最容易踩坑的清单。
先管理风险,再扩展功能。