Research Proposal — Field Experiment Design

Desirable Friction in the Age of AI Search

傳統智慧說「降低摩擦 = 更好的用戶體驗」。但在 AI 搜尋時代,這個法則失效了。被 AI 推薦來的用戶因為入口太順暢,從未深度理解產品,反而需要適度的摩擦來觸發深層參與——而同樣的摩擦對傳統搜尋用戶無效甚至有害。
传统智慧说"降低摩擦 = 更好的用户体验"。但在 AI 搜索时代,这个法则失效了。被 AI 推荐来的用户因为入口太顺畅,从未深度理解产品,反而需要适度的摩擦来触发深层参与——而同样的摩擦对传统搜索用户无效甚至有害。
Conventional wisdom says "reduce friction = better UX." But in the age of AI search, this principle breaks down. Users referred by AI arrive with zero cognitive processing of the product, and paradoxically need moderate friction to trigger deep engagement — while the same friction has no effect (or hurts) traditional search users.
Platform: Fotor (fotor.com) Method: 3-arm RCT + HTE Target: Marketing Science
Core Thesis

挑戰「降低摩擦」的通用設計原則

挑战"降低摩擦"的通用设计原则

Challenging the Universal "Reduce Friction" Principle

傳統智慧(我們要挑戰的)

用戶進入產品的路徑越順暢、摩擦越少,留存率和轉化率就越高。所有 onboarding 優化的目標都是「減少步驟」。

传统智慧(我们要挑战的)

用户进入产品的路径越顺畅、摩擦越少,留存率和转化率就越高。所有 onboarding 优化的目标都是"减少步骤"。

Conventional Wisdom (What We Challenge)

The smoother the path into a product, the higher the retention and conversion. All onboarding optimization aims to "reduce steps."

我們的論點:這個法則有一個重要的 boundary condition——用戶在到達產品之前是否已經做過「深度認知加工」。SEO 用戶在搜尋比較中已完成深度加工;GEO 用戶被 AI 直接送過來,認知加工為零。
我们的论点:这个法则有一个重要的 boundary condition——用户在到达产品之前是否已经做过"深度认知加工"。SEO 用户在搜索比较中已完成深度加工;GEO 用户被 AI 直接送过来,认知加工为零。
Our argument: This principle has an important boundary condition — whether users have already performed deep cognitive processing before arriving. SEO users complete this during search and comparison; GEO users are sent directly by AI with zero processing.
SEO 用戶(Google 搜尋來的)SEO 用户(Google 搜索来的)SEO Users (from Google Search) GEO 用戶(AI 推薦來的)GEO 用户(AI 推荐来的)GEO Users (from AI Recommendations)
到達前的認知加工到达前的认知加工Pre-arrival Processing 主動搜尋 → 比較多個工具 → 選擇 Fotor
= 高認知加工,已有心智模型
主动搜索 → 比较多个工具 → 选择 Fotor
= 高认知加工,已有心智模型
Active search → compare tools → choose Fotor
= Deep processing, mental model formed
AI 直接推薦 → 點連結 → 到達
= 零認知加工,無心智模型
AI 直接推荐 → 点链接 → 到达
= 零认知加工,无心智模型
AI recommends → click link → arrive
= Zero processing, no mental model
加摩擦的效果加摩擦的效果Effect of Adding Friction 多餘的步驟 → 煩人 → 留存不變或下降 多余的步骤 → 烦人 → 留存不变或下降 Unnecessary step → annoying → retention unchanged or drops 觸發深度思考 → 形成心智模型 → 留存提升 触发深度思考 → 形成心智模型 → 留存提升 Triggers deep thinking → forms mental model → retention improves
Research Design Overview

兩個 Study 的結構

两个 Study 的结构

Two-Study Structure

Study 1 — Observational

發現現象:GEO 用戶的系統性行為差異

发现现象:GEO 用户的系统性行为差异

Establishing the Phenomenon: GEO User Behavioral Profile

用 Fotor 的歷史 log 數據,呈現 GEO vs SEO 用戶在多個維度上的系統性差異:

用 Fotor 的历史 log 数据,呈现 GEO vs SEO 用户在多个维度上的系统性差异:

Using Fotor's historical log data, establish systematic differences between GEO and SEO users:

  • 功能探索更窄(只做被 AI 推薦的那件事)
  • 功能探索更窄(只做被 AI 推荐的那件事)
  • Narrower feature exploration (only do what AI recommended)
  • AI 產出更少編輯(照單全收)
  • AI 产出更少编辑(照单全收)
  • Less editing of AI output (accept as-is)
  • 留存更低(用完就走)
  • 留存更低(用完就走)
  • Lower retention (use once and leave)
  • 但首次 conversion 反而更高
  • 但首次 conversion 反而更高
  • But higher first-visit conversion
核心發現:GEO 製造了一種新型用戶——高 intent 但淺參與。這跟傳統「high intent = high value」的假設矛盾。
核心发现:GEO 制造了一种新型用户——高 intent 但浅参与。这跟传统"high intent = high value"的假设矛盾。
Key finding: GEO creates a new type of user — high intent but shallow engagement. This contradicts the assumption that "high intent = high value."
Study 2 — Field Experiment

因果驗證:一步摩擦能否修復差異?

因果验证:一步摩擦能否修复差异?

Causal Test: Can One Step of Friction Fix the Gap?

在 Background Remover 頁面跑 3-arm RCT:Pure Control(無改動)、Active Control(加一題無關問題)、Treatment(加一題產品認知問題)。Active Control 排除「多一步互動」的替代解釋。

在 Background Remover 页面跑 3-arm RCT:Pure Control(无改动)、Active Control(加一题无关问题)、Treatment(加一题产品认知问题)。Active Control 排除"多一步互动"的替代解释。

Run a 3-arm RCT on Background Remover: Pure Control (no change), Active Control (irrelevant question), Treatment (product-cognition question). Active Control rules out the "any extra interaction helps" alternative.

如果 treatment 只對 GEO 有效、對 SEO 無效 → 證明 Study 1 的差異確實來自 cognitive processing deficit,而不是用戶本身就不同(selection)。一步簡單的互動就能修復。
如果 treatment 只对 GEO 有效、对 SEO 无效 → 证明 Study 1 的差异确实来自 cognitive processing deficit,而不是用户本身就不同(selection)。一步简单的互动就能修复。
If treatment only works for GEO, not SEO → confirms Study 1's differences stem from cognitive processing deficit, not selection. A simple interaction step can fix it.
Theoretical Foundations

理論基礎

理论基础

Theoretical Foundations

理論理论Theory 核心發現核心发现Key Finding 跟本研究的關係跟本研究的关系Relevance
Processing Fluency
Oppenheimer 2008
太容易處理的資訊反而觸發淺層思考太容易处理的信息反而触发浅层思考Information that's too easy to process triggers shallow thinking GEO 的零摩擦入口 = 高流暢性 = 淺層加工GEO 的零摩擦入口 = 高流畅性 = 浅层加工GEO's zero-friction entry = high fluency = shallow processing
Desirable Difficulty
Bjork 1994
適度困難短期降低表現,但長期提升學習和記憶适度困难短期降低表现,但长期提升学习和记忆Moderate difficulty reduces short-term performance but improves long-term learning 加一步互動 = desirable difficulty → 短期可能慢,長期提升留存加一步互动 = desirable difficulty → 短期可能慢,长期提升留存Adding one step = desirable difficulty → may slow short-term, but lifts long-term retention
Elaboration Likelihood
Petty & Cacioppo 1986
高動機時走中央路徑(深度處理),否則走邊緣路徑高动机时走中央路径(深度处理),否则走边缘路径High motivation → central route (deep); otherwise → peripheral route (shallow) GEO 用戶走邊緣路徑(AI 說好就好),摩擦 trigger 切換到中央路徑GEO 用户走边缘路径(AI 说好就好),摩擦 trigger 切换到中央路径GEO users are on peripheral route; friction triggers switch to central route
Cognitive Offloading
Vuorre & Bhui 2024
外包認知任務不只省力,還弱化你自己在該領域的記憶外包认知任务不只省力,还弱化你自己在该领域的记忆Offloading cognitive tasks doesn't just save effort — it actively degrades your own memory in that domain GEO 用戶把「選工具」外包給 AI → 對 Fotor 的認知更薄弱GEO 用户把"选工具"外包给 AI → 对 Fotor 的认知更薄弱GEO users offloaded "tool selection" to AI → weaker cognition of Fotor
Platform Context

實驗場景:Fotor Background Remover

实验场景:Fotor Background Remover

Experiment Setting: Fotor Background Remover

Fotor Background Remover
Fotor Background Remover — 上傳圖片後 AI 自動去背,第一張 HD 免費下載,無需註冊
Fotor Background Remover — 上传图片后 AI 自动去背,第一张 HD 免费下载,无需注册
Fotor Background Remover — Upload image, AI removes background automatically, first HD download free, no sign-up required
GEO 可偵測性:ChatGPT desktop 流量帶 referrer=chatgpt.com,Perplexity 帶 referrer=perplexity.ai。Google AI Overview 無法區分(不納入 GEO 樣本)。
GEO 可侦测性:ChatGPT desktop 流量带 referrer=chatgpt.com,Perplexity 带 referrer=perplexity.ai。Google AI Overview 无法区分(不纳入 GEO 样本)。
GEO Detection: ChatGPT desktop traffic carries referrer=chatgpt.com; Perplexity carries referrer=perplexity.ai. Google AI Overview cannot be distinguished (excluded from GEO sample).
Study 2 — Field Experiment

3-arm RCT + Heterogeneous Treatment Effect

3-arm RCT + Heterogeneous Treatment Effect

3-arm RCT + Heterogeneous Treatment Effect

GEO vs SEO 不是 treatment,是用戶自帶特徵(如性別),透過 referrer 觀測。我們隨機分配三個 arm,其中一個是 active control(同樣多一步,但不觸發產品認知加工),用來排除「多一步互動本身」的替代解釋。

GEO vs SEO 不是 treatment,是用户自带特征(如性别),通过 referrer 观测。我们随机分配三个 arm,其中一个是 active control(同样多一步,但不触发产品认知加工),用来排除"多一步互动本身"的替代解释。

GEO vs SEO is not a treatment — it's an observed user characteristic (like gender), identified via referrer. We randomize into three arms, including an active control (same extra step, but doesn't trigger product cognition) to rule out the "any interaction helps" alternative.

T0 — Pure Control
到達頁面
到达页面
Land on page
上傳圖片
上传图片
Upload image
AI 去背 (3-5s)
結果頁
下載 / 換背景
结果页
下载 / 换背景
Result page
Download / Change BG
T1 — Active Control
到達頁面
到达页面
Land on page
上傳圖片
上传图片
Upload image
💬 你平常多久
編輯一次照片?
很少 / 偶爾 / 經常
💬 你平常多久
编辑一次照片?
很少 / 偶尔 / 经常
💬 How often do you
edit photos?
Rarely / Sometimes / Often
AI 去背 (3-5s)
結果頁
下載 / 換背景
结果页
下载 / 换背景
Result page
Download / Change BG
T2 — Treatment
到達頁面
到达页面
Land on page
上傳圖片
上传图片
Upload image
💬 去背之後
你還想做什麼?
加背景 / 增強 / 模板 / 下載
💬 去背之后
你还想做什么?
加背景 / 增强 / 模板 / 下载
💬 After removing BG,
what's next?
New BG / Upscale / Template / Download
AI 去背 (3-5s)
結果頁
下載 / 換背景
结果页
下载 / 换背景
Result page
Download / Change BG
三個 Arm 的關鍵差異:
T0 和 T1 的步驟數不同(0 vs 1)→ T2 vs T0 測整體效果(power 最大)
T1 和 T2 的步驟數相同(都多一題)但內容不同 → T2 vs T1 排除「多一步互動本身有效」的替代解釋
T1 問的是跟產品功能無關的問題(編輯頻率),T2 問的是迫使用戶思考產品功能的問題(去背之後還想做什麼)。
三个 Arm 的关键差异:
T0 和 T1 的步骤数不同(0 vs 1)→ T2 vs T0 测整体效果(power 最大)
T1 和 T2 的步骤数相同(都多一题)但内容不同 → T2 vs T1 排除"多一步互动本身有效"的替代解释
T1 问的是跟产品功能无关的问题(编辑频率),T2 问的是迫使用户思考产品功能的问题(去背之后还想做什么)。
Key differences across three arms:
T0 and T1 differ in step count (0 vs 1) → T2 vs T0 tests overall effect (max power)
T1 and T2 have same step count (both add one question) but different content → T2 vs T1 rules out "any extra interaction helps"
T1 asks a product-irrelevant question (editing frequency); T2 asks a question that forces users to think about product features (what to do after BG removal).

Treatment 介面示意

Treatment 界面示意

Treatment UI Mockup

T0 — Pure Control
T0
Background Remover
📷
Drag and drop image
Upload
↓ 直接 AI 處理 ↓ ↓ 直接 AI 处理 ↓ ↓ Straight to AI ↓
T1 — Active Control
T1
Quick question!
你平常多久編輯一次照片? 你平常多久编辑一次照片? How often do you edit photos?
🔸 很少
🔸 很少
🔸 Rarely
🔸 偶爾
🔸 偶尔
🔸 Sometimes
🔸 經常
🔸 经常
🔸 Often
↓ 選完後 AI 處理 ↓ ↓ 选完后 AI 处理 ↓ ↓ Then AI processes ↓
T2 — Treatment
T2
Almost there!
去背之後你還想做什麼? 去背之后你还想做什么? What's next after BG removal?
🖼️ 加新背景
🖼️ 加新背景
🖼️ New BG
✨ 放大增強
✨ 放大增强
✨ Upscale
🎨 設計模板
🎨 设计模板
🎨 Template
📥 直接下載
📥 直接下载
📥 Download
↓ 選完後 AI 處理 ↓ ↓ 选完后 AI 处理 ↓ ↓ Then AI processes ↓
T1 和 T2 的唯一差異是問題的「內容」。步驟數一樣(都多一題)、認知負擔差不多(都是選一個選項)。T1 問的是跟產品功能無關的「編輯頻率」;T2 問的是迫使用戶思考 Fotor 功能的「去背後想做什麼」。如果 T2 有效但 T1 沒效,就不是因為「多了一步」,而是因為問題的內容觸發了產品認知加工。
T1 和 T2 的唯一差异是问题的"内容"。步骤数一样(都多一题)、认知负担差不多(都是选一个选项)。T1 问的是跟产品功能无关的"编辑频率";T2 问的是迫使用户思考 Fotor 功能的"去背后想做什么"。如果 T2 有效但 T1 没效,就不是因为"多了一步",而是因为问题的内容触发了产品认知加工。
The only difference between T1 and T2 is the question content. Same number of steps (both add one question), similar cognitive load (both select one option). T1 asks about editing frequency (product-irrelevant); T2 asks what to do after BG removal (forces product-cognition). If T2 works but T1 doesn't → it's the question content triggering product cognition, not the extra step itself.
Measurement

測量什麼 (Dependent Variables)

测量什么 (Dependent Variables)

Dependent Variables

類別类别Category 指標指标Metric 怎麼測怎么测How to Measure
Primary DV 註冊率注册率Sign-up rate 當次 session 內是否完成註冊(email / Google SSO / Apple)。Fotor 的第一張 HD 免費但後續操作會觸發註冊牆,所以探索越多 → 越快碰到註冊牆 → 註冊率反映了用戶是否被激發去探索更多功能。同 session 可測,power 最大。当次 session 内是否完成注册(email / Google SSO / Apple)。Fotor 的第一张 HD 免费但后续操作会触发注册墙,所以探索越多 → 越快碰到注册墙 → 注册率反映了用户是否被激发去探索更多功能。同 session 可测,power 最大。Whether the user signs up (email / Google SSO / Apple) within the session. Fotor's first HD download is free, but further actions hit a sign-up wall — so more exploration → hit sign-up sooner → sign-up rate reflects whether users were motivated to explore. Measurable same-session, maximum power.
備選 DV备选 DVAlternative DVs 7 天回訪率7 天回访率7-day return rate 首次使用後 7 天內是否有第二次 session。理論上最 clean(直接反映心智模型是否形成),但需要更大 sample + 等待期。首次使用后 7 天内是否有第二次 session。理论上最 clean(直接反映心智模型是否形成),但需要更大 sample + 等待期。Whether user returns within 7 days. Theoretically cleanest (directly reflects mental model formation), but requires larger sample + waiting period.
功能探索廣度功能探索广度Feature breadth 首次 session 使用幾種不同工具。同時也是 mediation 的 mediator(摩擦 → 更多探索 → 更高註冊/留存)。首次 session 使用几种不同工具。同时也是 mediation 的 mediator(摩擦 → 更多探索 → 更高注册/留存)。Number of distinct tools used in first session. Also serves as mediator (friction → more exploration → higher sign-up/retention).
Guardrail Bounce rateBounce rateBounce rate 上傳後未完成處理就離開的比率。T1 或 T2 超過 T0 超過 2pp 就暫停實驗。上传后未完成处理就离开的比率。T1 或 T2 超过 T0 超过 2pp 就暂停实验。Rate of leaving after upload without completing. Pause if T1 or T2 exceeds T0 by 2pp.
Identification Strategy

怎麼確認因果關係

怎么确认因果关系

Identification Strategy

三組比較,每組回答不同問題:

三组比较,每组回答不同问题:

Three comparisons, each answering a different question:

比較比较Comparison 回答什麼回答什么What It Answers 如果 GEO 顯著、SEO 不顯著如果 GEO 显著、SEO 不显著If GEO Significant, SEO Not
T2 vs T0 Treatment 有沒有整體效果?(power 最大)Treatment 有没有整体效果?(power 最大)Does the treatment have an overall effect? (max power) 加這一步對 GEO 有幫助加这一步对 GEO 有帮助The added step helps GEO users
T1 vs T0 隨便多一步互動有沒有效?随便多一步互动有没有效?Does any extra interaction help? 如果有效 → 有 Hawthorne 成分;如果無效 → 排除 Hawthorne如果有效 → 有 Hawthorne 成分;如果无效 → 排除 HawthorneIf effective → Hawthorne component exists; if not → Hawthorne ruled out
T2 vs T1 問題的「內容」有沒有差?(最乾淨的因果證據)问题的"内容"有没有差?(最干净的因果证据)Does question content matter? (cleanest causal evidence) 不是多一步就好,必須是觸發產品認知的問題不是多一步就好,必须是触发产品认知的问题Not just any step — must trigger product cognition

回歸模型:

回归模型:

Regression model:

Yi = β₀ + β₁·T1i + β₂·T2i + β₃·GEOi + β₄·T1i×GEOi + β₅·T2i×GEOi + γ·Xi + εi
為什麼 HTE 本身就是最強的防禦?
如果有人說「你只是多了一步互動,Hawthorne effect」——那為什麼 SEO 用戶沒反應,只有 GEO 有?Hawthorne 不挑人。唯一能解釋「同一個互動,只對一群人有效」的理由,就是這群人缺少了某個東西(pre-arrival cognitive processing),而這個互動補上了。
为什么 HTE 本身就是最强的防御?
如果有人说"你只是多了一步互动,Hawthorne effect"——那为什么 SEO 用户没反应,只有 GEO 有?Hawthorne 不挑人。唯一能解释"同一个互动,只对一群人有效"的理由,就是这群人缺少了某个东西(pre-arrival cognitive processing),而这个互动补上了。
Why HTE itself is the strongest defense:
If a reviewer says "it's just an extra interaction, Hawthorne effect" — then why doesn't it affect SEO users? Hawthorne doesn't discriminate. The only explanation for "same intervention, only works for one group" is that this group lacks something (pre-arrival cognitive processing), and the intervention fills the gap.

Mediation(因果鏈驗證)

Mediation(因果链验证)

Mediation (Causal Chain)

摩擦 → 更深的認知加工 → 更多功能探索 → 更高留存

用功能探索廣度 (feature breadth) 做 mediator。如果 mediation 成立 → 摩擦是通過「觸發深度加工」而不是其他機制提升留存。
摩擦 → 更深的认知加工 → 更多功能探索 → 更高留存

用功能探索广度 (feature breadth) 做 mediator。如果 mediation 成立 → 摩擦是通过"触发深度加工"而不是其他机制提升留存。
Friction → Deeper processing → More exploration → Higher retention

Use feature breadth as mediator in causal mediation analysis. If mediation holds → friction works by triggering deep processing, not through other mechanisms.
Expected Results

預期結果(示意)

预期结果(示意)

Expected Results (Illustrative)

註冊率 — GEO 用戶注册率 — GEO 用户Sign-up Rate — GEO Users
T0 (Control)
22%
T1 (Active Ctrl)
24%
T2 (Treatment)
32%
註冊率 — SEO 用戶注册率 — SEO 用户Sign-up Rate — SEO Users
T0 (Control)
35%
T1 (Active Ctrl)
34%
T2 (Treatment)
35%

※ 假設性示意。最理想的結果:T2 只對 GEO 有效(藍色明顯提升),T1 對 GEO 無效(黃色幾乎不動),SEO 三組都差不多。這排除了 Hawthorne,證明是問題內容觸發產品認知。 ※ 假设性示意。最理想的结果:T2 只对 GEO 有效(蓝色明显提升),T1 对 GEO 无效(黄色几乎不动),SEO 三组都差不多。这排除了 Hawthorne,证明是问题内容触发产品认知。 ※ Illustrative. Ideal outcome: T2 only works for GEO (blue bar jumps), T1 doesn't (yellow barely moves), SEO flat across all three. Rules out Hawthorne, proves it's question content triggering product cognition.

Contribution

Paper 的三層貢獻

Paper 的三层贡献

Three Layers of Contribution

層級层级Level 貢獻贡献Contribution
1 發現新型用戶:AI 搜尋製造了「高 intent 但淺參與」的用戶,挑戰 high intent = high value 假設(Study 1) 发现新型用户:AI 搜索制造了"高 intent 但浅参与"的用户,挑战 high intent = high value 假设(Study 1) New user type: AI search creates "high intent but shallow engagement" users, challenging the high intent = high value assumption (Study 1)
2 挑戰通用設計原則:「降低摩擦」有 boundary condition——用戶的 pre-arrival cognitive processing 決定最優 onboarding 設計(Study 2) 挑战通用设计原则:"降低摩擦"有 boundary condition——用户的 pre-arrival cognitive processing 决定最优 onboarding 设计(Study 2) Challenges universal design principle: "Reduce friction" has a boundary condition — users' pre-arrival cognitive processing determines optimal onboarding design (Study 2)
3 管理意涵:隨著 GEO 流量佔比增長,平台需要 channel-specific onboarding。一個簡單的問題比複雜的推薦系統更有效。 管理意涵:随着 GEO 流量占比增长,平台需要 channel-specific onboarding。一个简单的问题比复杂的推荐系统更有效。 Managerial implications: As GEO traffic grows, platforms need channel-specific onboarding. A simple question may be more effective than complex recommendation systems.
Execution Plan

執行計劃

执行计划

Execution Plan

階段阶段Phase 時長时长Duration 內容内容Content
Phase 0 2-3 wks 跟 Fotor 確認 GEO 流量數據 + 談合作 + 確定技術細節跟 Fotor 确认 GEO 流量数据 + 谈合作 + 确定技术细节Confirm GEO traffic data with Fotor + partnership + technical details
Study 1 3-4 wks 分析 Fotor 歷史 log 數據,建立 GEO vs SEO 行為差異的 baseline分析 Fotor 历史 log 数据,建立 GEO vs SEO 行为差异的 baselineAnalyze historical log data to establish GEO vs SEO behavioral baseline
Study 2 Dev 2-4 wks Fotor 實作 A/B test + Treatment UI + 數據 pipelineFotor 实作 A/B test + Treatment UI + 数据 pipelineFotor implements A/B test + Treatment UI + data pipeline
Study 2 Run 8-12 wks 跑實驗,累積足夠 GEO 樣本跑实验,累积足够 GEO 样本Run experiment, accumulate sufficient GEO sample
Analysis + Writing 4-6 wks 數據分析 + 寫作数据分析 + 写作Data analysis + writing
Total ~5-7 months