為什麼你只需要用五位用戶來測試界面

有些人認為可用性 (Usability) 是非常昂貴和複雜的,以及用戶測試 (User Testing) 應該保留給有龐大的預算和寬鬆的時間表的網頁設計項目。這種思想是不正確的,精心設計的可用性測試 (Usability Testing) 簡直是浪費資源。 如果想得到最好的結果,最多用五位用戶 (User) 來進行越多越好的小型測試。

在早期的研究,我和 Tom Landauer 顯示出,利用 n 位用戶,在可用性測試中發現的可用性的問題的數量是:

N(1-(1-L)^n)

N 是設計中的可用性問題總數,而 L 是測試個別用戶時發現的可用性問題的比例。我們將大量研究項目的結果平均起來,L 大多數是 31%。當畫出 L=31% 就會得到以下的結果:
可用性測試中發現的可用性的問題的數量
這條線最顯明的事實是零位用戶就會提供零個見解

當你收集一位測試用戶的資料時,你的見解就會大大增加,而且你會學到幾乎所有了解得到的設計可用性的三分之一。零和甚至稍微多一些資料之間的差異是驚人的。

當你測試第二位用戶時,你會發現這個人會做一些和第一位用戶所做的東西一樣,所以你所學到的東西就會有一些重疊。每個人是絕對不同的,因此第二位用戶會有一些你沒有從第一位用戶觀察到的新東西。所以,第二位用戶能夠增加一些新的見解,但是就幾乎不會像第一位用戶那麼多。

第三位用戶會做很多你已經從第一或第二位用戶觀察到的事,甚至一些你已經見過兩次的東西。此外,當然,第三位用戶也會給你一些新資料,即使不會像第一和第二位用戶那麼多。

當你添加越來越多用戶,所學到的就會越來越少,因為你會一次又一次看到相同的東西。沒有真正的需要去觀察多次同樣的東西,而且你會覺得有心理準備回到繪圖板,並重新設計網站,去消滅那些可用性問題。

第五位用戶之後,你是在浪費你的時間,反复觀察到相同的結果而學不到許多新的。

迭代設計

那條線清楚地表明,你需要至少測試 15 位用戶才能發現所有在設計中的可用性問題。那麼,為什麼我會建議測試這麼少數的用戶?

主要的原因是,這是更好地分散你的預算到許多小型測試,而不是用盡所有到一個用戶測試裡。例如你有資金去聘請 15 位客戶代表來測試你的設計。太好了!用這筆錢到三次測試裡,每次五位用戶!

你應該進行多幾個測試是因為真正可用性工程的目標是改進設計,而不只是為了記錄它的弱點。在第五個用戶之後就會發現到 85% 的可用性問題,你會想在新設計裡解決這些問題。

重新設計後,你必需要再次測試。 即使我說過重新設計應該『修理到』第一次研究中發現出來的問題,事實上,你只不過認為新的設計能夠克服那些問題,因為無人能夠設計出完美的用戶界面 (User Interface),所以沒有保證新的設計實際上能夠解決到這些問題。第二次測試時才會發現問題是否修理得好。此外,即使舊的問題已經修理好了,引入新設計始終會有引入了新可用性問題的風險。

此外,第二次測試五位用戶時,會發現許多在第一次測試其餘 15% 沒有被發現的可用性問題。(仍然還有 2% 原來的問題留下來 – 他們要等到第三次試驗才會被發現出來。)

最後,第二次測試會能夠更深入探測到網站的基本結構的可用性,評估到像信息架構 (Information Architecture) 、任務流程 (Work Flow)、和配合用戶需求 (User Needs) 等等的問題。這些重要的問題往往在初步研究時,用戶被愚蠢表面的可用性問題難倒,防止著他們深入探測。

所以,第二次測試會是作為第一次研究結果的質量保證 (Quality Assurance),以及幫助提供更深刻的見解。第二次測試一定會引領到一個新的(但較小的)在重新設計時需要修復可用性問題清單。而且相同的見解能夠適用於這個重新設計上:不是所有問題都是修補得好,一些更深層次的問題在清理界面後被發現的。因此,第三次試驗是需要的。

三次試驗每次用五位用戶比起一次測試用十五位用戶能夠提高最終用戶體驗得更多。

為什麼不只用一個用戶來測試?

你可能會認為用一個用戶來測試 15 次會好過用 5 個用戶來測試 3 次。那條線確實顯示出我們可以從第一個用戶比之後的用戶學習得更多,那麼為什麼要繼續下去?有兩個原因:

總有被誤導的風險被一個人的虛假行為在一個沒有代表性的方式意外地執行某些動作。即使只有三位用戶就足夠了解得到多元化的用戶行為和明白到哪些是獨特的和哪些能夠一般化的。

用戶測試的成本效益分析 (User Testing Cost-Benefit Analysis) 提供最佳的比例是大約在三位或五位用戶左右,視乎測試的方式而定。規劃和進行測試總會有一個固定的最初成本:最好就所有用戶的調查結果都貶低這個啟動成本。

什麼時候使用更多用戶來測試?

當一個網站有幾種不同的用戶,你就需要使用更多用戶來測試。這個公式只適宜用於能夠比較到而使用網站非常相似的用戶上。

例如,如果你有一個網站會被兒童和家長使用,而這兩種用戶會有足夠的不同的行為,它就必需要分成為兩組來測試。連接採購員與銷售員的系統也是一樣的。

即使當兩種用戶有很大的不同,仍然觀察上兩組之間會有很大的相似之處。用戶終究是人。此外,很多可用性問題是和人與網絡基本交互方式及其它網站影響用戶行為有關。

在測試多個不同的種類的用戶,每種並不需要使用像只測試一種的那麼多人。每組使用少一些成員,觀察之間的重疊能夠確保會有更好的結果。我建議:

  • 如果測試兩種用戶,每種選三至四個用戶
  • 如果測試三種用戶或以上,每種選三個用戶(你總是想至少有三個用戶,以確保每組已包括了許多不同的行為)

【原文】
http://www.useit.com/alertbox/20000319.html

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 變更 )

Twitter picture

You are commenting using your Twitter account. Log Out / 變更 )

Facebook照片

You are commenting using your Facebook account. Log Out / 變更 )

Google+ photo

You are commenting using your Google+ account. Log Out / 變更 )

連結到 %s