View
6
Download
0
Category
Preview:
Citation preview
- 1
福祉用具におけるSUS
2016/08/01 山内 繁
1. SUS とは何か SUS(System Usability Scale)とは、イギリス DEC の John Brook がビ
デオ端末 VT100 の開発にあたってユーザーの満足度を測定するために 1986年に作成した心理尺度で、表 1 に示した 10 項目からなる質問紙である。間
に合わせ的に作ったものであるため、”quick and dirty”と呼んでいたようで
ある 1。 1996 年に、”Usability and Evaluation in Industry”という本に”SUS: A
“quick and dirty” usability scale”というタイトルで公表 2したところ、簡便
さに着目したエンジニアからの支持を得て広く使われるようになったとのこ
とである 3。 Brook がこの尺度を開発したのは、開発したシステムに関するユーザーの
主観的満足度を測るためであり、それもできるだけ手間がかからず、具体的
な評価が得られるようにするためであった。 VT100の開発終了後、この質問紙は自由に使ってよく、配布を制限しなか
った。そのため、この質問紙の利用者が増えて、上記論文の発表後は急速に
普及した。2009 年までに 273 編の論文に合計 3500 件の調査が報告されてお
り 4、2013 年の回顧論文 3 を発表するまでに 1200 編以上の論文で採用され
たとのことである。企業内で使われて未公表のものを加えると満足度評価に
おける標準になりつつあると言ってよい。 欧米では非常に普及している尺度であるが、我が国ではあまりみかけない。
ボトムアップの思考法に慣れているために、満足度の評価よりは、改良のた
めの具体的な意見に注意を奪われることが多いためかもしれないし、推測統
計学に基づいた仮説-検定の方法が一部の分野をのぞいては普及していない
ためかもしれない。
1.1 ユーザビリティと満足度尺度 企業のサービスや製品についての顧客満足度として満足度が独立して計測、
2 -
経営判断に用いられることもあるが、製品開発の立場からすれば、福祉用具
の臨床評価におけるユーザビリティ評価の一部をなしている。 ユーザビリティ(使用性)は ISO9241-11:1998 によれば、「ある製品が,
指定された利用者によって,指定された利用の状況下で,指定された目的を
達成するために用いられる際の,有効性,効率及び利用者の満足度の度合
い.」と定義されている。なお、ISO9241-11 は JIS Z 8521:1999 として JIS化されている。 ユーザビリティは、有効性、効率、満足度の3つの因子よりなるがそれら
表1 SUS(System Usability Scale) 今使ったばかりの支援機器について,下の質問に感じたことを「まったく
そうは思わない」から「まったくそう思う」までの 5 段階評価の数字を○で
囲んで答えてください.総ての質問に,考えこまないで,直感的に評価して
ください.答えられない質問には 3 点をつけてください.なお,右端の欄は
作業用ですので記入しないでください. まったく
そうは思わない まったく
そう思う 1 この支援機器はしょっちゅう使いたくなるだろう
と感じた. 1 2 3 4 5 2 この支援機器は必要以上に複雑だと感じた. 1 2 3 4 5 3 この支援機器は使いやすいと感じた. 1 2 3 4 5 4 この支援機器を使えるようになるためには専門家
の助けが要るだろうと思った. 1 2 3 4 5
5 この支援機器はいろんな機能がうまくまとまって
いると感じた. 1 2 3 4 5
6 この支援機器にはちぐはぐな点が多すぎると感じ
た. 1 2 3 4 5
7 この支援機器の使い方はたいていの人がすぐに身
につけるだろうと感じた. 1 2 3 4 5
8 この支援機器はとても扱いづらいと感じた. 1 2 3 4 5 9 この支援機器を使いこなせると確信している. 1 2 3 4 5
10 この支援機器を使い始められるまでに学ぶことが
多かった. 1 2 3 4 5
(原著者 John Brooke 氏からの許諾による.日本語訳の著作権は山内繁所
有.) スコアの算出には、各項目への評点をxとし、奇数番目の質問へのスコア
は x-1、偶数番目の質問には 5-x として右端の欄に記入する。未回答の項
目に対しては x=3 とする。スコアの総計に 2.5 をかけて 100 点満点のスコア
とする。
- 3
は次のように定義されている。 1) 有効性(effectiveness):利用者が,指定された目標を達成する上での
正確さ及び完全さ 2) 効率(efficiency):目標を正確かつ完全に達成する際に費やされる資
源 3) 満足度(satisfaction):不快さのないこと,及び製品の使用に対して
の肯定的な態度 ユーザビリティを構成する因子のうち、有効性と効率とは客観的に評価で
きるし、客観的に評価すべき因子であるが、満足度はユーザーが「満足して
いる程度」のスコアを答えるとすると、ユーザーによる主観評価となり、バ
イアスを無視することができない。 主観的内容を可能な限り客観的に評価することは心理学の基本的な課題で
あるが、満足度の評価においてもそれを客観的に評価する必要がある。 現在最も広く使われている満足度の指標は SUS であると思われるが、福
祉用具を対象とした指標としては、 PIADS: 福祉用具に関する 26 項目の QOL 指標 QUEST: 福祉用具とサービスについての 12 項目の満足度指標
がある。 このほか、acceptability ratings, grade scale, adjective ratings などが
SUS と比較されている。満足度指標の例としては、そのほかにも、表 2 に示
した指標がある 5,6。ここで、Post-task questionnaireというのは何らかのタ
スクの直後ごとに測定することを想定した指標である。Test level questionnaire というのは、多数のタスクの後まとめて、あるいは被験者の
使用経験に基づいて測定する指標である。SUS は test level に区分されてい
るが、タスク直後に測定してもかまわない。 一般に、質問紙調査においては質問数が多いほど、より精密な測定が可能
になるが、その分コストがかかるし、あまりに質問数が多いと被験者の負担
が大きくなって信頼度が低くなる。SUSが好まれるのはこれらのバランスが
適切であることの他、利用が無料であることなどにもよっている。
1.2 SUS の質問項目 SUS は表 1 に示した 10 項目よりなる 5 段階の評価指標であるが、積極的
評価の方向が交互に逆に並んでいる。これは「印象だけで短時間に」答える
に当たってレスポンスバイアスや追従バイアスを避けるための工夫である。
このため、スコアの計算に当たっては奇数と偶数とで異なった計算をする手
4 -
間がかかり、計算ミスのリスクもあるが、この程度の計算は EXCEL を使え
ば簡単にできるので問題とはならないであろう。 SUSは 100点満点の評価指標となっている。これは特に根拠があるわけで
はなく、1980 年代の英国 DEC の習慣では 100 点満点で表現することに慣れ
ていたためであるとしている。 SUSの構成に当たっては、下位尺度を持たない一次元性尺度として構成さ
れたが、その後 Sauro らによって因子分析が行われ 7、項目 4 と項目 10 とは
学習の容易さに関する因子であり、他は使用性に関する因子であることが明
らかにされた。この結果、項目 4 と 10 とを省略しても使用性についての満
足度を表現できるが、これまでに蓄積された知見を活用するためにはそのま
まで使う方がよい。
2.SUS の意義 2.1 SUS の適用対象 前章で述べたように、SUSはビデオ端末のユーザー満足度の調査のために
作成されたものであるが、その後さまざまなシステム、製品の満足度調査の
表 2 満足度指標の例 Post-task questionnaires ・ ASQ: After Scenario Questionnaire (3 questions) ・ NASA-TLX: NASA’s task load index is a measure of mental effort (5
questions) ・ SMEQ: Subjective Mental Effort Questionnaire (1 question) ・ UME: Usability Magnitude Estimation (1 question) ・ SEQ: Single Ease Question (1 question) ・ NPS: Likelihood to Recommend question (1 question) Test level satisfaction ・ SUS: System Usability Scale (10 questions) ・ SUPR-Q: Standardized User Experience Percentile Rank
Questionnaire (13 questions) ・ CSUQ: Computer System Usability Questionnaire (19 questions) ・ QUIS: Questionnaire For User Interaction Satisfaction (24 questions) ・ SUMI: Software Usability Measurement Inventory (50 questions)
- 5
ために用いられ、有効性が確認されている。その中には web、携帯電話、テ
レビ、音声自動応答装置などがあり、これまでは主として IT 関係で使われ
てきており、テレビのインタフェースなどが主であった。
2.2 絶対尺度としての SUS SUSによって何を求めるかであるかによるが、他の評価尺度に対して一番
大きい相違点は SUS スコアが他の評価尺度のような相対評価ではなく絶対
評価の尺度であるとも解釈できる点である。たとえば、QUEST について考
えると、最も標準的な使い方は臨床試験における比較対象の研究デザインに
おいて、満足度を(副次)エンドポイントとした仮説検定のためである。こ
のためには QUEST は有用な尺度であると言ってよい。 一方、単独で QUEST の測定をしてみてもそのスコアだけからはどう評価
してよいかすぐにはわからない。電動車いすに対する QUEST の福祉用具因
子のスコアが 4.06(σ=0.5)という結果が得られても 8、それだけでは満足
度が高いのか低いのか結論することはできず、結果をどう役立てるのかすぐ
にはわからない。十分に満足しているかどうかも結論できないし、確実にで
きることは項目間の満足度比較によって改善点の手がかりを得ることくらい
であろう。 これに対し、SUS は ICT を主として対象にしてはきたが、非常に多数の
測定例があり、かつ、その他の様々な満足度尺度との比較研究が累積されて
いる。その結果、SUSは満足感に対する客観指標として計量心理学的にも確
立しているといってよい。満足感は「不快さのないこと、製品の使用に対す
る肯定的態度」と定義されている。福祉用具の場合は人々が機器やシステム
を利用するときに感じる期待感と実際に試用したときの使用感との齟齬の程
度を表す心理的尺度であるとも考えられる。人間側の心理的反応の程度を表
すので、心理的尺度としては対象とする機器やシステムに依存する程度はあ
まり大きくはないと思われる。 図1は Bangor, Kortum, および Miller が 3500 を超える SUS のデータと
様々な満足度尺度との関連を取りまとめたものである 9。比較対照とした満
足度スケールについては表 2 に取りまとめて示した。表 2 の括弧の数字は
SUSスコアの範囲である。このように、多くの満足度評価に対してよい対応
が見られ、心理学的な満足度の絶対尺度とみなして差し支えないものと考え
られている。
6 -
表 2 で括弧内はそれぞれの SUS スコアの範囲を、形容的標語の角括弧は
標語のそれぞれに対する SUS スコアの平均値と標準偏差を示している。図
1の結果は主観的な形容的評語を主観的な基準として、主観的評価を SUSによって客観評価をすることの可能性を検証するために調べたもので、有意
水準 α=0.01 で相関係数 r=0.822 となり、Adjective ratings との間に十分有
Acceptability ranges(受容
性評価)
Acceptable:好ましい(70-100) Marginal, high:どちらかといえば好ましい(61-70) Marginal low:どちらかといえば好ましくない(50-61) Not acceptable:好ましくない(0-50)
Grade scale (成績評価) (学校の成績評
価に準拠)
A 評価(満足度が特に高い)(90-100) B 評価(満足度が高い)(80-90) C 評価(好ましい)(70-80) D 評価(満足度に対する配慮が不足)(60-70) F 評価(満足度は不合格)(0-60)
Adjective ratings(形容的
評語)
Best imaginable:あり得ないほど最高(90-100)[ 90.9:13.4]
Excellent:すばらしい(80-90) [85.5:10.4] Good:よい(70-80) [71.4:11.6] OK:OK(50-70) [50.9:13.8] Poor:悪い(30-50) [35.7:12.6] Worst imaginable:あり得ないほど最低(0-30)[12.5:13.1]
表 2 図 1 の満足度表現
( )内は対応する SUS のスコアの範囲。 Adjective ratings における [ ] 内は評語に対する SUS の平均値と標準偏差
図1 SUS スコアとその他の満足度スコアとの対応
- 7
意な相関がえられたと結論している。 図1は主観的な形容的評語を主観的な基準として、主観的評価を SUS に
よって客観評価をすることの可能性を検証するために調べたもので、有意水
準 α=0.01 で相関係数 r=0.822 となり、Adjective ratings との間に十分有意
な相関がえられたと結論している。 Acceptable range、Grade scale との関係についても表 2 と図 1 の比較に
よって、90 点以上では好成績であり、70 点が満足度に対する配慮がなされ
ているとの判定閾値と考えられる。 Sauro10は 5000 件以上の SUS スコアの測定値に基づいて、図 2 のような
SUS とパーセンタイルの関係を明らかにした。このデータから、SUS スコ
アの平均値は 68.1 点であることが導かれた。ここで、SUS スコアで 70 点は
ほぼ 50 パーセンタイルであることがわかる。 図 2 のデータから、Sauro は表 3 のような SUS スコアとパーセンタイル
の表を作成している。SUSを測定したときパーセンタイルを見積もるには図
3 よりも便利である。
図2 SUS スコアとパーセンタイル
8 -
2.3 製品に関する SUS Kortumら 11はさまざまな製品について、学生を被験者とした SUSを調査
した。この中には電子レンジや GPS、Wii、ATM、iPhone なども含まれて
いるが、ほとんどは word や excel などのソフトウェア、ICT 製品である。
しかし、日常生活用品に関する満足度についても SUS が有効であることを
示した点での意義が大きい。
3.SUS への福祉用具の活用 3.1 福祉用具の実証試験とエンドポイント 開発した福祉用具の第 3 相実証試験においては、自己対照の研究デザイン
表3 SUS スコアに対するパーセンタイルの値 SUS スコア パーセンタイル 評点
84.1-100 96-100 A+ 80.8-84.0 90-95 A 78.9-80.7 85-89 A- 77.2-78.8 80-84 B+ 74.1-77.1 70-90 B 72.6-74.0 65-69 B- 71.1-72.5 60-64 C+ 65.0-71.0 41-59 C 62.7-64.9 35-40 C- 51.7-62.6 15-34 D
図 3 製品に関する SUS スコア
- 9
によって対照とする機器に比べて開発した機器が優れていることを推測統計
学の仮説-検定によって検証する。実証試験が「比較試験」の形式を取らざ
るを得ないのは「雨乞い3た論法」に陥らないためである 1。これは、人に
かかわる特性の計測に一般に付随している。簡単な例として、手動車いすの
性能を 100mの直線走に要する時間で測ることにしたとしよう。この時間は
車いすの性能のみならず使用者の体力、スキルの他、路面の状況にも依存す
る。従って 100m走 20 秒の車いすと言われても、どう評価すればよいか解
らない。しかし、2 つの車いすについて、同じ人が同じ走行路によって 100走 20 秒と 25 秒であったとすれば、20 秒で走れる方が走りやすい車いすで
あると判断できる。 このように、相対比較によらざるを得ない実証試験においては、比較対照
をどのように設定するのかが基本的な問題となる。第一の問題は開発した機
器と比較すべき機器の選定である。このためには、開発した機器の特徴を表
現しやすい機器を選ぶことが指針となる。第二の問題は比較すべきアウトカ
ム変数をどのように選択するかという点である。 実証試験における検証は推測統計学における仮説-検定の方法による。こ
れは、帰無仮説と対立仮説を設定し、統計学的に帰無仮説を棄却することに
よって対立仮説が検証されたとするものである。 具体例として、2 つの車いす A と B との満足度を表すアウトカム変数とし
て SUS スコアを用いるとする。この場合、被験者数を n として、各人の Aに対するスコアを x1、x2、x3・・・xn とし、B に対するスコアを y1、y2、
y3・・・ynとおく。仮説として、A の方が B よりも満足度が高いと仮定する。
このとき、統計量として xiと yiの差 di=xi-yiを定義する。このとき、 帰無仮説 H0:μd=0 対立仮説 H1:μd>0 とおく。ここでμd は d に関する母集団の平均値である。実際に観測でき
るのは、母集団そのものではなく母集団からランダムにサンプリングした標
本 {d1、d2、d3・・・dn} であるから、このデータを用いて検定統計量 T を計算する。
𝑇𝑇 =�̅�𝑑
�𝑠𝑠𝑑𝑑2 𝑛𝑛�
ここで、�̅�𝑑 は標本 d の平均値、𝑠𝑠𝑑𝑑2 は標本分散で、
10 -
𝑠𝑠𝑑𝑑2 =∑𝑑𝑑𝑖𝑖
2 − �∑𝑑𝑑𝑖𝑖�
2
𝑛𝑛𝑛𝑛−1
によって計算する。母集団について帰無仮説が棄却できるかどうかを検証
するのが検定と呼ばれる操作である。 母集団が正規分布をしている場合はパラメトリック検定と呼ばれ、この場
合の検定は t-検定とよばれる。t-検定による検定は、t-分布関数表を用いて、 𝑇𝑇 ≥ 𝑡𝑡(𝑓𝑓,α) の範囲を棄却域と呼び、この式を満足するとき帰無仮説は棄却され対立仮説
が成立することになる。ここで、𝑓𝑓 = 𝑛𝑛 − 1、αは有意水準で、有意に帰無仮
説が成立する確率を表しており、5%や 10%が通常用いられる。有意水準 5%というのは、逆に言えば、帰無仮説を棄却したことが誤っている確率が 5%以下であると言うことである。なお、t 分布関数の値は数表以外に EXCELの関数を使うこともできる。 なお、𝑇𝑇 < 𝑡𝑡(𝑓𝑓,α)となって帰無仮説が棄却できなかた場合、Bの方がSUS
のスコアが高いと結論してはいけない。有意水準 αでは A の方がスコアが高
いとは結論できなかっただけである事に留意が必要である。 母集団が正規分布をしていないときや標本数が小さいために t-分布を適用
できないときには、ノンパラメトリック検定が用いられる。これについては
文献 1を参照して欲しい。 上で見たように、比較試験として 2 種の機器の優劣を検証するためには、
比較するべきアウトカム変数(上の例では SUS のスコア)として何を選ぶ
かが重要であることは容易に理解できよう。生物医学の研究においては、こ
のような検定に用いるアウトカム変数のことを特にエンドポイントと呼んで
区別している。
3.2 福祉用具からの期待 福祉用具の実証試験においては、エンドポイントは恣意的に設定されがち
であった。最悪の場合は主観量、それも「どちらがよいと思いますか?」と
いった被験者の意見の聴取に終わってしまうものもあった。 これに対して、筆者は 1.1 で述べたユーザビリティに基づいてアウトカム
変数を定義し、そのうち最も重要なアウトカム変数を主要エンドポイント、
他のアウトカム変数を副次エンドポイントとして設定することを推奨してい
る。この指針は必ずしも常に最善のエンドポイントを設定できることを保証
するわけではないが、実証試験に不慣れな開発者にとっても比較的容易に有
- 11
用なエンドポイントを設定することができる。何よりも、有効性と効率の 2種の客観量と満足度とを指示しているので、漠然とエンドポイントを考える
場合に比べて格段に考えやすい。また、何らかの客観量をアウトカム変数と
して定義したとき、その意義づけのためにも有用である。有効性と効率とは
その機器の機能と求められる支援の内容から考えることができるので特定の
パラメータを選定するのは困難ではない。 満足度に関するアウトカム変数としては既に述べたように、支援機器向け
に作成された満足度にかかわる尺度として PIADS と QUEST がある。この
2 つの指標に関する問題は、先に述べたように単独では満足の「度合い」を
判断することが困難である点である。そのため、これらの尺度は比較対象試
験における満足度あるいは QOL 評価のためのエンドポイントとして、複数
の用具に対する優劣を比較するために用いられてきた。 それ以外に、PIADS は質問項目が 26 項目と多い上にその使用には許諾が
必要である。QUEST の質問内容は「どれくらい満足していますか」という
質問になっており、主観内容を直接質問している点で被験者が測定目的を常
に意識せざるを得ない点でバイアスを伴いやすい。(拙著 189 ページ参照) 一方、SUSの質問項目は満足度を構成する項目であるが満足の程度を直接
問うているわけではない。その意味で QUEST にくらべてバイアスが入りに
くい質問項目からなっているといえる。この点からしても、福祉用具の実証
試験における満足度評価のエンドポイントとしては SUS が適している。 SUS は PIADS や QUEST とは異なり絶対評価が可能であるとされる。し
かし、これは「絶対的な満足度」を基準として検証したわけではなく、形容
的標語をはじめとする満足度を表す単一項目質問との相関によって検証した
ものである。その信頼度は多数の製品、サービスについて、数千に上る調査
が独立して行われ、それらによって有効性が確認されたことに基づいている。
別の表現をすれば、非常に多数(5000 件以上)の調査結果に基づいて、
SUS のスコアの意味についての検討がなされてきた。それらを基にして図 2のパーセンタイルがベンチマークとしてまとめられた。これによって SUSが計測されれば満足度においてどの程度のパーセンタイルにあるかが解り、
それを絶対的評価スコアとして利用することができる。 さらに、SUS は ICT 製品に始まり、ソフトウェア他の様々な製品への適
用が期待されている。このことから、異なった福祉用具、たとえば床走行リ
フトと天井走行リフトの満足度を同じ尺度によって比較する目的にも用いる
ことができる。 福祉用具についてこれまでの比較対照試験のアプローチではそのたびに比
較しなくてはならなかった。しかし、絶対評価が可能となれば、製品ごとの
12 -
満足度の比較が可能となり、満足度の低い製品は上市を中止することもでき
る。また、満足度の高い製品については商品開発の方向性についてのヒント
を得ることもできるであろう。 文献
1 山内繁:エンジニアのための人を対象とする研究計画入門 - 科学的合理性と倫理的妥
当性,p. 81,丸善出版,(2015) 2 Brooke, J.; SUS: A "quick and dirty" usability scale. In P. W. Jordan, B. Thomas, B. A.
Weerdmeester, & A. L. McClelland (Eds.), Usability Evaluation in Industry. London: Taylor and Francis. (1996). http://hell.meiert.org/core/pdf/sus.pdf
3 John Brooke: SUS - A Retrospective, J. Usability Studies, 8(2), 29-40 (2013); http://uxpajournal.org/wp-content/uploads/pdf/JUS_Brooke_February_2013.pdf
4 Aaron Bangor, Philip Kortum, James Miller; Determining What Individual SUS Scores Mean: Adding an Adjective Rating Scale, J. Usability Studies, 4(3), 114-123(2009) http://uxpajournal.org/wp-content/uploads/pdf/JUS_Bangor_May2009.pdf
5 Justin Mifsud; Usability Metrics – A Guide To Quantify The Usability Of Any System, http://usabilitygeek.com/usability-metrics-a-guide-to-quantify-system-usability/, June 22, 2015
6 Net Promotor Network; https://www.netpromoter.com/ 7 James R. Lewis and Jeff Sauro;The Factor Structure of the System Usability Scale、
Human Centered Design [Proceedings of First International Conference, HCD 2009, Held as Part of HCI International 2009, San Diego, CA, USA, July 19-24, 2009], pp 94-103, 2009, (Lecture Notes in Computer Science , vol. 5619); http://www.measuringusability.com/papers/Lewis_Sauro_HCII2009.pdf
8 L. Demers, R. Weiss-Lambrow and B. Ska; QUEST version2:福祉用具満足度調査
QUEST 第 2 版、井上剛伸、上村智子訳、p29、大学教育出版、2008 9 A. Bangor, P.T. Kortum, and J.T. Miller;"Determining What Individual SUS Scores
Mean: Adding an Adjective Rating Scale", Journal of Usability Studies, 4(3), 114-123(2009). http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.177.1240&rep=rep1&type=pdf
10 J. Sauro; “A Przsctical Guide to the System Usability Scale”, Measuring Usability LLC, 2011
11 Philip T. Kortum and Aaron Bangor; Usability Ratings for Everyday Products Measured With the System Usability Scale, Intl. Journal of Human–Computer Interaction, 29: 67–76, 2013. http://www.tandfonline.com/loi/hihc20
Recommended