%GRRが10%未満なら合格、と思い込んでいると重大な測定ミスを見逃します。
ゲージR&R(Gauge Repeatability and Reproducibility)は、測定システムが持つばらつきの大きさを定量的に評価する手法です。医療機器の品質管理や臨床検査における精度保証の文脈でも、近年その重要性が高まっています。判定の中心となる指標が「%GRR」であり、これは測定システム全体のばらつきが、製品(または検体)のばらつき全体に占める割合をパーセントで示したものです。
一般的にQS-9000やAIAG(Automotive Industry Action Group)のMSA(Measurement System Analysis)マニュアルに基づく判定基準では、以下の3段階が広く用いられています。
つまり数値が低いほど優秀です。しかしここで注意が必要なのは、この基準はあくまで製造業・自動車業界で標準化されたものであり、医療・臨床検査の分野ではそのまま適用できないケースがある、という点です。
医療機器の精度管理においては、ISO 13485やJIS T 0601シリーズなど、業界固有の精度要求が存在します。血糖値測定器を例に挙げると、ISO 15197では測定値の95%以上が「真値±15mg/dL(または±15%)」以内に収まることが求められており、この要求水準に照らすと%GRRが10%台でも実務上問題になるケースがあります。
10%未満なら問題なし、が基本です。しかし医療分野ではその基準が変わることがあります。用途ごとの追加基準を必ず確認してください。
%GRRという一つの数値だけを見ていると、測定システムの「どこに問題があるか」を見抜けません。ゲージR&Rの分析では、%GRRを構成する二つの要素——EV(Equipment Variation:繰り返し性)とAV(Appraiser Variation:再現性)——を必ず分けて把握することが重要です。
EV(繰り返し性)とは、同じ測定者が同じ機器・同じ検体を繰り返し測定したときのばらつきです。機器そのものの安定性や精度が反映されます。一方、AV(再現性)は、測定者が異なる場合のばらつきであり、測定手技・操作習熟度・環境条件の違いが影響します。
たとえば、EVが高い(=機器の繰り返し性が悪い)場合は、機器のキャリブレーション不良や消耗品の劣化が疑われます。医療現場でいえば、血圧計のカフの摩耗や体温計の電池消耗がこれに相当します。一方AVが高い(=再現性が悪い)場合は、測定者間のトレーニング不足や手順書の不明確さが原因であることが多いです。
つまり対策の方向性がまったく異なります。EVとAVを一緒くたにすると、根本原因を誤って判断し、改善コストと時間を無駄にするリスクがあります。医療機関の品質管理担当者やME(臨床工学技士)の方は、分析レポートを受け取った際にEVとAVの内訳を必ず確認する習慣をつけてください。
EVとAVの内訳確認が条件です。%GRRだけ見ても改善策は出てきません。この視点を持つだけで、トラブルシューティングの精度が大きく変わります。
ゲージR&Rの分析結果の信頼性は、計画段階での設定によって大きく左右されます。ここを間違えると、得られた%GRRの数値自体が統計的に無意味になります。厳しいところですね。
AIAGのMSAマニュアルで推奨されている標準的な構成は以下の通りです。
合計測定回数の目安は「部品数 × 測定者数 × 繰り返し回数 = 60〜90回」程度です。たとえば「10部品 × 3名 × 2回 = 60回」という構成が一般的です。この60という数字は、「A4用紙1枚に収まるデータ量」と覚えておくと現場でイメージしやすいでしょう。
医療現場で注意すべき点は、「部品(サンプル)が工程全体のばらつきを代表していること」という条件です。検査室での血液サンプルや試薬ロットの選び方が偏っていると、実態よりも%GRRが良く(または悪く)見える場合があります。特に医療機器の精度評価では、特定の濃度範囲や特定の患者層のサンプルに偏ることなく、臨床的に意味のある範囲全体をカバーしたサンプル設計が必要です。
またサンプル数が少ないことも問題です。「5部品 × 2名 × 2回 = 20回」のような小規模なデータでは、信頼区間が広がりすぎて判定が不安定になります。20回ではデータが足りません。最低でも30回以上、理想は60回以上を確保することを強く推奨します。
%GRRと並んでゲージR&Rの評価に欠かせないのが、NDC(Number of Distinct Categories:識別カテゴリ数)です。これは、測定システムが製品のばらつきをいくつのカテゴリに分類できるかを示す指標で、AIAGのMSA基準では「NDC ≧ 5」が合格とされています。
NDCが5未満の場合、測定器は製品の差異を十分に識別できていないことを意味します。たとえばNDC = 2であれば、「良品・不良品」の2択程度の識別力しかないということです。これは定規の目盛りが粗すぎて、1mmと2mmの差を読み取れないような状況に近いです。
医療現場でこれが特に問題になるのは、検査値の微妙な変動を追跡する必要がある場面です。慢性疾患の経過観察でHbA1cを継続測定する場合、0.1〜0.2%の変動を臨床判断の根拠にするケースがあります。このような高分解能を要する用途では、NDCが5〜6程度では不十分であり、より高い識別力を持つ測定システムの選定が必要です。
これは使えそうです。%GRRだけ合格でもNDCが低ければ、臨床上の意思決定に使える測定器とはいえません。逆にいえば、NDCを確認することで「この機器が本当に現場で役に立つか」を数値で判断できます。NDCとNDCの計算式は以下の通りです。
$$NDC = 1.41 \times \frac{PV}{GRR}$$
ここでPVは部品(製品)のばらつき(標準偏差)、GRRは測定システムのばらつきです。%GRRとNDCを両方確認することが原則です。どちらか一方だけでは測定システムの実力は評価できません。
ゲージR&Rは本来、製造業の工程管理ツールとして発展してきた手法です。しかし医療機器メーカーや医療機関の品質管理部門では、この手法をISO 13485やFDA 21 CFR Part 820が求める「測定システムの妥当性確認」に活用するケースが増えています。
実務上でよく見落とされるのが、「測定システムの線形性・安定性の確認をGRR実施前に行う」という前提条件です。測定システムが時間経過や測定範囲によってバイアス(系統誤差)を持っている場合、GRR分析を行っても精度の実態を正確に把握できません。GRRはあくまでランダム誤差(ばらつき)を評価するツールであり、系統誤差は別途キャリブレーションや線形性分析で取り扱う必要があります。
| 評価項目 | 評価手法 | 評価対象の誤差 |
|---|---|---|
| 繰り返し性・再現性 | ゲージR&R | ランダム誤差 |
| 測定値のズレ(かたより) | バイアス分析 | 系統誤差 |
| 測定範囲全体の精度 | 線形性分析 | 系統誤差(範囲依存) |
| 時間による変動 | 安定性分析 | 系統誤差(時間依存) |
この4つの分析をセットで実施することが、MSAの本来の姿です。医療機器の設計検証・製造工程の妥当性確認では、この全体像を理解したうえでGRR分析を位置づけることが求められます。
また、医療機器メーカーの品質管理担当者がよく直面する課題として、「合格基準をどこに設定するか」というQMS(品質マネジメントシステム)上の判断があります。%GRR < 10%をそのまま採用するのか、製品の許容差や臨床的な影響度に基づいてカスタムの基準を設定するのかは、リスクベースのアプローチで判断する必要があります。ISO 14971(医療機器のリスクマネジメント)と組み合わせて検討することが、FDA査察やISO 13485認証審査でも評価されるポイントです。
線形性と安定性の確認が先です。GRR分析を先に走らせると、土台のない数値で判断することになります。判定基準の設定はリスクマネジメントと連動させるのが、医療品質管理の実務水準です。
参考:MSA(測定システム解析)の基礎と実務への応用についての解説(AIAG MSAマニュアルの要点整理)
日本科学技術連盟 品質管理関連情報
参考:ISO 13485医療機器品質マネジメントシステムの要求事項と測定管理への適用
日本規格協会 ISO 13485 関連資料

FregocS ラジアスゲージ 半径測定 R1~R25 便利な 3点セット 全48枚 ケース付 Rゲージ 半径ゲージ TRG3S