%GRRが10%以下でも、ndcが5未満なら判定は「不合格」です。
「測定器を定期的に校正しているから大丈夫」と考えている方は、少し立ち止まって考えてみてください。校正は測定器単体の精度確認に過ぎず、測定者のスキルや手順の違いによるばらつきは評価できていません。ゲージR&Rは、測定器・測定者・環境を含む「測定システム全体」を評価する手法です。
R&Rとは「Repeatability(繰り返し性)」と「Reproducibility(再現性)」の頭文字を取ったものです。繰り返し性(EV:Equipment Variation)は、同じ測定者が同じ条件で同じ対象を複数回測定したときのばらつきを指します。再現性(AV:Appraiser Variation)は、異なる測定者が同じ対象を測定したときの平均値のばらつきです。この二つを合成した指標がGRR(=√(EV²+AV²))です。
測定全体のばらつき(TV:Total Variation)は、部品自体のばらつき(PV:Part Variation)とGRRの二つで構成されます。つまり「データのばらつき=製品のばらつき+測定システムのばらつき」です。
測定システムの評価が重要な理由は、測定精度が低いと製品判定に直接影響するからです。たとえば%GRRが大きい状態では、良品を不良品として廃棄したり、逆に不良品を良品として後工程に流してしまうリスクがあります。製造業では顧客クレームや品質トラブルの主要因になりうる問題です。
ゲージR&RはMSA(測定システム解析:Measurement System Analysis)という品質管理手法の一部として位置づけられています。自動車業界の品質規格IATF16949では、GRRを含むMSAの実施が必須要件として定められており、製造業全般で活用が広がっています。
MSA(測定システム解析)の全体像と、GageR&Rのやり方を体系的に解説したページ
ゲージR&Rの判定で最も重要な指標が「%GRR」です。これは全変動(TV)に占めるGRRの割合を示したもので、以下の3段階で評価されます。
| %GRRの値 | 判定 | 対応 |
|---|---|---|
| 10%未満 | ✅ 良好(合格) | そのまま使用可 |
| 10〜30% | ⚠️ 条件付き合格 | コスト・用途・顧客承認による判断が必要 |
| 30%超 | ❌ 不合格 | 測定システムの改善が必須 |
たとえば%GRRが16%だった場合、「条件付き合格」の範囲です。この数値は全変動の16%が測定システムのばらつきによるものであることを意味します。10cm定規でいえば、1.6cmほどの幅で測定値がふらつく状態をイメージするとわかりやすいでしょう。
「条件付き合格」は決して安全圏ではありません。測定する特性の公差が厳しい場合や、患者安全・製品安全に直結する用途では、10%未満を目指すべきです。改善の余地ありという判断です。
ここで重要なのが、%GRRの計算方法には「公差比(P/T比)」を使うパターンと「全変動(TV)比」を使うパターンの二種類がある点です。どちらを使うかによって同じデータでも数値が変わります。MSA第4版では全変動比が標準とされていますが、顧客や規格の要求に応じて使い分ける必要があります。この点は見落とされがちです。
%GRRの計算式と合否判定基準をANOVA法で解説した専門サイト
%GRRだけ確認して「合格」と判断するのは、実は不十分です。もう一つ必ず確認すべき指標が「ndc(Number of Distinct Categories:知覚区分数)」です。
ndcは、測定システムが製品のばらつきをいくつの区分に分類できるかを示す数値で、以下の式で計算します。
$$ndc = 1.41 \times \frac{PV}{GRR}$$
MSAガイドラインでは、ndcが5以上であることが求められています。5未満の場合、測定システムは製品を正しく区別する能力が不足しており、実質的に「不合格」です。
具体的なイメージとして、ndcが2だった場合、測定システムは製品を「大・小」の2種類しか区別できない状態を意味します。これでは品質管理上の判断が大幅に制限されます。ndcが5以上あれば、5段階程度の品質グレードを識別できる能力があることを示します。
%GRRが10%以下でも、ndcが4以下であれば判定は「不合格」になりえます。この組み合わせの確認が必須です。
なお、ndcが低くなりやすいのはサンプルのばらつき(PV)が小さすぎる場合です。均一な製品ばかりでテストすると、GRRに対してPVが相対的に小さくなり、ndcも小さくなります。サンプル選定で意図的にばらつきを持たせることがポイントです。
ndc(知覚区分数)の意味と判定基準の使い方について解説した日本科学技術連盟のFAQページ
ゲージR&Rの計算方法には「平均-範囲法(X̄-R法)」と「ANOVA法(二元配置分散分析法)」の2種類があります。ANOVA法が推奨です。平均-範囲法はExcelでも手軽に計算できますが、測定者と部品の交互作用を評価できないという限界があります。
ANOVA法の基本的な手順は以下の通りです。
交互作用の扱いにも注意が必要です。交互作用のp値が0.05以上(有意でない)の場合、交互作用の変動を誤差に合算して計算します。有意な場合は交互作用の値を別扱いにします。
計算が難しいと感じる場合は、Minitabなどの統計ソフトを使用すると、データを入力するだけで自動的に計算・グラフ化されます。グラフでは各測定者の測定値の散布図や、部品ごとのばらつきを視覚的に確認できます。これは使えそうです。
標準的な設計は「3人の測定者×10個のサンプル×各3回測定=合計90データ」です。この設計ではデータ点数が統計的に十分な精度を確保できるとされています。
EV(繰り返し性)が高い場合は測定器自体に問題がある可能性があります。再校正や測定器の交換を検討しましょう。一方AV(再現性)が高い場合は、測定者間の手順の違いや教育不足が原因として考えられます。測定手順書の整備やトレーニングが有効です。
ゲージR&Rの計算式・評価フォーマットの使い方を詳しく解説した技術者教育研究所のページ(Excelテンプレートも無料提供あり)
%GRRが30%を超えてしまい、「うちの測定システムはダメだ」と思い込んでいる方に知ってほしい事実があります。サンプルの選び方次第で、同じ測定システムでも%GRRが大幅に変わるのです。
測定システムのばらつきが変わらなくても、サンプルのばらつき(PV)が小さいと全変動(TV)が小さくなり、相対的に%GRRが大きく算出されてしまいます。これは数式の構造上避けられない問題です。
$$\%GRR = \frac{GRR}{TV} \times 100$$
TVが小さくなればなるほど、%GRRは分母が縮んで大きな値になります。本来は問題のない測定システムが「不合格」と誤判定されるリスクがあります。
適切なサンプル選定の基準は以下の通りです。
これは厳しいところですね。「GRRが高い=測定システムが悪い」と短絡的に判断する前に、サンプル選定が適切だったかどうかを必ず確認する必要があります。
また、サンプルを測定者に渡す際は、部品番号や順番を見せない「ブラインド測定」が推奨されます。測定者が前の測定値を覚えていると、再現性のばらつきが実態より小さく評価されてしまうからです。測定の信頼性を守るための基本ルールです。
ゲージR&Rの判定結果が出たら、次のステップは「何を改善すればいいか」の特定です。ここで活きるのが、EVとAVの数値を個別に比較する「比較診断」のアプローチです。検索上位ではあまり語られていませんが、現場での改善を効率化するうえで非常に実践的な視点です。
| 判定結果 | 原因の候補 | 推奨される改善策 |
|---|---|---|
| EV(繰り返し性)が高い | 測定器の精度劣化・校正不足・治具の問題 | 測定器の再校正、治具の見直し、測定器の更新 |
| AV(再現性)が高い | 測定者間の手順の差異・教育不足 | 測定手順書の整備、作業者教育、測定環境の統一 |
| 両方が高い | 測定システム全体の見直しが必要 | 測定方法の根本的な再設計、高精度機器への置き換えを検討 |
EVとAVの比較診断は、改善コストの最小化にも直結します。たとえばAVが主原因なら、高価な機器更新より「測定手順書の標準化」と「OJT教育」で解決できる場合があります。これは使えそうです。
改善後は必ずGRRを再実施して、判定基準をクリアしているかを確認します。一度の改善で解決しないケースもあるため、PDCA(計画・実行・確認・改善)のサイクルで継続的に管理することが基本です。
%GRRが条件付き合格(10〜30%)の範囲にある場合、顧客や関係者の承認を取得したうえで使用継続とするケースもあります。承認なしでの継続使用は規格違反になりうるため、記録と合意形成が必須です。改善を考慮すべきが原則です。
定期的なGRRの再評価も重要です。測定器は経時劣化しますし、測定者の入れ替わりや手順変更があると、以前は合格だった測定システムが基準を外れることがあります。年1回以上の定期評価を設計に組み込むことが推奨されます。
ゲージR&Rの導入メリットや判定後の改善事例を製造業の視点で解説したKoto Onlineの記事