AIプログラム作成比較：SASとRでMMRMを実装するならどのAIが最適か？

― ChatGPT・Claude・Gemini・GitHub Copilotを実際に使って検証 ―

記事の目次

この記事でわかること

SAS・Rのプログラム作成に使えるAIツール（ChatGPT・Claude・Gemini・GitHub Copilot）の特徴
各AIに同じMMRM（反復測定混合モデル）の指示を出したときのコードの品質・速さの比較
生物統計・製薬業界のコード作成においてどのAIが実務向きか
AI agentとは何か、プログラム作成にどう活用できるか
SASとRそれぞれのMMRM実装コード（コピペ可）

はじめに

製薬企業での臨床試験解析や大学での統計解析において、SASやR言語によるプログラム作成は日々の業務の中心にあります。近年、ChatGPTをはじめとするAIツールが急速に普及し、「AIにコードを書かせる」という働き方が生物統計家の間でも広がりつつあります。

しかし、「どのAIが一番使えるのか？」という疑問に答えた実務的な比較記事は少ないのが現状です。特に、臨床試験の主要解析手法であるMMRM（Mixed Model for Repeated Measures：反復測定混合モデル）のような専門性の高いコードを正確に生成できるかどうかは、実際に試してみないとわかりません。

本記事では、ChatGPT（GPT-4o）・Claude（Sonnet）・Google Gemini・GitHub Copilotの4つのAIに対し、同じMMRM解析の指示を与え、生成されたコードの品質・正確性・速さ・実務での使いやすさを比較します。製薬企業の生物統計担当者やSAS・Rを使う学生の方に、AIとの上手な付き合い方を知っていただければと思います。

1. プログラム作成に使えるAIツール紹介

まず、主要なAIツールの概要を整理します。

AIツール	提供会社	特徴	主な利用形態
ChatGPT（GPT-4o）	OpenAI	最も広く使われている汎用AIチャット。コード生成に強い	Webブラウザ・API
Claude（Sonnet/Opus）	Anthropic	長い文脈の理解が得意。詳細な指示への対応力が高い	Webブラウザ・API
Google Gemini	Google	Googleサービスとの統合。最新情報へのアクセスに強い	Webブラウザ・API
GitHub Copilot	GitHub（Microsoft）	コードエディタ（VS Code等）に組み込んで使う。補完に特化	VS Code拡張機能

各AIの得意・不得意

ChatGPT（GPT-4o）は、Rコードに関しては膨大な学習データをもとに高品質なコードを生成します。SASについてはRほどではありませんが、基本的な手続きは問題なく出力できます。

Claudeは、長い指示文や複雑な要件定義に強い印象があります。「〇〇というデータ構造で、〇〇の仮定を置いた上でMMRMを実装して」という細かい指示でも、意図を正確に読み取ってコードを生成する精度が高いです。

Google Geminiは、GoogleのサービスやGoogleドキュメントとの連携が強みです。ただし、専門統計手法のコード生成では他ツールと比べてやや精度が落ちることがあります。

GitHub Copilotは、テキストチャット形式ではなくコードエディタでの補完に特化しています。既存コードの続きを書いてほしい場面や、関数名を入れたら実装を補完してほしい場面に非常に有用です。

2. MMRMとは

比較の前に、MMRMについて簡単に整理します。

MMRM（Mixed Model for Repeated Measures）とは、臨床試験における繰り返し測定データを解析するための混合モデルです。製薬開発における主要評価項目の解析で広く用いられており、ICH E9（R1）でも言及されています。

MMRMでは被験者内の誤差共分散構造（非構造化・複合対称性など）を柔軟に指定できる点が特徴です。

関連記事：mmrm（反復測定混合モデル）とは？臨床試験での活用とRによる実装

3. 各AIへの指示（プロンプト）

以下の統一プロンプトを各AIに投げました。

以下の条件でMMRMのコードを書いてください。

【データ】
- データ名：fev_data（mmrm パッケージに含まれるサンプルデータ）
- 応答変数：FEV1（肺活量）
- 固定効果：RACE（人種）、SEX（性別）、ARMCD（治療群）、AVISIT（来院時点）、ARMCD×AVISIT交互作用
- 被験者内共分散構造：非構造化（UN）
- 被験者ID：USUBJID

【要件】
1. RとSAS両方のコードを書いてください
2. Rは mmrm パッケージを使用してください
3. SASはPROC MIXEDを使用し、Kenward-Roger法でdfを調整してください
4. 各コードに簡単なコメントを付けてください

4. 各AIのコード出力比較

4-1. ChatGPT（GPT-4o）の出力

ChatGPTは迅速に以下のコードを生成しました。コメントも適切で、実用的なコードです。

Rコード（ChatGPT生成）

# mmrm パッケージを読み込む
library(mmrm)

# MMRMの実行
# 固定効果：RACE, SEX, ARMCD, AVISIT, ARMCD×AVISIT
# 共分散構造：非構造化（us）、被験者ID：USUBJID
fit_chatgpt <- mmrm(
formula = FEV1 ~ RACE + SEX + ARMCD * AVISIT + us(AVISIT | USUBJID),
data = fev_data
)

# 結果の表示
summary(fit_chatgpt)

SASコード（ChatGPT生成）

/* MMRMの実行 */
/* 固定効果：RACE SEX ARMCD AVISIT 交互作用 */
/* 共分散構造：非構造化（UN）、df調整：Kenward-Roger */
proc mixed data=fev_data;
class USUBJID ARMCD AVISIT RACE SEX;
model FEV1 = RACE SEX ARMCD AVISIT ARMCD*AVISIT / ddfm=kr;
repeated AVISIT / subject=USUBJID type=un;
run;

📝 評価：Rコード・SASコードとも正確で実務でそのまま使えるレベルです。ddfm=kr（Kenward-Roger）の指定、us()による非構造化共分散の指定も的確でした。

4-2. Claude（Sonnet）の出力

ClaudeはRコードとSASコードをそれぞれ丁寧に生成し、コメントが最も詳細でした。

Rコード(Claude（Sonnet）生成）

# mmrmパッケージを読み込む
library(mmrm)

# fev_dataはmmrmパッケージに含まれるサンプルデータ
# 非構造化共分散（us）を指定し、被験者USUBJID内で繰り返しを考慮する
fit_claude <- mmrm(
formula = FEV1 ~ RACE + SEX + ARMCD * AVISIT + us(AVISIT | USUBJID),
data = fev_data
)

# モデルの要約統計量を表示
summary(fit_claude)

# 最小二乗平均（LS Means）を算出する場合
# emmeans パッケージを組み合わせると便利
library(emmeans)
emmeans(fit_claude, ~ ARMCD | AVISIT)

SAS(Claude（Sonnet）生成）

/* MMRM with PROC MIXED */
/* Kenward-Roger法によるdf調整とUN共分散構造を指定 */
proc mixed data=fev_data method=reml;
class USUBJID ARMCD AVISIT RACE SEX;
model FEV1 = RACE SEX ARMCD AVISIT ARMCD*AVISIT / ddfm=kr s;
repeated AVISIT / subject=USUBJID type=un r rcorr;
/* LS Meansと群間差の推定 */
lsmeans ARMCD*AVISIT / diff cl;
run;

📝 評価：Claudeのコードはemmeansとの連携例やSASのlsmeansオプション、r rcorrオプション（共分散行列と相関行列の出力）まで含まれており、実務で必要な出力を網羅していました。指示文にない内容も補完してくれる点が強みです。

4-3. Google Geminiの出力

Geminiは全体的に正確なコードを生成しましたが、SASコードに一部修正が必要な点がありました。

library(mmrm)

# MMRMモデルの構築
# us()：非構造化共分散行列の指定
fit_gemini <- mmrm(
  formula = FEV1 ~ RACE + SEX + ARMCD * AVISIT + us(AVISIT | USUBJID),
  data = fev_data
)

summary(fit_gemini)

📝 評価：RコードはChatGPT・Claudeと同様に正確でした。SASコードは共分散構造の指定に誤りがあり（type=unstructuredという実在しないオプション）、実行前に確認・修正が必要でした。SAS構文の学習データが他のAIよりやや少ない印象です。

4-4. GitHub Copilot

GitHub Copilotはチャット形式での比較も可能ですが、真価はVS Code等のエディタ内での補完にあります。

# VS Code上でこのコメントを書いた後、Copilotが補完する例
# Fit MMRM model using mmrm package with unstructured covariance
fit_copilot <- mmrm(  # ← ここからCopilotが補完を開始
  formula = FEV1 ~ RACE + SEX + ARMCD * AVISIT + us(AVISIT | USUBJID),
  data = fev_data
)

📝 評価：エディタ上で既存コードの文脈を把握した上で補完してくれるため、「既にコードが半分書いてある状態」での活用に最適です。一方、ゼロから書き起こす場面ではチャット型AIの方が使いやすいです。

5. 比較結果まとめ

評価項目	ChatGPT（GPT-4o）	Claude（Sonnet）	Gemini	GitHub Copilot
Rコードの正確性	◎	◎	◎	◎
SASコードの正確性	◎	◎	△（要確認）	○
コードの詳しさ	○	◎	○	○
応答速度	◎	◎	◎	◎
専門用語の理解	◎	◎	○	○
エディタ統合	△	△	△	◎
無料利用	△（制限あり）	△（制限あり）	○	△（有料プランが必要）

総評

最も万能：Claude または ChatGPT。どちらもRとSASのMMRMコードを高精度で生成できます。詳細なコメントや追加機能（emmeans等）の提案を求めるならClaudeが一歩リード。
コスパ重視：Gemini。無料枠が広く、Rコードの精度は問題ありません。SASは出力後に必ず構文チェックを行うことを推奨します。
エディタで使いたい：GitHub Copilot。既存スクリプトの補完・修正に最適。

6. AI agentとは？プログラム作成への活用

最近、単なるチャットAIを超えた「AI agent」という概念が注目されています。

AI agentとは、AIが自律的にタスクを計画・実行・修正できる仕組みのことです。例えば、「MMRMのコードを書いて、実際に実行して、エラーがあれば自分で修正して、結果をレポートにまとめて」という一連の作業を、人間が逐一指示しなくても完遂できます。

プログラム作成における活用例

コード生成 → 実行 → デバッグの自動化：ChatGPTのCode Interpreter（Advanced Data Analysis）やClaudeのArtifactsは、コードを生成してその場で実行し、エラーがあれば自動修正します。
複数ファイルの一括操作：GitHub CopilotのAgent機能は、複数のスクリプトにまたがる修正を自律的に行えます。
解析レポートの自動作成：生成したコードの出力結果をもとに、解釈・考察を含むレポートまで自動生成することが可能です。

生物統計の実務では、まだ完全自動化には慎重さが必要ですが、「AIにドラフトを作らせて人間がレビューする」というワークフローは今後の標準になっていくと考えられます。

7. 実務でのポイント

AIコードを使う際の注意事項

必ず実行して結果を確認する：AIが生成したコードは、構文的に正しくても意図した解析ができていないケースがあります。特にSASコードは実行前の目視確認を推奨します。
モデルの仮定を指示に含める：「非構造化共分散」「Kenward-Roger法」など、統計的な仮定を具体的に伝えることでコードの精度が上がります。
データの変数名・型を正確に伝える：AIはデータの中身を知らないため、変数名・クラス変数・連続変数の区別を明示すると精度が大幅に向上します。
AIを「補助ツール」として使う：AIが生成したコードを最終成果物として提出するのではなく、ドラフトとして活用し、統計的な妥当性は必ず自分で確認することが重要です。

生物統計家へのおすすめ活用法

プロンプトのテンプレートを作る：よく使うMMRM・ANCOVA・Cox回帰などのプロンプトをテンプレート化しておくと、業務効率が大幅に向上します。
エラーメッセージをそのまま貼る：SAS/Rのエラーログをコピーしてそのままチャットに貼ると、原因と修正案を提示してくれます。
ICHガイドラインの要件を一緒に伝える：「ICH E9 R1に準拠したMMRMで」と伝えるだけで、estimandの観点を踏まえた解析コードを生成してくれることがあります。

📚 この記事をより深く理解するための参考書籍

統計・生物統計をさらに深く学びたい方に、おすすめの書籍をご紹介します。

『臨床試験のデザインと解析』丹後俊郎（朝倉書店）

MMRMを含む臨床試験の解析手法を体系的に学べる定番書です。本記事で紹介したMMRMの理論的背景や、製薬開発での実務的な使い方を深く理解したい方に最適な一冊です。

『データ解析のための統計モデリング入門』久保拓弥（岩波書店）

混合モデルの基礎概念を直感的に理解するうえで非常に有用です。本記事のMMRMの数理的背景をより深く理解したい方、GLMMとの関係を整理したい方におすすめです。Rコード付きで実装まで学べます。

『RによるデータサイエンスII』金明哲（森北出版）

RによるデータサイエンスとAIツールの連携も含めた、実践的なR利用を学べます。本記事でAIと組み合わせたRの活用に興味を持たれた方に最適な一冊です。

まとめ

本記事では、SASとRのMMRMコード作成において、ChatGPT・Claude・Gemini・GitHub Copilotの4つのAIを比較しました。

Rコードについてはどのツールも高精度で実用的なコードを生成できますが、SASコードの精度ではChatGPTとClaudeが一歩リードしています。特に、「Kenward-Roger法」「非構造化共分散」など専門的な統計要件を正確に反映させるには、Claude・ChatGPTのどちらかを使うのが最も安全です。

また、AI agentの進化により、コード生成→実行→デバッグの一連の流れを自動化できる時代が近づいています。生物統計家としては、AIをうまく活用しながらも、統計的な妥当性の最終判断は自分で行うという姿勢が大切です。

AIツールをプログラム作成の強力なパートナーとして活用し、業務効率と解析品質の両立を実現していただければと思います。

次回は、AIを使ったSASマクロの自動生成と実務活用例をご紹介します。