🎓
受講メモ RWD 20240413_2限
RWD 講義 第2回2限 20240413
講師:松居先生
テーマ:臨床課題分析と実務マネジメント
データマネジメント・データ管理
講義の目的
臨床データの分析におけるデータマネジメントの実例を学ぶ
(i)臨床疫学研究に関連する情報管理の実際を学ぶ
(ii)大規模データベースから、目的にあった標準データセットを抽出するプロセスを復習する。
(iii)解析の再生成という観点から、研究関連データの管理を学ぶ
講義の流れ
データ(情報)の管理
Tipsのメモ
(i)臨床疫学研究に関連する情報管理の実際を学ぶ
情報管理とは:臨床疫学研究における情報管理は、研究のアウトプットの長期的最大化を目指して可用性を損なわないように守秘性と完全性を高める作業
情報管理で重要なのはCIA
1. Confidentiality: 守秘性
2. Integrity: 完全性
3. Availability: 可用性
最低ラインは…?
- システムへのアクセス制限:
- 複数サブネットを設定できるネットワークスイッチ(L3スイッチ) Yamaha製 15万円くらい
- データへのアクセスを管理できる機材 NAS 20万くらい
- シンクライアント 5万円くらい
- 継続的にデータの管理体制を維持・改善できる人材を研究チームに必ず一人入れる
中規模の企業で数十万くらい。
(ii)大規模データベースから、目的にあった標準データセットを抽出するプロセスを復習する。(ここはDPCコード抽出に関するspecificな話)
プロセスを標準化する
抽出プロセスとデータをセットで保存してデータの完全性を保証
ハンドリング困難なデータをハンドリング可能なレベルまでダウンサイジングする
DPCデータは、研究者が作成した抽出依頼書をもとにDPCデータ抽出班などのチームが、データ抽出を行うのがよい。抽出依頼書のフォーマットを作ることでコミュニケーションエラーを防止できる。処置セットや薬剤セットがある。
(iii)解析の再生成という観点から、研究関連データの管理を学ぶ((ii)よりもより一般的な話)
再生性(Reproducibility)と再現性(Replicability)を理解する。最低限再生性を担保するのが必要。再生性を考えることが重要
- 解析の際もデータコーディングが必要になってくるので、SPSSなどのソフトウェアよりは、RやSTATAなどのプログラミング言語を使えることが前提。
- 新しい概念:最近の動向(環境の再生成)Rのバージョンが変わっても同じ解析ができるようにする。
-Rの解析コードはPackageのバージョンで動かなくなることがある。
-Docker等のコンテナ技術の利用
-Build-Ship-Run
-コンテナを構築して(Buil)
-コンテナファイルを持ち込んど(Ship)
-コンテナを実行する
- 「ISPE-ISPOR 報告ガイドライン」
医療データベース研究を実施する際に,再生性と研究の透明性を高めることを目的として作成された論文報告のためのガイドライン。大項目は、データソース、研究の全体像、適格基準、曝露の定義、追跡期間、アウトカムの定義、共変量の定義、対照群の抽出法、統計ソフトウェア
感想
- 情報管理の徹底の線引きが難しい。リモートアクセスを考慮すると、VPN環境を簡単に作成できるようになると研究はしやすいのかもしれない。学会主導のレジストリデータ研究もCD-ROM配布よりは、VPN環境作成が良いのだろうか。
For further reading
- None