#Vol.自分へのチュートリアル
#中医学データ分析
#データマイニング
#中医学の継承
#Obsidian
人工知能
こんにちは、医療ケースデータベースを持ったら、あなたは何をしますか?
知らず知らずのうちに、師匠に従って処方を写し、医療ケースのテキストを約十万文字蓄積しました。医療ケースデータが一定の規模に達すると、自然な考えが浮かび上がりました:これらの貴重な経験を「語らせる」時が来たのです!
ここでは、私が整理した中医学処方データ分析のフレームワークと実践的な考え方を共有します:
一、中医学処方データ分析フレームワークの策定#
ステップ | 中医学データの問題 | 対応戦略 | ツール / 技術 |
---|---|---|---|
1. データ収集 | - 病歴情報が非構造化(自由テキスト) - 舌の画像記録基準が統一されていない | - 構造化入力:標準化された病歴情報、臨床報告の記録を設計 - 画像の標準化:舌の画像収集装置、方法の保存規範を統一 | - 中医学電子病歴システム(TCM EMR)を作成 - 画像収集装置とプロセスの標準化 |
2. データクリーニング | - 用語の相違:同じ症状に異なる名称(例:"発熱" と "身熱") - 単位の混在:グラム、支、袋などの混用 - 情報の欠落:証型、舌脈、症候の記録が不完全 - 主観性が強い:証型の判定が医師の経験に依存 - 処方が複雑:再診薬の加減要因が多様 | - 中医学用語の標準化 - 証素の抽出:証型の基本要素を分解 - 投与単位を「グラム」に統一 - 証に基づく論理に基づく欠損値の補完 / または空白値の保持 - 初診の基本処方と再診の加減処方を明確に区別 | - WHO 国際標準中医学用語 2022 - 邓鉄涛主編『中医学診断学』 - 朱文峰教授『中医学の証明機』の模倣 |
3. 特徴エンジニアリング | - 多次元の関連が複雑:症候↔証素↔証型↔方剤 | - 関連ネットワークの構築:症候 - 証型ネットワーク、症候 - 方剤ネットワーク - 方剤の類似度を計算:例えばジャッカード指数 | - データマイニング - 複雑ネットワーク分析 |
4. 分析モデルの構築 | - モデルは説明可能である必要がある:中医学の証明論理に合致 - 小サンプル問題 | - 証型分類モデル(SVM + 中医学ルールエンジン) - コア処方の推奨 | - 関連ルールアルゴリズム |
5. 結果の解釈 | - 中医学の理論体系に合致する必要がある - 個別差を重視 | - 理論検証:モデルの出力結果を中医学の理論と師匠の経験と照らし合わせる - 実際のケースの回顧:EMR で類似ケースをマッチさせて自己照合検証 | - 中医学電子病歴システム(TCM EMR)回顧 - 専門家の評価 |
現在の限界と探求すべき方向
- 処方の加減と治療効果の関連:再診薬の加減の複雑性と具体的な治療効果の定量評価の関連が難しいため、より深い「治療効果 - 処方」の関連ルールの発掘が必要です。
二、データの抽出#
分析の第一歩は、蓄積された病歴を構造化データに変換することです。私のやり方は:
- 中医学電子病歴庫 (TCM EMR) の構築:私は Obsidian を使用して医療ケースを管理し、各病歴を構造化された .md ファイルとして保存します。これにより、後の情報抽出とリンクが容易になります。
- 重要なフィールド抽出基準の策定:これは最も核心的で、結果の質に影響を与える重要なステップです!病歴テキストからどの情報を抽出するかを明確に定義する必要があります。私が設計した CSV ヘッダーには以下が含まれます:
- 患者の匿名化番号
- 基本情報:性別、年齢
- 診断情報:主病、兼病
- 辨証情報:証素、証候、舌象、脈象
- 処方情報:処方の構成、薬物の用量(統一してグラム)
例えば:
このデータは示例であり、実際のデータではありません。
三、AI を巧みに活用:中医学処方のデータマイニングを加速#
構造化された CSV データに対して、どのように効率的に分析を行うか?
私の秘訣は、AI を通じて Python スクリプトを作成することです。詳細な方法は、私の以前のブログ記事を参照してください:AI コミュニケーションガイド:AI に正しく質問する方法。
核心的な考え方とプロセス:
- まず、最終目標を明確にする!
- データ探索:まず AI に CSV ファイルを分析させ、データ構造やフィールドの意味を理解させ、提案や注意事項を出させます。
- 具体的な要求を提示:AI に Python(または R など)で具体的なコードを書くように明確に説明し、AI が生成したコードを取得し、自分の環境で実行します。
- フィードバックと最適化:実行結果が理想的でない場合?エラーをチェックし、原因を分析し、プロンプトを修正します。
- 循環的な反復:プロンプトの修正→新しいコードの生成→テストの実行→フィードバックのプロセスを繰り返し、コードの出力が完全にあなたの分析の期待に合致するまで続けます。このプロセス自体もデータと問題の理解を深める過程です。
部分的なコードの例:
もしコードが面白くないと感じたら、GPT にその個性を加えさせることもできます~(マッチョ版&かわいい版)
ヒント:関連研究を行う際には、調整可能なパラメータのコントロールパネルを設定することをお勧めします。これにより、自分のニーズをより良く満たすことができ、毎回 AI に尋ねる必要がなくなります。
出力結果の例:
GPT が生成したコードの出力結果は満足のいくもので、師匠の用薬の規則を理解するには十分です。もしさらに研究プロジェクトに使用する場合は、さらに最適化が必要です。
実際には、古今医案クラウドプラットフォームが研究プロセス全体を開発しており、直接研究に使用できるため、なぜ自分で「時間を無駄にして」これらを試行錯誤する必要があるのでしょうか?理由は二つあります:
一つは、プライベートデータをクラウドプラットフォームにアップロードするのが難しいこと。
二つ目は、大学で購入していないからです...
四、続く#
これは始まりに過ぎません!次に探求したいのは:
- 運気分析:受診日を節気 / 五運六気パラメータに変換すること
- 治療効果のフィードバック:再診の改善度を定量化して分析に加えること(標準化スコアの設計が必要)
- 知識グラフ:『症 - 証 - 薬 - 効』のインタラクティブなネットワークを構築すること
🌱 もしあなたも同様の探求を行っているなら、ぜひ経験を共有してください!特に聞きたいのは:
- あなたはデータをどのように処理していますか?
- 巧妙な特徴エンジニアリングの方法はありますか?
- あなたはどのように知識グラフを構築していますか?