#Vol.自分へのチュートリアル #中医学データ分析 #データマイニング #中医学の継承 #Obsidian 人工知能
こんにちは、医療ケースデータベースを持ったら、あなたは何をしますか?
知らず知らずのうちに、師匠に従って処方を写し、医療ケースの文字を約十万文字蓄積しました。医療ケースデータが一定の規模に達すると、自然な考えが浮かび上がりました:これらの貴重な経験に「話させる」時が来たのです!
ここでは、私が整理した中医学処方データ分析のフレームワークと実践的な考え方を共有します:
一、中医学処方データ分析フレームワークの策定#
| ステップ | 中医学データの問題 | 対応戦略 | ツール / 技術 |
|---|---|---|---|
| 1. データ収集 | - 病歴情報が非構造化(自由テキスト) - 舌の画像記録基準が統一されていない | - 構造化入力:標準化された病歴情報、臨床報告の記録を設計 - 画像の標準化:舌の画像収集機器、方法の保存規範を統一 | - 中医学電子病歴システム(TCM EMR) - 標準化された画像収集機器とプロセス |
| 2. データクリーニング | - 用語の不一致:同じ症状の異なる名称(例:"発熱" と "体熱") - 単位の混在:グラム、支、袋などの混用 - 情報の欠落:証型、舌脈、症候の記録が不完全 - 主観性が強い:証型の判定が医師の経験に依存 - 処方が複雑:再診薬の加減要因が多様 | - 中医学用語の標準化 - 証素の抽出:証型の基本要素を分解 - 投与単位を「グラム」に統一 - 証に基づく論理での欠損値の補完 / または空白値のままにする - 初診の基本処方と再診の加減処方を明確に区別 | - WHO 国際標準中医学用語 2022 - 邓鉄涛主編《中医学診断学》 - 朱文峰教授の《中医学辨証機》の復刻 |
| 3. 特徴エンジニアリング | - 多次元の関連が複雑:症候↔証素↔証型↔方剤 | - 関連ネットワークの構築:症候 - 証型ネットワーク、症候 - 方剤ネットワーク - 方剤の類似度を計算:例えば Jaccard 指数 | - データマイニング - 複雑ネットワーク分析 |
| 4. 分析モデル | - モデルは説明可能である必要がある:中医学の辨証論理に合致 - 小サンプル問題 | - 証型分類モデル(SVM + 中医学ルールエンジン) - コア処方の推薦 | - 関連ルールアルゴリズム |
| 5. 結果の解釈 | - 中医学の理論体系に合致する必要がある - 個別差を重視 | - 理論検証:モデルの出力結果を中医学の理論と師匠の経験と照らし合わせる - 実際のケースの回顧:EMR で類似ケースをマッチングし、自身の照合検証を行う | - 中医学電子病歴システム(TCM EMR)での回顧 - 専門家の評価 |
現在の限界と探求すべき方向
- 処方の加減と療効の関連:再診薬の加減の複雑性と具体的な療効の定量評価の関連が難しいため、より深い「療効 - 処方」の関連ルールの発掘が必要です。
二、データの抽出#
分析の第一歩は、蓄積された病歴を構造化データに変換することです。私のやり方は:
- 中医学電子病歴庫 (TCM EMR) の構築:私は Obsidian を使用して医療ケースを管理し、各病歴を構造化された.md ファイルとして保存します。これにより、後の情報抽出とリンクが容易になります。
- 重要なフィールドの抽出基準を策定:これは最も核心的で、結果の質に影響を与える重要なステップです!病歴テキストからどの情報を抽出するかを明確に定義する必要があります。私が設計した CSV のヘッダーには:
- 患者の匿名化番号
- 基本情報:性別、年齢
- 診断情報:主病、兼病
- 辨証情報:証素、証候、舌象、脈象
- 処方情報:処方の構成、薬物の用量(統一してグラム)
例えば:
このデータは示例であり、実際のデータではありません。
三、AI を巧みに活用:中医学処方のデータマイニングを加速#
構造化された CSV データに対して、どのように効率的に分析を行うか?
私の秘訣は、AI を通じて Python スクリプトを作成することです。詳細な方法は、私の以前のブログ記事を参照してください:AI コミュニケーションガイド:AI に正しく質問する方法。
核心的な考え方とプロセス:
- まず、最終目標を明確にする!
- データ探索:まず AI に CSV ファイルを分析させ、データ構造やフィールドの意味を理解させ、提案や注意事項を出させます。
- 具体的な要求を提示:AI に Python(または R など)で具体的なコードを書いてもらうように明確に説明し、AI が生成したコードを取得し、自分の環境で実行します。
- フィードバックと最適化:実行結果が理想的でない場合?エラーをチェックし、原因を分析し、プロンプトを修正します。
- 反復サイクル:プロンプトの修正→新しいコードの生成→テストの実行→フィードバックのプロセスを繰り返し、コードの出力が完全にあなたの分析の期待に合致するまで続けます。このプロセス自体もデータと問題の理解を深める過程です。
部分的なコードの例:
コードが面白くないと感じたら、GPT にその個性を出させることもできます~(マッチョ版&かわいい女の子版)
ヒント:関連研究を行う際には、調整可能なパラメータのコントロールパネルを設定すると、自分のニーズをよりよく満たすことができ、毎回 AI に尋ねる必要がなくなります。
出力結果の例:
GPT によって生成されたコードの出力結果は満足のいくものであり、師匠の用薬の規則を理解するには十分です。さらに研究プロジェクトに使用する場合は、さらなる最適化が必要です。
実際、古今医案クラウドプラットフォームは、研究プロセス全体を開発しており、直接研究に使用できるため、なぜ自分で「時間を無駄にして」これを試行錯誤する必要があるのでしょうか?理由は二つあります:
一つは、プライベートデータをクラウドプラットフォームにアップロードするのが難しいこと
二つは、大学で購入していないこと...
四、続く#
これは始まりに過ぎません!次に探求したいのは:
- 運気分析:受診日を節気 / 五運六気パラメータに変換する
- 療効フィードバック:再診の改善度を定量化して分析に加える(標準化スコアの設計が必要)
- 知識グラフ:『症 - 証 - 薬 - 効』のインタラクティブネットワークを構築する
🌱 もしあなたも同様の探求をしているなら、ぜひ心得を交流しましょう!特に聞きたいのは:
- あなたはデータをどのように処理していますか?
- 巧妙な特徴エンジニアリングの方法はありますか?
- あなたはどのように知識グラフを構築していますか?