banner
akihaye

akihaye

Universe!
follow
github
steam
discord user
email

如何在AI的帮助下构建我的中医大脑:医案数据库分析探索之路

#Vol.写给自己的教程 #中医数据分析 #数据挖掘 #中医传承 #Obsidian 人工智能

嘿,当你拥有了一个医案数据库后,你会做什么呢?
不知不觉间,跟随导师抄方积累医案文字已近十万字符,当医案数据积累到一定规模,一个自然的想法便涌现了出来:是时候让这些宝贵的经验 “说话” 了!
在此,分享我梳理的中医处方数据分析框架与实践思路:

一、制定中医处方数据分析框架#

步骤中医数据问题应对策略工具 / 技术
1. 数据收集- 病案信息非结构化(自由文本)
- 舌影象记录标准不一
- 结构化录入:设计标准化记录病案信息、临床报告
- 影像标准化:统一舌象采集设备、方法储存规范
- 制作中医电子病案系统(TCM EMR)
- 标准化影像采集设备与流程
2. 数据清洗- 术语歧异:同症异名(如 "发热" 与 "身热")
- 单位混杂:克、支、袋等混用
- 信息缺失:证型、舌脉、症候记录不全
- 主观性强:证型判定依赖医师经验
- 处方复杂:复诊药物加减因素多样
- 中医术语标准化
- 证素提取:分解证型的基本要素
- 剂量单位统一用 “克”
- 基于辨证逻辑的缺失值填充 / 或留空值
- 明确区分首诊基础方,与复诊加减方
- WHO 国际标准中医术语 2022 - 邓铁涛主编《中医诊断学》
- 复刻朱文峰教授《中医辨证机》
3. 特征工程- 多维关联复杂:症侯↔证素↔证型↔方剂- 构建关联网络:症侯 - 证型网络、症侯 - 方剂网路
- 计算方剂相似度:如 Jaccard 指数
- 数据挖掘
- 复杂网络分析
4. 分析建模- 模型需可解释:符合中医辨证逻辑
- 小样本问题
- 证型分类模型(SVM + 中医规则引擎)
- 核心处方推荐
- 关联规则算法
5. 结果解读- 需符合中医理论体系
- 重视个体化差异
- 理论验证:将模型输出结果与中医理论和导师经验对照
- 真实案例回溯:在 EMR 中匹配相似案例进行自身对照验证
- 中医电子病案系统(TCM EMR)回溯
- 专家评议

当前局限与待探索方向

  • 处方加减与疗效关联: 复诊药物加减的复杂性与具体疗效的量化评估关联难度大,需要更深入的 “疗效 - 处方” 关联规则挖掘。

二、提取数据#

分析的第一步,是将积累的病案转化为结构化数据。我的做法是:

  1. 构建中医电子病案库 (TCM EMR): 我选择使用 Obsidian 管理医案,将每份病案存储为结构化的 .md 文件。便于后续的信息提取和链接。
  2. 制定关键字段提取标准: 这是最核心、影响结果质量的关键步骤!需要明确定义从病案文本中提取哪些信息。我设计的 CSV 表头包含:
    • 患者匿名化编号
    • 基线资料:性别、年龄
    • 诊断信息:主病、兼病
    • 辨证信息:证素、证候、舌象、脉象
    • 处方信息:处方组成、药物剂量 (统一为克)

例如:
example1

此数据仅作为示范,并非真实数据。


三、巧用 AI:加速中医处方的数据挖掘#

面对结构化的 CSV 数据,如何高效进行分析?
我的秘诀是通过 AI 协助制作 python 脚本,详细方法可参考我之前的博文:AI 溝通指南:如何正確向 AI 提問?

核心思路与过程:

  1. 首先,明确最终目标
  2. 数据探查:首先让 AI 分析 CSV 文件,理解数据结构、字段含义,提出建议与注意事项。
  3. 提出具体需求:清晰描述希望 AI 用 Python (或 R 等) 写出具体代码,获取 AI 生成的代码,在自己的环境跑一遍。
  4. 反馈与优化:运行结果不理想?检查错误,分析原因,修改 Prompt。
  5. 循环迭代: 重复 “修改 Prompt -> 生成新代码 -> 运行测试 -> 反馈” 的过程,直到代码输出完全符合你的分析预期。这个过程本身也是深化对数据和问题理解的过程。

部分代码示例:
image

如果觉得代码无趣,可以让 GPT 将其个性化~(猛男版 & 萌妹版)
image

Tips: 建议做相关研究时,设置可以调参数的控制面板,能更好地达到自己的需求,并且不用再每次去问 ai

输出结果示例:

image

image

image

通过 GPT 生成的代码输出结果令人满意,给自己理解导师用药规律已足够,若进一步用做科研项目则需更进一步优化。
事实上已有古今医案云平台开发了整个研究流程,能直接用在科研上,那么为什么还要自己再 “浪费时间” 闭门捣鼓这些呢?原因有二:
一是私有数据不好上传云平台
二是我大学没买...

四、未完待续#

这只是个开始!接下来我想探索:

  • 运气分析:将就诊日期转换为节气 / 五运六气参数
  • 疗效反馈:把复诊改善程度量化后加入分析(需设计标准化评分)
  • 知识图谱:构建「症 - 证 - 药 - 效」的可交互网络

🌱 如果你也在做类似探索,欢迎交流心得!特别想听听:

  • 你如何处理数据?
  • 有没有巧妙的特征工程方法?
  • 你如何构建知识图谱?
加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。