#Vol.写给自己的教程
#中医数据分析
#数据挖掘
#中医传承
#Obsidian
人工智能
嘿,当你拥有了一个医案数据库后,你会做什么呢?
不知不觉间,跟随导师抄方积累医案文字已近十万字符,当医案数据积累到一定规模,一个自然的想法便涌现了出来:是时候让这些宝贵的经验 “说话” 了!
在此,分享我梳理的中医处方数据分析框架与实践思路:
一、制定中医处方数据分析框架#
步骤 | 中医数据问题 | 应对策略 | 工具 / 技术 |
---|---|---|---|
1. 数据收集 | - 病案信息非结构化(自由文本) - 舌影象记录标准不一 | - 结构化录入:设计标准化记录病案信息、临床报告 - 影像标准化:统一舌象采集设备、方法储存规范 | - 制作中医电子病案系统(TCM EMR) - 标准化影像采集设备与流程 |
2. 数据清洗 | - 术语歧异:同症异名(如 "发热" 与 "身热") - 单位混杂:克、支、袋等混用 - 信息缺失:证型、舌脉、症候记录不全 - 主观性强:证型判定依赖医师经验 - 处方复杂:复诊药物加减因素多样 | - 中医术语标准化 - 证素提取:分解证型的基本要素 - 剂量单位统一用 “克” - 基于辨证逻辑的缺失值填充 / 或留空值 - 明确区分首诊基础方,与复诊加减方 | - WHO 国际标准中医术语 2022 - 邓铁涛主编《中医诊断学》 - 复刻朱文峰教授《中医辨证机》 |
3. 特征工程 | - 多维关联复杂:症侯↔证素↔证型↔方剂 | - 构建关联网络:症侯 - 证型网络、症侯 - 方剂网路 - 计算方剂相似度:如 Jaccard 指数 | - 数据挖掘 - 复杂网络分析 |
4. 分析建模 | - 模型需可解释:符合中医辨证逻辑 - 小样本问题 | - 证型分类模型(SVM + 中医规则引擎) - 核心处方推荐 | - 关联规则算法 |
5. 结果解读 | - 需符合中医理论体系 - 重视个体化差异 | - 理论验证:将模型输出结果与中医理论和导师经验对照 - 真实案例回溯:在 EMR 中匹配相似案例进行自身对照验证 | - 中医电子病案系统(TCM EMR)回溯 - 专家评议 |
当前局限与待探索方向
- 处方加减与疗效关联: 复诊药物加减的复杂性与具体疗效的量化评估关联难度大,需要更深入的 “疗效 - 处方” 关联规则挖掘。
二、提取数据#
分析的第一步,是将积累的病案转化为结构化数据。我的做法是:
- 构建中医电子病案库 (TCM EMR): 我选择使用 Obsidian 管理医案,将每份病案存储为结构化的 .md 文件。便于后续的信息提取和链接。
- 制定关键字段提取标准: 这是最核心、影响结果质量的关键步骤!需要明确定义从病案文本中提取哪些信息。我设计的 CSV 表头包含:
- 患者匿名化编号
- 基线资料:性别、年龄
- 诊断信息:主病、兼病
- 辨证信息:证素、证候、舌象、脉象
- 处方信息:处方组成、药物剂量 (统一为克)
例如:
此数据仅作为示范,并非真实数据。
三、巧用 AI:加速中医处方的数据挖掘#
面对结构化的 CSV 数据,如何高效进行分析?
我的秘诀是通过 AI 协助制作 python 脚本,详细方法可参考我之前的博文:AI 溝通指南:如何正確向 AI 提問?。
核心思路与过程:
- 首先,明确最终目标!
- 数据探查:首先让 AI 分析 CSV 文件,理解数据结构、字段含义,提出建议与注意事项。
- 提出具体需求:清晰描述希望 AI 用 Python (或 R 等) 写出具体代码,获取 AI 生成的代码,在自己的环境跑一遍。
- 反馈与优化:运行结果不理想?检查错误,分析原因,修改 Prompt。
- 循环迭代: 重复 “修改 Prompt -> 生成新代码 -> 运行测试 -> 反馈” 的过程,直到代码输出完全符合你的分析预期。这个过程本身也是深化对数据和问题理解的过程。
部分代码示例:
如果觉得代码无趣,可以让 GPT 将其个性化~(猛男版 & 萌妹版)
Tips: 建议做相关研究时,设置可以调参数的控制面板,能更好地达到自己的需求,并且不用再每次去问 ai
输出结果示例:
通过 GPT 生成的代码输出结果令人满意,给自己理解导师用药规律已足够,若进一步用做科研项目则需更进一步优化。
事实上已有古今医案云平台开发了整个研究流程,能直接用在科研上,那么为什么还要自己再 “浪费时间” 闭门捣鼓这些呢?原因有二:
一是私有数据不好上传云平台
二是我大学没买...
四、未完待续#
这只是个开始!接下来我想探索:
- 运气分析:将就诊日期转换为节气 / 五运六气参数
- 疗效反馈:把复诊改善程度量化后加入分析(需设计标准化评分)
- 知识图谱:构建「症 - 证 - 药 - 效」的可交互网络
🌱 如果你也在做类似探索,欢迎交流心得!特别想听听:
- 你如何处理数据?
- 有没有巧妙的特征工程方法?
- 你如何构建知识图谱?