随着信息技术的快速发展,电子医疗越来越展示出独特的优势,同时,出现了很多医学电子文本数据和语音数据,隐含了大量医疗信息。比如电子病历中非结构化的自由文本,可能包含大量患者的个体、社会、环境等信息,而来源于病患、医师或其他相关人员的语音数据也可能包含关键信息。由于非结构化文本数据及语音数据不能直接被计算机解读,想从中获取更多的信息就需要用到自然语言处理(natural language processing,NLP)技术。NLP是计算机科学领域与人工智能领域的一个重要方向,主要研究能在人与计算机之间用自然语言进行有效通信的理论和方法,文本挖掘和语音识别技术是基本的核心技术。本章主要介绍医学文本数据和语音数据的基本概念和特征,介绍文本挖掘技术及语音处理技术的流程和具体步骤,希望读者能够初步掌握利用医学文本和语音数据获取有效信息的方法。