Machine Learning and Natural Language Processing Case Studies

社会的数字化带来了大量的新数据,这些数据也以新类型出现. From transactional data that capture events in the field, to electronic health records to geolocation from sensors, images, or text, 我们已经开发了方法和工具来理解这些丰富的信息. Machine learning (ML), with its ability to extract regular patterns from all types of data, 为我们的研究人员提供了新的可能性,以增强传统的研究技术.

In collaboration with subject matter experts and methodologists, 我们的数据科学家在各种任务中使用传统和尖端的深度学习模型开发自然语言处理(NLP)应用程序-从传统调查中采访者评论中的关键信息识别到电子健康记录中的临床记录分类.

我们将机器学习模型嵌入到数据收集项目中,以确定最具成本效益的策略,以获得调查受访者的合作或检测潜在的访谈伪造. Using these new methods, we have built new tools to extract insights from images, videos, or audio files to improve the efficiency of data collection, evaluation, and analysis.

Drug Abuse Warning Network (DAWN)

药物滥用和精神健康服务管理局(SAMHSA)的DAWN研究收集了美国50家医院的数据. 目标是(1)确定新的和正在出现的药物和使用模式, (2) be an early warning system for drug-related events, and (3) produce immediately available data. 我们面临的挑战是不断审查急诊科(ED)的记录,以确定与毒品和酒精有关的就诊的关键数据要素.

brain outline and data on screen

To ensure rigorous data quality and keep costs low, hg体育官网开发了ML模型来审查DAWN数据并将其发送给专家审查员,专家审查员必须决定药物是否导致或促成了患者的急诊科就诊. hg体育官网开发的模型分配了一个概率分数,表明急诊科访问是否可能在DAWN的范围内以及访问的可能类别. 这些模型定期进行再训练,以提高效率. 结果是,DAWN数据的质量非常高,而不依赖于对每个病例的人工审查.

National Diabetes Surveillance

这是CDC国家糖尿病监测战略的一部分, hg体育官网在一个大型卫生系统中对糖尿病患者进行了电话调查,并为调查样本获得了匹配的电子病历数据. By linking these 2 sources of data, hg体育官网能够验证基于调查和基于ehr的算法,以确定患者的糖尿病类型,而不是通过人工审查患者图表获得的“金标准”诊断. Using a supervised ML model, 我们能够开发一个条件推理树,将每个成年患者分类为1型, type 2, or other diabetes type with very high accuracy.

Medical Expenditure Panel Survey (MEPS)

During data collection, 现场采访者经常在开放的文本字段中向案例追加电子注释或“评论”,以请求对案例级数据进行更新. 这些注释可能包含可操作的信息,提醒数据技术人员注意可能影响数据质量的异常响应或情况. 主题或评论内容的趋势可能为不完美的问题设计提供有价值的见解, training gaps, or bias from an interviewer. 

与此同时,注释往往是多余的,或者没有包含足够的可操作的细节, and processing comments is time consuming.  可靠地评估这些评论和快速应用标准化数据编辑程序的能力是提高数据质量和提高效率的关键.

hg体育官网开发了一种新的ML技术应用,以协助评估这些评论. Using thousands of comments from MEPS, 我们构建了一些特征,这些特征被馈送到ML模型中,以预测每个评论的分组类别. 该模型达到了很高的精度,并被纳入一个生产工具进行编辑. 对该工具的定性评价也提供了令人鼓舞的结果. ML的这种应用提高了处理效率,同时保持了严格的数据质量标准.

How can we help?

我们欢迎来自求职者、合作者、潜在客户和合作伙伴的信息.

Get in Contact

Want to work with us?

You’ll be in great company.

Explore Careers
Back to Top