Data Management Standards in Clinical Research
Abstract
Use of standards has become increasingly widespread within clinical data management. Standards can reduce setup costs for a study, reduce conversion errors, and most importantly speed a medical treatment’s path to market. This chapter discusses the importance of standards within clinical research, the history of standards used in health care delivery, some of the standards already commonly used, and future directions for standards within clinical research. The chapter also provides readers with an overview of standards relevant to clinical data management. Links are provided for more information about each standard, including downloads for most of the standards.
Introduction
Merriam-Webster defines the word “standard” as “something established by authority, custom, or general consent as a model or example.” Within the context of clinical data management (CDM), standards are used to optimize the collection, transport and storage of data, and simplify the submission of data to regulatory bodies.
The advent of modern information technology has enabled widespread use of comprehensive standards. Today, standards encompass almost every part of data collection and handling. Although there are few regulatory mandates for using any particular standard, using standards in all areas of data collection and handling can greatly increase an organization’s efficiency by shortening study setup time and incorporating effective and validated standards, thereby reducing overall time and expenses while maintaining consistency for data managers and those charged with collecting data at clinical sites. Most of the established standards currently in use are readily available and designed to be independent of any vendor or platform.
Scope
This chapter provides an overview of established standards commonly used within clinical studies. In addition to giving an overview of each standard and its purpose and scope, the chapter directs readers to where more information can be found about these standards. In most cases, links to the download of the standards discussed are included. Additionally, information is provided about emerging standards within clinical data management. For specific information about implementation of standards listed in this chapter, please follow the provided links to the standards development organizations.
Minimum Standards
Use the most current version of any standard, if appropriate.
Use standards required by regulatory agencies in the country where the study is conducted.
Do not modify published standards.
Best Practices
Use accepted standards whenever possible, and strive for interoperability.
Use all standards recommended by regulatory agencies in the locale of the study.
Review implementation guidelines for any standard having associated guidelines documents.
Purpose and Benefits of Standardization
The use of standards within clinical research involves using standardized names, codes, structures, and formats for data across different locations, studies, and organizations. Using the same formats, names, and codes for different studies can greatly decrease the time and money needed to set up a study, particularly in cases where similar studies have been conducted in the past. Standards provide benefits beyond study setup and can also help streamline processes for study conduct, data transfers, analyses, and regulatory submissions. Ultimately, standards facilitate bringing safe and effective treatments to patients in a more timely and cost-effective fashion.
Although multiple standards exist for similar concepts, the ultimate goal is for researchers everywhere to use the same standards and naming conventions for their studies. This goal has not yet been realized, but the clinical research industry is trending in that direction. The US Food and Drug Administration (FDA) has strongly encouraged the use of the Study Data Tabulation Model (SDTM) for data submissions, and although this standard’s use has not been mandated yet, it may become mandatory in the future. Data submissions in a standardized format allow the FDA and other regulatory bodies to expend fewer resources on their review of study data.
Another enormous benefit to standardization is that data can be more easily and accurately compared and combined across different studies. Although the Internet was originally created to promote sharing of scientific research data, the actual sharing of data has been somewhat limited, in large part due to researchers storing data in different file formats. Standards could potentially increase data sharing, as well as the compatibility of shared data. This increased data sharing could provide valuable benefits to science and humanity.
History of the Development of Standards Organizations
Before the advent of global communication tools such as the telephone and Internet, standards were typically limited to their locale of origin. As technological advances have sped globalization, organizations have emerged to promote standards for many industries. The following organizations have played integral roles in promoting the standardization of health care data used in clinical research.
International Organization for Standardization (ISO)
ISO was created in 1947 after delegates from 25 countries met to discuss the creation of an international organization to create and maintain international standards for industry. From starting with 67 proposed ISO technical committees in 1947, ISO has developed over 17,000 standards encompassing the full spectrum of industries across the globe. In addition to standards formulated for specific industries, ISO has created generic standards for product quality and management systems that are applicable to any endeavor.
In addition to general standards applicable to quality and management systems, there are multiple ISO standards specific to various processes involved with clinical research. More information about all ISO standards can be found at http://www.iso.org/iso/home.htm.
International Conference on Harmonisation (ICH)
The International Conference on Harmonisation of Technical Requirements for Registration of Pharmaceuticals for Human Use (ICH) began in 1990 as an effort to standardize pharmaceutical regulatory requirements in Europe, Japan, and the US. The ultimate objectives of ICH are to 1) maintain safety and quality while increasing efficiencies in the use of human, animal, and material resources, and 2) help eliminate unnecessary delays in bringing new medical treatments to market. To achieve these goals, numerous guidelines have been released by ICH since its inception. Many of these have had a strong impact on standards development, particularly in regard to regulatory submissions. More information about ICH can be found at http://www.ich.org.
Health Level 7 (HL7)
Founded in 1987, HL7 is a nonprofit Standards Development Organization (SDO) initially created to produce standards for hospital information systems. The organization’s mission is to provide “...standards for interoperability that can improve care delivery, optimize workflow, reduce ambiguity and enhance knowledge transfer among all of our stakeholders, including healthcare providers, government agencies, the vendor community, fellow SDOs and patients.”1
The following HL7 standards relate to clinical data management, and are discussed later in this chapter.
- Reference Information Model (RIM)
- Clinical Context Object Workgroup (CCOW)
- Clinical Document Architecture (CDA)
More information about HL7 standards can be found at http://www.hl7.org.
Clinical Data Interchange Standards Consortium (CDISC)
Unlike ISO and HL7, CDISC was formed solely to create standards for clinical research data. Their mission statement reads, “CDISC is a global, open, multidisciplinary, non-profit organization that has established standards to support the acquisition, exchange, submission and archive of clinical research data and metadata. The CDISC mission is to develop and support global, platform-independent data standards that enable information system interoperability to improve medical research and related areas of healthcare. CDISC standards are vendor-neutral, platform-independent and freely available via the CDISC website.”2
CDISC began in 1997 with a meeting of 25 people interested in standards creation for use within clinical research. Since that time, CDISC has grown exponentially and today has the support of over 200 member organizations from around the world. In addition to consulting with recognized leaders in the clinical research industry, CDISC works closely with other SDOs such as ISO and HL7 to improve interoperability between the various standards. As CDISC has grown in membership and acceptance, their scope has expanded as well. The following standards have been developed by CDISC and are currently published and available for use.
- Clinical Data Acquisition Standards Harmonization (CDASH)
- Laboratory Model (LAB)
- Operational Data Model (ODM)
- Study Data Tabulation Model (SDTM)
- Analysis Dataset Model (ADaM)
For more information about CDISC, visit http://www.cdisc.org/.
Standards for Clinical Research
The standards discussed in the remainder of this chapter are primarily those relating directly to CDM functions within clinical studies. The majority of the standards discussed come from CDISC, but CDM personnel should be aware of any new standards gaining traction within the industry, regardless of the origin of the standard. Where possible, all standards employed by an organization should be sufficiently interoperable to allow for a comprehensive standard practice to effectively manage clinical data.
Clinical Data Acquisition Standards Harmonization (CDASH)
The Clinical Data Acquisition Standards Harmonization (CDASH) standard released October 2008 by CDISC, is intended to streamline and standardize data collection at clinical investigative sites. The development of CDASH was a global effort, with feedback provided from all three of the ICH regions (US, Europe, and Japan). The published CDASH standard consists of a basic set of data collection fields (variable name, definition, metadata) that apply to the majority of case report forms (CRFs), regardless of therapeutic area or phase of development. Sponsors are expected to make additions for therapeutic area- specific data collection fields, as well as other data collection fields needed for regulatory requirements. The CDASH standard also includes best practice guidelines, regulatory references, and information about the development of the CDASH standard.
In order to ensure harmonization between standards, recommendations are provided for mapping CDASH data collection fields (or variables) into the Study Data Tabulation Model (SDTM) submission structure.
CDASH Domains
The data collection fields, specified in CDASH, like SDTM, are divided into the following sixteen domains along with their associated codes.
- Adverse Events (AE)
- Comments (CO)
- Concomitant Medications (CM)
- Demography (DM)
- Disposition (DS)
- Drug Accountability (DA)
- ECG Test Results (EG)
- Exposure (EX)
- Inclusion/Exclusion (IE)
- Laboratory Test Results (LB)
- Medical History (MH)
- Physical Examination (PE)
- Protocol Deviations (DV)
- Subject Characteristics (SC)
- Substance Use (SU)
- Vital Signs (VS)
An implementation guide is under development to accompany the standard, and is targeted for completion in the third quarter of 2009. Please see http://www.cdisc.org/standards/index.html for more information about the CDASH standard, including a link to download the most recent version of the standard.
Laboratory Model (LAB)
The CDISC LAB standard was initially released in 2002, and was designed to be a standard for the transfer of laboratory data. Other standards already existed for laboratory data, but those standards had limited applicability to clinical research. Use of the LAB standard is estimated to save 30% to 50% of laboratory costs, which has an enormous impact on overall costs considering that 60% to 80% of clinical data is estimated to come from laboratories.3
Data Field Levels
Data for this standard are categorized into the following 12 levels and associated data fields.
Good transmission practice—version of LAB model used, local (and universal) date and time data file was created, identification code and name of organization that is the source of the data transmission
Study—identification code and name of the study and whether the data transmission is incremental or cumulative
Site—identification code of the site
Investigator—identification code and name of the investigator
Subject—identification code of the subject before and after randomization (and possibly an extra subject identifier code), subject initials, subject gender (and possibly gender code), subject date of birth, subject race (and possibly race code). Note: When collecting subject identification data, follow local regulations relating to subject privacy
Visit—name of the visit, identification code or number of the visit, whether the visit was scheduled or unscheduled, and whether the visit was physician ordered, a retest, or early termination of the subject’s involvement with the study
Accession—name and identification code of the laboratory delivering the data, identification code of the kit used for the subject visit, local (and universal) date and time of the last modification made to the record
Record extension type—specifies if any extension to the base LAB model was used, as described below
Base specimen—identification code of an individual kit item used at the visit, actual and planned local date and time of specimen collection from the site, time discrepancy between planned and actual specimen collection, local (and universal) date and time of specimen receipt at laboratory, specimen condition, laboratory and investigator comments, specimen identification code, specimen name (e.g., blood, urine), subject age at collection, units of subject age at collection, fasting status of subject at collection
Base battery—name and identification code of the battery, panel or group to which the test belongs
Base test—name and identification code of laboratory, name and identification code of the test as defined by site, name and identification code of the test as defined by laboratory, LOINC (Logical Observation Identifiers Names and Codes) code and code list identifier, test status
(done, not performed or cancelled), test comments, local (and universal) date and time of testing, test type (study test, non-study test, unscheduled study test)
- Base results—this level contains 32 fields providing all test result names, codes, reference ranges, units, results, statuses, toxicity grades, flags, reporting time, and record type
Extensions
In addition to the LAB base model, the standard has several extensions designed for specialized laboratory data. The extensions currently published or in development include:
- Microbiology
- Pharmacogenomics
- Electrocardiogram (ECG) interpretation
- Specimen handling
- Edit/data query capabilities
Please see http://www.cdisc.org/standards/index.html for more information about the LAB standard, including a link to download the most recent version of the standard.
Operational Data Model (ODM)
The first ODM standard was released by CDISC in 2002 to address the structure of data rather than naming conventions. The ODM standard is designed to “...support the end-to-end data flow within clinical trials, from the operational database through analysis to regulatory submission. The role of the ODM is to facilitate the movement of clinical data collected from multiple acquisition sources to an operational database, but it also has application in the subsequent exchange and archiving of such data.”4 In addition to providing a standard format for transporting data, the flexibility of the ODM creates the possibility of automating creation of electronic CRFs used in an electronic data capture (EDC) system.5
The ODM uses the extensible markup language (XML) to create a file with the four following primary elements.
Study information such as study name and metadata
Administrative information such as users, sites, and authorizations for the study
Reference data (e.g., normal ranges)
Clinical data from the study 4
Supported Data Formats
The ODM was designed to be vendor-neutral and platform-independent, and supports numerous data formats including integers, decimals, text strings, Boolean terms, hex binary, base 64 binary, dates and times, partial dates and times, intervals, durations, and more.
Please see http://www.cdisc.org/standards/index.html for more information about the ODM standard, including a link to download the most recent version of the standard.
Study Data Tabulation Model (SDTM)
The first implementation-ready version of the SDTM was released by CDISC in 2004, and was developed to provide a standard for the organization, structure, and format of tabulation data to be submitted to regulatory agencies. Tabulation datasets contain collected data from a clinical study, and should not be handled in the same manner as the other three types of data submitted to regulatory agencies (e.g., analysis datasets, patient profiles, and listings). The FDA has strongly recommended using SDTM for data tabulation submissions, but this has not been mandated.
Variable Classification Scheme
According to the SDTM, each variable, which normally corresponds to a column in a dataset, can be classified according to its Role. A Role determines the type of information conveyed by the variable in describing an observation. Variables can be classified into five major roles:
Identifier variables—identify the study, the subject (individual human or animal) involved in the study, the domain, and the sequence number of the record.
Topic variables—specify the focus of the observation (such as the name of a lab test), and vary according to the type of observation.
Timing variables—describe the timing of an observation (such as start date and end date).
Qualifier variables*—include additional illustrative text, or numeric values that describe the results or additional traits of the observation (such as units or descriptive adjectives). The list of Qualifier variables included with a domain will vary considerably depending on the type of observation and the specific domain.
Rule variables—express an algorithm or executable method to define start, end, or looping conditions in the Trial Design model.6
*The SDTM further divides qualifier variables into five subclasses of grouping qualifiers, result qualifiers, synonym qualifiers, record qualifiers, and variable qualifiers. See the SDTM implementation guide for detailed descriptions of these qualifier variables.
Standard Domains
The SDTM contains the following domains and respective codes, which fall into six general categories.
Special Purpose Domains
Demographics (DM)
Comments (CO)
Subject Elements (SE)
Subject Visits (SV)
Interventions
Concomitant Medications (CM)
Exposure (EX)
Substance Use (SU)
Events
Adverse Events (AE)
Disposition (DS)
Medical History (MH)
Protocol Deviations (DV)
Clinical Events (CE)
- Findings
- ECG Test Results (EG)
- Inclusion/Exclusion Criterion Not Met (IE)
- Laboratory Test Results (LB)
- Physical Examinations (PE)
- Questionnaires (QS)
- Subject Characteristics (SC)
- Vital Signs (VS)
- Drug Accountability (DA)
- Microbiology Specimen (MB)
- Microbiology Susceptibility Test (MS)
- Pharmacokinetic Concentrations (PC)
- Pharmacokinetic Parameters (PP)
- Findings About (FA)
- Trial Design Domains
- Trial Arms (TA)
- Trial Elements (TE)
- Trial Visits (TV)
- Trial Inclusion/Exclusion Criteria (TI)
- Trial Summary (TS)
- Special Purpose Relationship Datasets
- Supplemental Qualifiers (SUPPQUAL)
- Related Records (RELREC)
SDTM Implementation Guide (SDTMIG)
CDISC has also released an implementation guide to augment the SDTM standard. This implementation guide is intended to guide the format, organization, and structure of tabulation datasets. Any organization using SDTM should also utilize this implementation guide.
See http://www.cdisc.org/standards/index.html for more information about the SDTM standard and implementation guide, as well as a link to download the most recent version of the standard and implementation guide.
Analysis Dataset Model (ADaM)
ADaM was initially released by CDISC in 2004 as a standard model to create analysis datasets for submission to regulatory bodies, and can be thought of as an extension to the SDTM standard. The ADaM describes the proposed content, structure, and metadata of analysis datasets, including analysis dataset metadata, analysis variable metadata, and analysis results metadata. The standard includes examples of datasets created using the ADaM.
Four Key Principles for Analysis Datasets
The ADaM standard is based on the following four general principles.
Analysis datasets should facilitate clear and unambiguous communication
Analysis datasets should be useable by currently available software applications
Analysis datasets should be linked to machine-readable metadata
Analysis datasets should be analysis-ready
ADaM Implementation Guide (ADaMIG)
As with the SDTM standard, CDISC has released a draft implementation guide to augment the ADaM standard. This implementation guide is intended to guide the format, organization, and structure of analysis datasets. Any organization using ADaM should also utilize this implantation guide.
See http://www.cdisc.org/standards/index.html for more information about the ADaM standard and implementation guide, as well as a link to download the most recent version of the standard and implementation guide.
Electronic Common Technical Document (eCTD)
The eCTD standard was developed by the ICH to provide a standardized format for submitting files from pharmaceutical studies to regulatory bodies. Unlike some standards used in clinical research, eCTD focuses more on data and file structures than naming conventions. The eCTD relies heavily on the Document Type Definition (DTD) specification of the XML markup language. These DTDs are used to create a detailed hierarchical folder structure for each eCTD.
In addition to the structure of an eCTD, the standard is designed to support high-level functional requirements. Some of these functional requirements include the ability to copy and paste, view and print documents, have annotated documentation, and export to databases. An eCTD should also allow users to search both within and across applications and allow navigation throughout the eCTD and any subsequent amendments or variations.7
eCTD Modules
Every eCTD consists of five modules, four of which are common to all countries and regions. The first of the following five modules may vary between different ICH regions.
Regional Administrative Information and Prescribing Information— Module One contains administrative information and forms that may vary between countries and regions.
Common Technical Document Summaries—Module Two contains summaries of the information contained in Modules Three, Four, and Five.
Quality—Module Three provides detailed information about the treatment being studied and details of the product’s development and manufacturing processes.
Nonclinical Study Reports—Module Four provides detailed pharmacological, pharmacokinetic and toxicological information.
Clinical Study Reports—Module Five contains the results of the study, including data related to background and development rationale, efficacy, safety, benefits and risks.
The eCTD has become the recommended format for regulatory submissions in the European Union, US, Canada and Japan, and may become mandatory in time. Many companies sell eCTD submission solutions, but more free information about eCTD can be found at http://www.fda.gov/cder/Regulatory/ersr/ectd.htm.
HL7 Standards
Although HL7 does not design standards specifically for use within clinical research, the increased use of electronic health records within hospitals gives CDM personnel an incentive to become familiar with the following HL7 standards
Reference Information Model (RIM)—This standard provides structure, naming and coding conventions to be used among disparate organizations and platforms.
Clinical Context Object Workgroup (CCOW)—This is a vendor- independent standard designed to enable different computer applications to communicate with each other effectively.
Clinical Document Architecture (CDA)—This standard is based on the RIM, and uses the XML markup language to specify the coding, structure, and semantics of clinical documents to be exchanged.
See http://www.hl7.org/ for more information about HL7 standards, including links to downloads of the most recent versions of the standards.
Future Directions
With the numerous standards that currently exist, the ultimate goal is to make these standards interoperable to the degree that any health-related data can be easily shared between different researchers and institutions. The US National Cancer Institute (NCI), FDA, HL7, and CDISC are all collaborating to create the Biomedical Research Integrated Domain Group (BRIDG) model. This standard is being designed to integrate HL7 and CDISC standards, which will reduce potential errors and streamline the flow of data from health care providers to clinical researchers.
CDISC is also creating a standard called the Protocol Representation Model (PRM), which identifies, defines and describes over 300 common protocol elements and maps those elements to elements within the BRIDG model. The PRM model is intended as a standard to be used in designing a study, selecting investigative sites, developing data collection tools, and describing an analysis plan and study procedures.
The FDA is piloting a program for a standard known as the Summary Technical Document (STED), which is a harmonized format for medical device regulatory submissions that is already accepted by multiple regulatory bodies worldwide. For information about the pilot program, see http://www.fda.gov/MedicalDevices/DeviceRegulationandGuidance/HowtoM arketYourDevice/PremarketSubmissions/SummaryTechnicalDocumentSTED PilotProgram/default.htm. The FDA has already released eSubmitter, a standardized tool that is part of an electronic submissions program originated in the Center for Devices and Radiological Health (CDRH). The eSubmitter program evolved from two very successful pilot programs (eLaser and Turbo 510(k)) at CDRH. FDA eSubmitter is an improved and expanded package for a variety of submission types and is now available for voluntary use by sponsors and manufacturers in certain device and radiological health and blood regulated industries. Like other attempts to standardize, the goal is to improve efficiencies in the regulatory submission and review process. See http://www.fda.gov/ForIndustry/FDAeSubmitter/default.htm for more information.
Another interesting and evolving initiative is the National Cancer Institute’s cancer Biomedical Informatics Grid (caBIG®), which is intended to simplify collaboration by leveraging shared expertise and large multidisciplinary data collections to speed many of the processes of cancer research. The four key principles of caBIG®—open access, open development, open source, and federation—have guided the development of interoperable software tools, data standards, and a computing infrastructure conceived to advance basic and clinical research. Originally designed solely for cancer research, the caBIG® initiative may expand outside cancer research to serve as a model for improving collaboration, data sharing, and patient outcomes in other therapeutic areas in the future. For more information about caBIG®, see https://cabig.nci.nih.gov.
Standards across medical research are contributing to more efficient research activities. This success has spawned a mounting interest in standards development and resulted in an increasing number of new and revised standards. Staying abreast of standards that affect CDM is a challenge. One effective strategy is to visit the Web sites of organizations that have been involved in standards development to keep informed of their progress.
Recommended Standard Operating Procedures
- CRF Design
- Database Design
- Medical Coding
- Data Transfers
- Regulatory Submissions
Lý thuyết
Việc sử dụng các tiêu chuẩn ngày càng trở nên phổ biến trong quản lý dữ liệu lâm sàng. Tiêu chuẩn có thể làm giảm chi phí thiết lập cho một nghiên cứu, giảm các lỗi chuyển đổi và quan trọng nhất là tốc độ cách điều trị của thuốc ra thị trường. Chương này bàn về tầm quan trọng của các tiêu chuẩn trong nghiên cứu lâm sàng, lịch sử các tiêu chuẩn được sử dụng trong cung cấp chăm sóc sức khoẻ, một số tiêu chuẩn đã được sử dụng rộng rãi, và hướng tương lai cho các tiêu chuẩn trong nghiên cứu lâm sàng. Chương cũng cung cấp cho độc giả cái nhìn tổng quan về các tiêu chuẩn liên quan đến quản lý dữ liệu lâm sàng. Các link được cung cấp để biết thêm thông tin về mỗi tiêu chuẩn, bao gồm các tải về cho hầu hết các tiêu chuẩn.
Giới thiệu
Trong bối cảnh quản lý dữ liệu lâm sàng (CDM), các tiêu chuẩn được sử dụng để tối ưu hóa thu thập, vận chuyển và lưu trữ dữ liệu, và đơn giản hóa việc nộp dữ liệu cho các cơ quan quản lý.
Mục đích và lợi ích của tiêu chuẩn hóa
Việc sử dụng các tiêu chuẩn trong nghiên cứu lâm sàng bao gồm việc sử dụng các chuẩn hóa về Tên, mã, cấu trúc và định dạng cho dữ liệu ở các vị trí khác nhau,các nghiên cứu, và các tổ chức. Sử dụng cùng định dạng, tên và mã cho các nghiên cứu khác nhau có thể giảm đáng kể thời gian và tiền bạc cần thiết để nghiên cứu, đặc biệt trong trường hợp các nghiên cứu tương tự đã được tiến hành trong quá khứ. Các tiêu chuẩn cung cấp các lợi ích ngoài việc thiết lập nghiên cứu và cũng có thể giúp sắp xếp các tiến trình nghiên cứu, truyền dữ liệu, phân tích, và đệ trình quy định. Cuối cùng, các tiêu chuẩn tạo thuận lợi cho việc đưa điều trị hiệu quả cho bệnh nhân một cách kịp thời và hiệu quả về chi phí.
Mặc dù có nhiều tiêu chuẩn tồn tại cho các khái niệm tương tự nhau,nhưng mục tiêu cuối cùng là dành cho các nhà nghiên cứu ở khắp nơi sử dụng các tiêu chuẩn và quy ước đặt tên giống nhau cho nghiên cứu của họ. Mục tiêu này vẫn chưa được nhận ra, nhưng nghiên cứu lâm sàng ngành công nghiệp đang có xu hướng theo hướng đó. Cơ quan Quản lý Thực phẩm và Dược phẩm Hoa Kỳ(FDA) đã khuyến khích sử dụng mô hình bảng dữ liệu nghiên cứu(SDTM) để gửi dữ liệu và mặc dù việc sử dụng tiêu chuẩn này chưa được cho phép, nó có thể trở thành bắt buộc trong tương lai. Dữ liệu đệ trình trong định dạng chuẩn cho phép FDA và các cơ quan quản lý khác sử dụng ít nguồn lực hơn về việc xem xét dữ liệu nghiên cứu của họ.
Một lợi ích to lớn khác của tiêu chuẩn hóa là dữ liệu có thể dễ dàng hơn và chính xác hơn trong việc so sánh và kết hợp giữa các nghiên cứu khác nhau. Mặc dù Internet ban đầu được tạo ra để thúc đẩy chia sẻ dữ liệu nghiên cứu khoa học,nhưng việc chia sẻ dữ liệu thực tế đã phần nào bị hạn chế, phần lớn là do các nhà nghiên cứu lưu trữ dữ liệu ở các định dạng file khác nhau. Chuẩn hóa có thể có tiềm năng tăng cường chia sẻ dữ liệu, cũng như tính tương thích của dữ liệu được chia sẻ. Điều này tăng cường chia sẻ dữ liệu có thể cung cấp những lợi ích có ích cho khoa học và nhân loại.
Lịch sử phát triển các tổ chức tiêu chuẩn
International Organization for Standardization (ISO) một tổ chức quốc tế để tạo ra và duy trì các chuẩn quốc tế cho ngành công nghiệp (was created 1947)
International Conference on Harmonisation (ICH)
Hội nghị quốc tế về hài hoà sử dụng dược phẩm trên con người bắt đầu vào năm 1990 như là một nỗ lực để chuẩn hóa các yêu cầu về quy định dược phẩm ở Châu Âu, Nhật Bản,Và Mỹ. Mục tiêu cuối cùng của ICH là:
1) duy trì sự an toàn và chất lượng trong khi vẫn tăng hiệu quả trong việc sử dụng con người, động vật và nguồn tài nguyên,
và 2) giúp loại bỏ sự chậm trễ không cần thiết trong việc mang lại cách điều trị mới cho thị trường. Để đạt được những mục đích này, nhiều hướng dẫn đã được ICH phát hành. Nhiều trong số này đã có một tác động mạnh mẽ về phát triển các tiêu chuẩn, đặc biệt đối với các đệ trình quy định.Thông tin thêm về ICH có thể được tìm thấy tại http://www.ich.org
Health Level 7 (HL7)
Được thành lập vào năm 1987, HL7 là một tổ chức phát triển tiêu chuẩn phi lợi nhuận(SDO) ban đầu được tạo ra để quy định các tiêu chuẩn cho các hệ thống thông tin bệnh viện.Sứ mệnh của tổ chức là cung cấp "... các tiêu chuẩn về khả năng tương tác có thể cải thiện việc phân phối chăm sóc, tối ưu hóa luồng công việc, giảm sự mơ hồ và tăng cường chuyển giao tri thức giữa tất cả các bên liên quan, bao gồm người cung cấp chăm sóc sức khoẻ , các cơ quan chính phủ, cộng đồng nhà cung cấp, các SDO đồng nghiệp và Bệnh nhân.
Các tiêu chuẩn HL7 sau đây liên quan đến quản lý dữ liệu lâm sàng vàThảo luận sau trong chương này.:
- Mô hình Thông tin Tham khảo (RIM)
- Nhóm đối tượng lâm sàng (CCOW)
- Kiến trúc tài liệu lâm sàng (CDA)
Clinical Data Interchange Standards Consortium (CDISC)
Không giống như ISO và HL7, CDISC chỉ được thành lập để tạo ra các tiêu chuẩn cho dữ liệu nghiên cứu lâm sàng. Tuyên bố sứ mệnh của họ là "CDISC là một tổ chức toàn cầu,mở, đa ngành, tổ chức phi lợi nhuận để thiết lập các tiêu chuẩn
để hỗ trợ mua, trao đổi, nộp và lưu trữ các dữ liệu nghiên cứu lâm sàng và siêu dữ liệu. Nhiệm vụ của CDISC là phát triển và hỗ trợ toàn cầu, các tiêu chuẩn dữ liệu độc lập nền tảng cho phép hệ thống thông tin tương tác để cải thiện nghiên cứu y khoa và các lĩnh vực y tế liên quan.Các tiêu chuẩn của CDISC là nhà cung cấp trung lập, độc lập với nền tảng và tự do và có sẵn thông qua trang web của CDISC. "
CDISC bắt đầu vào năm 1997 với một cuộc họp của 25 người quan tâm đến các tiêu chuẩn được tạo ra để sử dụng trong nghiên cứu lâm sàng. Kể từ đó, CDISC đã phát triển theo cấp số nhân và ngày nay có sự hỗ trợ của hơn 200 tổ chức thành viên vong quanh thê giơi. Ngoài việc tư vấn với các nhà lãnh đạo được công nhận trong Công nghiệp nghiên cứu lâm sàng, CDISC hợp tác chặt chẽ với các SDO khác như ISO và HL7 để cải thiện khả năng tương tác giữa các tiêu chuẩn khác nhau. Do CDISC đã phát triển thành viên và chấp nhận nên phạm vi của họ đã mở rộng tốt. Các tiêu chuẩn sau đã được CDISC xây dựng và hiện đang được xuất bản và có sẵn để sử dụng.
- Phù hợp tiêu chuẩn thu nhận dữ liệu lâm sàng (CDASH)
- Mô hình phòng thí nghiệm (LAB)
- Mô hình dữ liệu hoạt động (ODM)
- Nghiên cứu mô hình dữ liệu (SDTM)
- Mô hình bộ dữ liệu phân tích (ADaM)
Standards for Clinical Research
Các tiêu chuẩn thảo luận trong phần còn lại của chương này chủ yếu là nhữngLiên quan trực tiếp tới các chức năng CDM trong các nghiên cứu lâm sàng. Phần lớn các tiêu chuẩn thảo luận đến từ CDISC, nhưng nhân viên CDM phải được nhận thức bất kỳ tiêu chuẩn mới nào trong ngành, bất kể nguồn gốc của tiêu chuẩn. Khi có thể, tất cả các tiêu chuẩn được tổ chức cần phải tương hợp đầy đủ để có thể thực hành chuẩn để quản lý dữ liệu lâm sàng hiệu quả.
Clinical Data Acquisition Standards Harmonization (CDASH) -tiêu chuẩn hài hòa thu nhận dữ liệu lâm sàng
Tiêu chuẩn hài hòa thu nhận dữ liệu lâm sàng được phát hành tháng 6 năm 2008 bởi CDISC, nhằm mục đích sắp xếp và chuẩn hóa việc thu thập dữ liệu tại các địa điểm điều tra lâm sàng. Sự phát triển của CDASH là một nỗ lực toàn cầu, với phản hồi được cung cấp từ cả ba khu vực ICH (Hoa Kỳ,Châu Âu, và Nhật Bản). Chuẩn CDASH đã được xuất bản bao gồm một bộ cơ bản của các trường thu thập dữ liệu (tên biến, định nghĩa, siêu dữ liệu) áp dụng cho phần lớn các mẫu báo cáo ca bệnh (CRFs),với bất kể vùng điều trị hoặc giai đoạn điều trị giai đoạn phát triển nào. Các nhà tài trợ dự kiến sẽ bổ sung cho lĩnh vực thu thập dữ liệu các lĩnh vực điều trị, cũng như các lĩnh vực thu thập dữ liệu khác cần cho yêu cầu quy định. Tiêu chuẩn CDASH cũng bao gồm các phương pháp hay nhất hướng dẫn, tài liệu tham khảo về quy định, và thông tin về sự phát triển của tiêu chuẩn CDASH.
Để đảm bảo sự hài hòa giữa các tiêu chuẩn, khuyến nghị là được cung cấp để lập bản đồ các lĩnh vực thu thập dữ liệu CDASH (hoặc các biến) vào
Cơ cấu trình bày dữ liệu mô hình dữ liệu nghiên cứu (SDTM)
CDASH Domains:
CDASH đc chia thành 16 lĩnh vực:
- Adverse Events (AE)
- Comments (CO)
- Concomitant Medications (CM)
- Demography (DM)
- Disposition (DS)
- Drug Accountability (DA)
- ECG Test Results (EG)
- Exposure (EX) Inclusion/Exclusion (IE)
- Laboratory Test Results (LB)
- Medical History (MH)
- Physical Examination (PE)
- Protocol Deviations (DV)
- Subject Characteristics (SC)
- Substance Use (SU)
- Vital Signs (VS)
Laboratory Model (LAB)
Tiêu chuẩn LAB của CDISC ban đầu được phát hành vào năm 2002, và được thiết kế để là một tiêu chuẩn cho việc truyền dữ liệu trong phòng thí nghiệm. Các tiêu chuẩn khác đã có tồn tại đối với dữ liệu phòng thí nghiệm, nhưng các tiêu chuẩn đó có tính áp dụng hạn chế nghiên cứu lâm sàng. Việc sử dụng tiêu chuẩn LAB được ước tính tiết kiệm từ 30% đến 50%Chi phí phòng thí nghiệm, có tác động rất lớn đến chi phí tổng thể xem xét rằng từ 60% đến 80% số liệu lâm sàng ước tính đến từ các phòng thí nghiệm.
Data Field Levels
Dữ liệu cho tiêu chuẩn này được phân thành 12 cấp độ và các lĩnh vực dữ liệu liên quan.
- Thực hành truyền tải tốt-phiên bản của mô hình LAB được sử dụng,ngày địa phương hay toàn cầu và thời gian dữ liệu được tạo ra, tên của tổ chức và định danh mã hóa đó là nguồn của việc truyền dữ liệu
- Nghiên cứu_mã định danh và tên của nghiên cứu và liệu các dữ liệu rằng truyền các dữ liệu là gia tăng hoặc tích lũy
- Site_mã định danh của site
Investigator—tên và mã định danh của nhà giám sát
Bệnh nhân_mã bệnh nhân trước khi và sau khi chọn ngẫu nhiên (và có thể có thêm mã định danh), khởi tạo bệnh nhân. giới tính (có thể mã hóa gender), ngày sinh của bệnh nhâ, chủng tộc (có thể là mã chủng tộc). Note: khi lấy dự liệu của bệnh nhân phải tuân theo các quy tắc bảo mật
- Lần thăm khám_tên của lần thăm khám, mã định danh và số lượng lần thăm khám, liệu rằng lần thăm khám đó là có kế hoạch trước hay không, lần thăn khám đó có đc khám vật lý không, khám lại, hoặc là kết thúc sớm quá trình tham gia của bệnh nhân
- Đăng ký_tên và mã của phòng khám phân phối dữ liệu, định danh của lần thăm khám của bệnh nhân, ngày giờ địa phương hay quốc tế của lần chỉnh sửa cuối cùng của bản ghi
- Loại lưu trữ mở rộng_chỉ ra liệu rằng có bky mở rộng nào đối với LAB model đã được sử dụng như miêu tả không
Base specimen—identification code of an individual kit item used at the visit, actual and planned local date and time of specimen collection from the site, time discrepancy between planned and actual specimen collection, local (and universal) date and time of specimen receipt at laboratory, specimen condition, laboratory and investigator comments, specimen identification code, specimen name (e.g., blood, urine), subject age at collection, units of subject age at collection, fasting status of subject at collection
Base battery—name and identification code of the battery, panel or group
to which the test belongsKiểm tra cơ bản_tên và mã định danh của phòng thí nghiệm, tên và mã định danh của bài kiểm tra được xác định theo site, tên và mã định danh của bài kiểm tra theo quy định của phòng thí nghiệm, mã LOINC (Logical Observation
Identifiers Names and Codes), và danh sách các mục kiểm tra (thực hiện, không thực hiện hoặc hủy bỏ), kiểm tra ý kiến, địa phương (và phổ quát) ngày và thời gian thử nghiệm, loại hình kiểm tra (bài kiểm tra, bài kiểm tra không phải là học, không theo lịch)Kết quả cơ bản -mức này chứa 32 trường , nó cung cấp ất cả các kết quả thử nghiệm tên, mã số, phạm vi tham chiếu, đơn vị, kết quả, trạng thái, mức độc tính, cờ,thời gian báo cáo, và loại bản ghi
Mở rộng
Ngoài mô hình cơ sở LAB, tiêu chuẩn có một số phần mở rộng được thiết kế cho các dữ liệu lab đặc biệt. Các mở rộng hiện đang được công bố hoặc trong giai đoạn phát triển bao gồm:
- Vi trùng học
- Dược động học
- Giải thích về điện tâm đồ (ECG)
- Xử lý mẫu
- Hiệu chỉnh / khả năng truy vấn dữ liệu
Operational Data Model (ODM)
Các tiêu chuẩn ODM đầu tiên đã được phát hành bởi CDISC vào năm 2002 để giải quyết cấu trúc dữ liệu hơn là đặt tên các quy ước. Tiêu chuẩn ODM là được thiết kế để "... hỗ trợ lưu lượng dữ liệu đầu cuối trong các thử nghiệm lâm sàng, từ cơ sở dữ liệu hoạt động thông qua phân tích đến đệ trình quy định. Vai trò của ODM là để tạo điều kiện cho việc di chuyển dữ liệu lâm sàng thu thập được từ nhiều nguồn thu thập tới một cơ sở dữ liệu hoạt động, nhưng nó cũng có ứng dụng trong việc trao đổi và lưu trữ dữ liệu như vậy sau đó. "4 Cung cấp một định dạng tiêu chuẩn để chuyển dữ liệu, tính linh hoạt của ODM tạo ra khả năng tự động tạo các CRF điện tử được sử dụng trong một hệ thống thu thập dữ liệu điện tử (EDC).
ODM sử dụng ngôn ngữ mở rộng (Extensible Markup Language - XML) để tạo một file với bốn yếu tố chính sau đây:
- Nghiên cứu thông tin như tên nghiên cứu và siêu dữ liệu
- Quản lý thông tin như người dùng,site,phân quyền cho nghiên cứu này
- Dữ liệu tham khảo (ví dụ: phạm vi bình thường)
- Dữ liệu lâm sàng từ nghiên cứu
Các định dạng DL được hỗ trợ
ODM được thiết kế để trung lập với nhà cung cấp và độc lập nền tảng, và hỗ trợ nhiều định dạng dữ liệu bao gồm số nguyên, số thập phân, chuỗi văn bản,Thuật ngữ Boolean, nhị phân hex, cơ sở 64 nhị phân, ngày và giờ, một phần ngày và thời gian,thời gian nghỉ ngơi, thời lượng và hơn thế nữa.
Study Data Tabulation Model (SDTM)
Phiên bản SDTM đã triển khai đầu tiên của SDTM đã được phát hành bởi CDISCVào năm 2004, và đã được phát triển để cung cấp một tiêu chuẩn cho tổ chức,Cấu trúc và định dạng của dữ liệu bảng để trình lên các cơ quan quản lý.Số liệu thống kê có chứa dữ liệu thu được từ một nghiên cứu lâm sàng và không được xử lý theo cách thức giống như ba loại dữ liệu khác được gửi cho các cơ quan quản lý (ví dụ: bộ dữ liệu phân tích, hồ sơ bệnh nhân và danh sách).FDA rất khuyến khích sử dụng SDTM để lập bảng dữ liệu đệ trình, nhưng điều này đã không bắt buộc
Variable Classification Scheme
Theo SDTM, mỗi biến, thường tương ứng với một cột trong một tập dữ liệu, có thể được phân loại theo vai trò của nó. Một vai trò xác định loại thông tin truyền đạt bởi các biến trong mô tả một quan sát.Các biến có thể được phân thành 5 vai trò chính:
- Các biến số định danh - xác định nghiên cứu, chủ thể (cá nhân hoặc động vật) tham gia nghiên cứu, tên miền và số thứ tự của các bản ghi
- Các biến chủ đề-chỉ rõ trọng tâm của quan sát (như tên của một bài kiểm tra phòng thí nghiệm), và thay đổi theo loại quan sát.
- Các biến thời gian - mô tả thời gian của một quan sát (như ngày bắt đầu Và ngày kết thúc).
- Qualifier variables * - bao gồm văn bản minh họa bổ sung, hoặc số các giá trị mô tả kết quả hoặc các đặc điểm bổ sung của quan sát (Như các đơn vị hoặc tính từ mô tả). Danh sách qualifier variables bao gồm với một tên miền sẽ thay đổi đáng kể tùy thuộc vào loại quan sát và tên miền cụ thể.
- Các biến quy tắc-thể hiện một thuật toán hoặc phương pháp thực thi để xác định bắt đầu,Kết thúc, hoặc điều kiện lặp lại trong mô hình Thiết kế Thử nghiệm.
Standard Domains
The SDTM contains the following domains and respective codes, which fall into six general categories.
Special Purpose Domains
- Demographics (DM)
- Comments (CO)
- Subject Elements (SE)
- Subject Visits (SV)
Interventions
- Concomitant Medications (CM)
- Exposure (EX)
- Substance Use (SU)
Events
- Adverse Events (AE)
- Disposition (DS)
- Medical History (MH)
- Protocol Deviations (DV)
- Clinical Events (CE)
Findings
- ECG Test Results (EG)
- Inclusion/Exclusion Criterion Not Met (IE)
- Laboratory Test Results (LB)
- Physical Examinations (PE)
- Questionnaires (QS)
- Subject Characteristics (SC)
- Vital Signs (VS)
- Drug Accountability (DA)
- Microbiology Specimen (MB)
- Microbiology Susceptibility Test (MS)
- Pharmacokinetic Concentrations (PC)
- Pharmacokinetic Parameters (PP)
- Findings About (FA)
Trial Design Domains
- Trial Arms (TA)
- Trial Elements (TE)
- Trial Visits (TV)
- Trial Inclusion/Exclusion Criteria (TI)
- Trial Summary (TS)
Special Purpose Relationship Datasets
- Supplemental Qualifiers (SUPPQUAL)
- Related Records (RELREC)
SDTM Implementation Guide (SDTMIG) Hướng dẫn sử dụng SDTM
CDISC cũng đã ban hành hướng dẫn thực hiện để tăng cường SDTM chuẩn. Hướng dẫn thực hiện này nhằm hướng dẫn định dạng,Tổ chức và cấu trúc của bộ dữ liệu đã được sắp xếp. Bất kỳ tổ chức nào đang sử dụng SDTM cũng nên sử dụng hướng dẫn thực hiện này.
Analysis Dataset Model (ADaM)
ADaM ban đầu được phát hành bởi CDISC vào năm 2004 như là một mô hình chuẩn để tạo ra dữ liệu phân tích để trình lên các cơ quan quản lý, và có thể được coi là một phần mở rộng của tiêu chuẩn SDTM. ADaM mô tả nội dung đề xuất, cấu trúc và siêu dữ liệu của bộ dữ liệu phân tích, bao gồm số liệu phân tích Metadata,bao gồm dataset metadata, phân tích các biến metadata và kết quả phân tích metadata. CácTiêu chuẩn bao gồm các ví dụ về bộ dữ liệu được tạo ra bằng cách sử dụng ADaM.
Bốn quy tắc quan trọng cho phân tích Datasets:
- Phân tích dữ liệu nên tạo ra các thông rõ ràng và không mơ hồ
- Bộ dữ liệu phân tích nên được sử dụng bởi phần mềm hiện có sẵn các ứng dụng
- Bộ dữ liệu phân tích nên được liên kết với máy_cái mà có thể đọc được siêu dữ liệu
- Bộ dữ liệu phân tích nên được phân tích sẵn sàng
giống như SDTM, AdamM cũng có bộ hướng dẫn thực hành.
Electronic Common Technical Document (eCTD)
Tiêu chuẩn eCTD đã được ICH xây dựng để cung cấp một format chuẩn để nộp hồ sơ từ các nghiên cứu dược phẩm cho các cơ quan quản lý.Không giống như một số tiêu chuẩn được sử dụng trong nghiên cứu lâm sàng, eCTD tập trung nhiều hơn vào dữ liệu và cấu trúc tập tin hơn so với các quy ước đặt tên. ECTD phụ thuộc rất nhiều vào việc chỉ ra các định nghĩa loại tài liệu (DTD) của ngôn ngữ XML. Các DTD này được sử dụng để tạo ra một thư mục phân cấp chi tiết cấu trúc cho mỗi eCTD
Ngoài cấu trúc của eCTD, tiêu chuẩn được thiết kế để hỗ trợ các yêu cầu chức năng với mức cao. Một số yêu cầu chức năng bao gồm khả năng sao chép và dán, xem và in tài liệu, có tài liệu chú thích, và xuất sang cơ sở dữ liệu. Một eCTD cũng nên cho phép người dùng tìm kiếm cả trong và giữa các ứng dụng và cho phép điều hướng trong suốt eCTD và bất kỳ sự sửa đổi hoặc biến thể tiếp theo nào.
Mỗi eCTD bao gồm năm mô-đun, bốn trong số đó là phổ biến cho tất cả các quốc gia và khu vực. Đầu tiên của năm mô-đun sau đây có thể thay đổi giữa các vùng ICH khác nhau:
1.Thông tin hành chính khu vực và kê toa thông tin_Một module chứa thông tin hành chính và các mẫu có thể thay đổi giữa các quốc gia và khu vực
2. Tóm tắt tài liệu kỹ thuật chung - Mô đun Hai chứaTóm tắt thông tin trong các mô-đun ba, bốn vàSố năm.
3. Chất lượng-Mô-đun ba cung cấp thông tin chi tiết về điều trị được nghiên cứu và chi tiết về sự phát triển của sản phẩm vàquá trình sản xuất.
4. Các báo cáo nghiên cứu phi lâm sàng - Bốn mô tả chi tiếtThông tin dược động học, dược động học và độc tính.
5. Báo cáo nghiên cứu lâm sàng - Mô-đun Năm chứa kết quả nghiên cứu,Bao gồm các dữ liệu liên quan đến nền tảng và lý do phát triển, hiệu quả,An toàn, lợi ích và rủi ro.
eCTD trở thành một mẫu được khuyến khích dùng để để trình lên liên mình Châu Âu, Mỹ, Canada và Nhật và có thể trở thành bắt buộc
HL7 Standards (ko cần care vì nó ít sử dụng trong CD mà chủ yếu là trong )
Mặc dù HL7 không thiết kế các tiêu chuẩn cụ thể để sử dụng trong nghiên cứu lâm sàng, nhưng đc sử dụng nhiều trong hồ sơ y tế điện tử trong các bệnh viện sẽ giúp nhân viên CDM làm quen để quen thuộc với HL7 sau đây:
- Mô hình thông tin tham khảo (RIM) - Tiêu chuẩn này cung cấp cấu trúc,Đặt tên và các quy ước mã hóa được sử dụng giữa các tổ chức khác nhauVà nền tảng.
- Nhóm đối tượng lâm sàng đối tượng lâm sàng (CCOW) -Đây là một chuẩn được cung cấp cho phép các ứng dụng máy tính khác nhauĐể giao tiếp với nhau một cách hiệu quả
- Kiến trúc tài liệu lâm sàng (CDA) - Tiêu chuẩn này được dựa trênRIM và sử dụng ngôn ngữ đánh dấu XML để chỉ định mã hóa, cấu trúc,Và ngữ nghĩa của các tài liệu lâm sàng được trao đổi
Định hướng tương lai
Với nhiều tiêu chuẩn hiện tại, mục tiêu cuối cùng là làm cho các tiêu chuẩn này tương thích để bất kỳ dữ liệu liên quan đến sức khoẻ nào có thể được dễ dàng chia sẻ giữa các nhà nghiên cứu và các tổ chức khác nhau. Quốc gia Hoa KỳViện Ung thư (NCI), FDA, HL7 và CDISC đều đang hợp tác để tạo ra mô hình nhóm Nghiên cứu Y sinh Cộng đồng (BRIDG). Tiêu chuẩn này đang được thiết kế để tích hợp các tiêu chuẩn của HL7 và CDISC để giảm các lỗi tiềm ẩn và sắp xếp luồng dữ liệu từ các nhà cung cấp dịch vụ chăm sóc sức khoẻ dịch vụ cho đến các nhà nghiên cứu lâm sàng.
CDISC cũng đang tạo ra một tiêu chuẩn gọi là Mô hình Đại diện đề cương nghiên cứu(PRM). Cái đó xác định, định nghĩa và mô tả trên 300 các phần tử đề cương nghiên cứu chung và dẫn các yếu tố này tới các yếu tố bên trong mô hình BRIDG. Các Mô hình PRM được dùng làm tiêu chuẩn để sử dụng trong việc thiết kế một nghiên cứu,lựa chọn các địa điểm điều tra, phát triển các công cụ thu thập dữ liệu, và mô tả kế hoạch phân tích và các thủ tục nghiên cứu.
FDA đang tiên phong một chương trình cho một tiêu chuẩn được gọi là Tóm tắtTài liệu Kỹ thuật (STED), là một định dạng hài hoà cho các đệ trình lên cơ quan y tế, cái mà đã được chấp nhận bởi nhiều quy định trên toàn thế giới. ..ko dịch nữa vì cái thông tin của nó đã bị xóa trên trang web
Recommended Standard Operating Procedures Các thao chuẩn được khuyến khích
- CRF Design
- Database Design
- Medical Coding
- Data Transfers
- Regulatory Submissions