Phương pháp nghiên cứu khoa học - Bài 16: Chiến lược phân tích số liệu

7 trang hapham 6370

Download

Bạn đang xem tài liệu "Phương pháp nghiên cứu khoa học - Bài 16: Chiến lược phân tích số liệu", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

phuong_phap_nghien_cuu_khoa_hoc_bai_16_chien_luoc_phan_tich.doc

Nội dung text: Phương pháp nghiên cứu khoa học - Bài 16: Chiến lược phân tích số liệu

Chiến lược phân tích số liệu 1. Giới thiệu Chúng ta đã biết qua những kĩ thuật thống kê chuyên biệt cho các tình huống dịch tễ nhất đinh. Trong bối cảnh của một nghiên cứu dịch tễ thực sự bao gồm số liệu của rất nhiều các biến số, rất khó quyết định thao tác nào được áp dụng và áp dụng theo trình tự như thế nào. Trong phần này, chúng ta sẽ trình bày một số nguyên tắc chiến lược để phân tích số liệu từ nghiên cứu dịch tễ. 2. Biên tập số liệu Kiểm tra và biên tập cẩn thận bộ số liệu là rất cần thiết trước khi bắt đầu phân tích thống kê. Bước đầu tiên là xem sự phân phối của từng biến số để phát hiện các sai lầm có thể. Đối với biến số phân loại, điều này thực hiện bằng bảng phân phối tần suất để xem rằng các bản ghi đều ở trong các nhóm đã được xác định và tần suất của mỗi nhóm là hợp lí. Đối với biến số định lượng, kiểm tra phạm vi cần được tiến hành để phát hiện những giá trị nằm ngoài phạm vi mong đợi. Tổ chức đồ cũng có thể dùng để tìm kiếm các giá trị bất thường (outliers) không phù hợp với phần số liệu còn lại. Bước tiếp theo là tiến hành kiểm tra tính hàng định, để tìm kiếm những trường hợp mà 2 hay nhiều biến số là không hằng định. Thí dụ, nếu có 2 biến số giới tính và số lần mang thai trong bộ số liệu, chúng ta có thể sử dụng bảng chéo để chắc rằng không có người nam giới nào có số lần mang thai là một hay nhiều hơn. Phân tán đồ cũng có thể được sử dụng để kiểm tra tính hằng định của số liệu số; thí dụ chúng ta có thể vẽ phân tán đồ của trọng lượng theo tuổi, trọng lượng theo chiều cao, dung tích sống theo chiều cao. Những giá trị bất thường cũng có thể được phát hiện bằng cách này. Những sai sót có thể được kiểm tra so với tài liệu gốc. Trong một số trường hợp cần phải điều chỉnh lại số liệu. Một số trường hợp khác cần phải đưa mã số giá trị khuyết (missing value) nếu chắc chắn rằng số liệu sai (thí dụ một bà mẹ có trọng lượng trước khi sinh là 45 kg và đã tăng cân 35kg trong thời gian có thai). Trong trường hợp còn chưa rõ, khi số liệu là bất thường nhưng không bị xem là không thể xảy ra, tốt nhất là để số liệu giữ nguyên. Một cách chặt chẽ, việc phân tích sau đó phải được kiểm tra để đảm bảo là kết luận không bị ảnh hưởng quá mức vì giá trị cực đoan này. Trên thực tiễn, giá trị bằng số thường được chia thành các nhóm trước khi phân tích và do đó một hay hai giá trị bất thường khó có thể có ảnh hưởng đáng kể đến kết quả. Việc kiểm tra cần phải được tiến hành riêng biệt cho nhóm mắc bệnh và nhóm không mắc bệnh bởi vì phân phối của 2 nhóm này có thể hoàn toàn khác nhau. 3. Mô tả số liệu Sau khi số liệu đã được làm sạch, phân phối của từng biến số phải được rà soát lại. Điều này được thực hiện cho 2 mục đích. Thứ nhất, để đảm bảo rằng tất cả các số liệu đều đã được sắp xếp phù hợp và thứ hai để có một cảm giác về số liệu. Cảm giác vế số liệu là sự hiểu biét về đặc tính của dân số đối với biến số phơi nhiễm và các giá trị khác cần đo lường. Khi thực hiện nghiên cứu bệnh chứng, chúng ta cần phải xem xét số liệu một cách riêng biệt.
4. Phân loại biến số Nói chung sẽ rất hữu ích nếu chúng ta phân biệt các loại biến số "kết cuộc", "phơi nhiễm", "gây nhiễu" và "thay đổi tác động". Biến số kết cuộc và biến số phơi nhiễm là các biến số trung tâm của nghiên cứu trong đó biến số kết cuộc mô tả vấn đề nghiên cứu và biến số phơi nhiễm là biến số mà chúng ta muốn xem xét và ước lượng tác động của nó lên biến số kết cuộc. Biến số gây nhiễu là biến số làm biến dạng quan hệ giữa biến số phơi nhiễm và két cuộc. Chúng ta thu thập số liệu của các biến số gây nhiễu để loại bỏ tác động của yếu tố gây nhiễu trong khi phân tích. Biến số thay đổi tác động là biến số thay đổi tác động của biến số phơi nhiễm lên nguy cơ. Chúng ta thu thập số liệu của các biến số thay đổi tác động để xem xét tác động của biến số phơi nhiễm lên nguy cơ thay đổi như thế nào tuỳ theo giá trị của biến số thay đổi tác động. Trên thực tiễn, mối liên hệ giữa các biến số có thể phức tạp hơn. Thí dụ một biến số có thể gây nhiễu tác động của một yếu tố phơi nhiễm cần quan tâm nhung bản thân nó có thể là biến số phơi nhiễm quan tâm. Một biến số khác có thể gây nhiễu cho một biến sô phơi nhiễm này nhưng làm thay đổi tác động cho một biến số phơi nhiễm khác. Ngoài ra trong nghiên cứu có thể có các yếu tố thăm dò, số liệu của biến số này có thể trở thành biến số phơi nhiễm quan trọng hoặc nếu nó không trở thành biến số phơi nhiễm quan trọng, nó có thể được xem là biến số gây nhiễu hay thay đổi tác động. 5. Rút gọn số liệu Trước khi bắt đầu phân tích chính thức, có thể vần phân nhóm giá trị của các biến số. Bởi vì phương pháp "cổ điển" dựa trên việc phân tầng là cần thiết cho giai đoạn đầu của nghiên cứu, việc phân nhóm là quan trọng cho các biến số liên tục. Việc phân nhóm cũng cần thiết cho biến số phân loại hay biến số rời rạc nếu các biến số này có chứa một số lớn các nhóm (thí dụ như nghề nghiệp, số lần mang thai). Số nhóm được phân chia phụ thuộc vào từng loại biến số: đối với biến số phơi nhiễm cần phân chia thành nhiều nhóm hơn đối với biến số gây nhiễu hay biến số thay đổi tác động. Đối với biến số phơi nhiễm, khi chúng ta muốn xem xét sự phụ thuộc của nguy cơ vào mức độ phơi nhiễm (quan hệ liều lượng – đáp ứng), chúng ta sẽ mắc sai lầm nếu chúng ta sử dụng quá ít nhóm. Nguyên tắc chung là nhóm không phơi nhiễm nên đặt riêng (thí dụ nhóm không hút thuốc) và nhóm phơi nhiễm nên chia thành nhiều nhóm (thường là 4 hay 5 nhóm là đủ để có thể xem xét mối quan hệ liều lượng đáp ứng). Đối với biến số liên tục như tăng huyết áp, có thể chia các giá trị của biến số làm 5 nhóm có tần suất bằng nhau (được gọi là quintiles – ngũ vị). Điều này giúp cho độ chính xác của ước lượng tác động lên mỗi nhóm nhưng đôi khi có thể sai lầm do nếu có một ít đối tượng có mức phơi nhiễm rất cao bị ghép chung với các đối tượng có độ phơi nhiễm vừa phải. Một cách khác là chọn các điểm cắt dựa trên nền tảng của các nghiên cứu trước đó, mục đích là xác định các nhóm mà nguy cơ tương đối ít thay đổi trong từng nhóm. Đối với biến sô gây nhiễu, hai hay ba nhóm là đủ đối với phần lớn các yếu tố gây nhiễu. Dù vậy nếu biến số gây nhiễu mạnh (thí dụ như tuổi) thì có thể phân thành nhiều nhóm hơn. Trước khi quyết định số nhóm cần dùng trong phân tích, chúng ta có thể đánh giá sức mạnh quan hệ giữa biến số gây nhiễu và biến số kết cuộc. Nếu sự quan hệ này là yếu thì chúng ta có thể kết hợp nhiều nhóm lại với nhau.
6. Đo lường tác động Có các lựa chọn khác nhau để đo lường tác động cho các thiết kế nghiên cứu. Các lựa chọn bao gồm: Thiết kế nghiên cứu Đo lường tần suất bệnh Đo lường tác động Đoàn hệ (người thời gian) Tỉ suất Tỉ số tỉ suất Hiệu số tỉ suất Đoàn hệ (không có số liệu Nguy cơ Tỉ số nguy cơ người thời gian) Hiệu số nguy cơ Số chênh Tỉ số số chênh Hiện mắc Tỉ lệ hiện mắc Tỉ số nguy cơ (hiện mắc) Hiệu số nguy cơ Số chênh Tỉ số số chênh Bệnh chứng Tỉ số số chênh Đối với nghiên cứu đoàn hệ, nếu có số liệu về người thời gian phơi nhiễm, tỉ suất mới mắc thường là số đo tần suất được chọn lựa và tỉ số tỉ suất là số đo tác động được chọn lựa. Đối với nghiên cứu đoàn hệ dựa trên nguy cơ và cho nghiên cứu bệnh hiện mắc, tỉ số nguy cơ sẽ được xem là dễ lí giải hơn tỉ số số chênh. Tuy nhiên tỉ số số chênh thường được sử dụng do tính chất thống kê của các thao tác dựa trên tỉ số số chênh là tốt hơn. Bởi vì hồi quy logistic thường được sử dụng để ước lượng tỉ số số chênh, tỉ số số chênh cũng được sử dụng do nó cho kế quả hằng định với kết quả của phân tích hồi quy logistic. Trong nghiên cứu bệnh chứng, tỉ số số chênh thưưòng được dung để đo lường tác động mặc dù nó có thể ước lượng cho tỉ số nguy cơ hay tỉ số tỉ suất, phụ thuộc vào phương pháp chọn lựa nhóm chứng. 7. Phân tích đơn biến Thông thường nên bắt đầu với phân tích thô đơn biến, sử dụng các phương pháp cổ điển để xem xét sự liên quan giữa kết cuộc và các yếu tố phơi nhiễm quan tâm và bỏ qua các biến số khác. Mặc dù phân tích này sẽ bị thay thế bởi các phân tích phức tạp hơn và có xem xét đến tác động của các biến số khác, phân tích đơn biến vẫn có ích lợi vì: i) xem xét các bảng phân tích đơn cho người nghiên cứu những thông tin hữu ích về bộ số liệu; thí dụ nó có thể cho thấy có rất ít bản ghi hay rất ít trường hợp tử vong ở một nhóm phơi nhiễm nhất định. ii) Nó cho chúng ta khái niệm ban đầu về các biến số có thể liên quan mạnh đến kết cuộc iii) Mức độ thay đổi của ước lượng tho so với ước lượng khi các biến số khác được đưa vào để sử dụng trong phân tầng flà một chỉ số quan trọng để đánh giá sự hiện diện của yếu tố gây nhiễu. Khi phơi nhiễm có trên 2 mức độ, một mức độ phơi nhiễm được chọn làm mức nền. Thông thường người ta chọn mức nền là mức không có phơi nhiễm (hoặc phơi nhiễm ít nhất nếu ai đó đều bị phơi nhiễm ít nhiều). Tuy nhiên nếu nhóm này có ít người thì ước
lượng sẽ có sai số chuẩn lớn và chúgn ta có thể có lợi khi chọn nhóm lớn hơn làm nền tảng. Phânt ích phơi nhiễm với 2 hoặc hơn các mức độ (cả khi phân tích thô và phân tích phân tầng) sẽ bao gồm: i) Các bảng 2x2, so sánh các mức độ phơi nhiễm với nhóm nền ii) Xem xét các ước lượng của tác động có theo một khuynh hướng nào hay không? iii) Nếu phù hợp, thực hiện một kiểm định khuynh hướng (test for trend) để tìm bằng chứng về sự tăng giảm nguy cơ theo mức độ phơi nhiễm tăng dần. 8. Kiểm soát các yếu tố gây nhiễu Yếu tố gây nhiễu hiện diện ít nhiều trong các nghiên cứu quan sát và cần phải thực hiện loại bỏ các yếu tố gây nhiễu trong các phân tích của biến số phơi nhiễm quan tâm. Chúng ta đã có 2 công cụ cho nhiệm vụ này: phương pháp cổ điển (Mantel-Haenszel) dựa trên phân tầng và phương pháp mô hình hoá với các phương trình hồi quy. Chúng ta nên dùng phương pháp cổ điển trong bước đầu của phân tích vì các lí do sau: i) Các bảng số liệu đơn giản giúp nhà nghiên cứu có liên hệ với số liệu. Ngược lại, phương trình hồi quy là một hộp đen có thể gây ra những sai số tai họa khi mô hình hoá. ii) Phương pháp cổ điển đòi hỏi ít giả định nên có thể phát hiện được các mối liên quan phức tạp. Phương pháp mô hình hoá có thể bỏ qua một số tương tác. Tuy nhiên phương pháp cổ điển gập khó khăn khi có một số lớn các biến số gây nhiễu và khi muốn kiểm soát các yếu tố gây nhiễu này đồng thời thì do sự hiện diện của quá nhiều tầng sẽ khiến cho số liệu của mỗi tầng trở thành quá nhỏ và sẽ khiến sức mạnh thống kê bị kém và khoảng tin cậy của ước lượng sẽ rộng ra. Mặc dù vậy, nếu phương pháp cổ điển được áp dụng một cách sáng suốt sẽ cho một ước lượng có giá trị và loại bỏ các sai lệch do yếu tố gây nhiễu gây ra. Điều này đúng cho hầu hết các loại nghiên cứu ngoại trừ nghiên cứu bệnh chứng bắt cặp cá nhân trong đó kĩ thuật phân tầng cổ điển có rất ít giá trị. Chúng ta đã thấy rằng phương pháp hồi quy cho tác động của hai biến số phân loại có giả định giống như giả định trong phương pháp phân tầng và do đó cho kết quả hoàn toàn đồng nhất. Phương trình hồi quy ngoài ra còn có một số lợi ích sau: i) Giả định rằng không có tương tác giữa các biến số gây nhiễu, chúng ta có thể làm giảm số tham số cần thiết ii) Có thể xác định được tác động của từng biến số, được kiểm soát cho tác động của các biến số khác. iii) Có thể xem xét tác động liều lượng hậu quả một cách linh hoạt hơn. 9. Cách đưa vào biến số gây nhiễu i) Thông thường sẽ có hai hay ba biến số đượccho là các biến số gây nhiễu quan trọng (những biến số này đuợc gọi là biến số gây nhiễu trù định - a priori confounders) những bCác biến số này thường là tuổi và một hay hai yếu tố nguy cơ quan trọng của bệnh và được cho là có thể có liên quan đến biến số phơi nhiễm quan tâm. Theo các quy tắc chung, những biến số này phải được kiểm soát trong phân tích. ii) Chúng ta có xem xét các biến số có thể gây nhiễu khác. Kiểm soát từng biến số một và xem có làm thay đổi con số ước lượng tác động hay không.
iii) Đôi khi chỉ có môt hoặc hai biến số gây nhiễu có làm thay đổi ước lượng tác động. Khi đó phân tích cuối cùng thưc hiện việc kiểm soát các biến số gây nhiễu trù định với các biến số gây nhiễu bổ sung có tác động. Không cần thiết phải đưa tất cả các biến số tất cả các biến số gây nhiễu bổ sung vào phân tích cuối cùng bởi vì một số biến số gây nhiễu không làm thay đổi ước lượng tác động của biến số phơi nhiễm quan tâm nếu đã được kiểm soát cho các biến số gây nhiễu khác. Nếu có 3 hay ít hơn các biến số gây nhiễu thì chỉ cần sử dụng phương pháp cổ điển là đủ. Trong trường hợp này, lần lượt phân tầng cho từng biến số và sau đó phân tầng cho đồng thời các biến số để xem các ước lượng tác động thay đổi như thế nào. Chiến lược này đủ để loại bỏ hầu hết các ảnh hưởng gây nhiễu. Khi số các biến số gây nhiễu là quá lớn và không thể kiểm soát bằng phương pháp phân tầng đơn thuần, phương trình hồi quy (giả định không có hay chỉ có ít tương tác giữa các biến số gây nhiễu) sẽ có giá trị. Bước đầu tiên của phương pháp mô hình là lập lại những phân tích đơn giản và kiểm tra xem kết quả có phù hợp với phân tích phân tầng đơn giản hay không. Điều này giúp chúng ta tránh được các sai lầm tai hoạ do sử dụng phương pháp hộp đen. Sau đó có thể xây dựng các mô hình phức tạp hơn bao gồm: - Biến số phơi nhiễm hoặc các biến số phơi nhiễm quan tâm - Tất cả các biến số được cho là yếu tố gây nhiễu từ trước (yếu tố gây nhiễu trù định) - Tất cả các biến số khác được cho là có thể gây nhiễu và số liệu cho thấy có tác động gây nhiễu đáng kể. Tránh việc đưa vào các biến số không phải là yếu tố gây nhiễu cho bệnh đặc biệt là nếu biến số này có liên quan mạnh đến phơi nhiễm quan tâm bởi vì nó sẽ tạo ra sai số chuẩn lớn và khiến ước lượng kém chính xác. Cần lưu ý rằng các biến số được xem là gây nhiễu phụ thuộc một phần vào quyết định trù định (a priori decision) và một phần vào mức độ của ước lượng bị thay đổi sau khi kiểm soát cho yếu tố gây nhiễu đó. Chúng ta hoàn toàn không dựa vào kết quả của kiểm định ý nghĩa. Do đó các nhà thống kê và dịch tễ hang đầu thường không khuyến cáo sử dụng phương pháp hồi quy từng bước (stepwise) trong phân tích dịch tễ. 10. Phân tích tương tác Hồi quy là một công cụ rất phù hợp cho phân tích sự tương tác. Có 3 loại tương tác cần được phân biệt i) tương tác giữa các biến số gây nhiễu Sự khác biệt chính giữa phương pháp mô hình hoá và phương páp cổ điển là phương pháp cổ điển cho phép xem xét sự tương tác giữa các biến số gây nhiễu. Điều may mắn là trên thực thế, hầu như không bao cần xem xét sự tương tác giữa các biến số gây nhiễu. ii) Tương tác giữa biến số gây nhiễu và biến số phơi nhiễm chúng ta quan tâm: Trên lí thuyết thống kê, việc tính toán con số ước lượng tác động chính xác, sau khi hiệu chỉnh cho các yếu tố gây nhiễu chỉ cần thiết nếu tác động là đồng nhất ở các mức khác nhau của yếu tố gây nhiễu. Tuy nhiễn trên thực tế, có thể là tác động sẽ thay đổi ít nhiều giữa các nhóm gnhĩa là ít nhiều có sự tương tác của phơi nhiễm quan tâm và yếu tố gây nhiễu được kiểm soát trong phân tích. Khi có sự hiện diện đáng kể của tương tác, tác động đặc hiệu của từng tầng phải được báo cáo.
iii) Tương tác giữa các biến số phơi nhiễm quan tâm Nếu có sự tương tác giữa các biến số phơi nhiễm quan tâm thì điều này là rất quan trọng cho việc lí giải khoa học của kết quả phân tích và cho việc ứng dụng các can thiệp dự phòng. Tuy nhiên việc tích cực tìm kiếm sự tương tác với tất cả các biến số có thể là không có ích lợi. Kiểm định thống kê cho sự tương tác được chứng minh là có lực rất kém và nếu chúng ta lần lượt tìm kiếm sự tương tác có ý nghĩa thống kê của tất cả các biến số sẽ dễ dàng bỏ qua những tương tác thực sự và tình cờ đưa ra các phát hiện giả tạo. Chúng ta cũng nên nhớ rằng mục tiêu của nghiên cứu dịch tễ là tìm ra một bức trạnh đơn giản nhưng chân thật và hữu dụng của thực tế. Nếu có tương tác yếu, bản thân điều này không có ý nghĩa quan trọng lắm cho nên việc tính toán ước lượng gộp của tác động cho từng phơi nhiễm là sự xấp xỉ hợp lí cho sự thật. Vì những lí do này, nên trì hoãn việc phân tích tương tác vào giai đoạn cuối của phân tích và chỉ nên xem xét tương tác phơi nhiễm-phơi nhiễm và phơi nhiễm-gây nhiễu, đặc biệt chú ý đến những yếu tố tương tác trù định đáng được nghiên cứu. Nên xem xét từng yếu tố tương tác một để tránh những mô hình quá phức tạp với nhiều tham số. 11. Nghiên cứu bệnh chứng bắt cặp Phân tích bệnh chứng đúng cách sẽ kiểm soát các tác động gây nhiễu do biến số bắt cặp. Tuy nhiên nếu có những biến số gây nhiễu khác không được bắt cặp sẽ có thể là biến số gây nhiễu. Việc phân tầng có thể được sử dụng để kiểm soát những yếu tố gây nhiễu bổ sung nếu chúng ta chú ý rằng các tập hợp của ca bệnh và chứng (các tầng) phải đồng nhất về phương diện yếu tố gây nhiễu quan tâm. Điều này sẽ khiến cho các tầng này có rất ít số liệu nên sẽ tạo ra các ước lượng kém tin cậy. Có hai cách để giải quyết vấn đề này: 1. Sử dụng hồi quy logistic có điều kiện. Cách tiếp cận này rất ích lợi cho phép sử dụng toàn bộ số liệu và phân tích nhiều yếu tố gây nhiễu cùng một lúc, mặc dù điều này đòi hỏi thêm các giả định. 2. Nếu bệnh và chứng chỉ được bắt cặp dựa trên các biến số đã được đo lường trong nghiên cứu (thí dụ như tuổi và giới), cách tiếp cận khác là phá vỡ việc bắt cặp và phân tích số liệu như là nghiên cứu bắt cặp tần suất. Trong trường hợp này, tuổi và giới sẽ được kiểm soát như là một tầng trong phân tích. Chúng ta có thể sử dụng phương pháp phân tầng hay hồi quy logistic không điều kiện để tiếp tục phân tích. 12. Những trở ngại trong phân tích và lí giải số liệu Nếu chúng ta có một nghiên cứu thử nghiệm ngẫu nhiên lớn so sánh 2 can thiệp. Sự so sánh đã được thiết lập trong đề cương nghiên cứu và đã được thống nhất trước khi nghiên cứu được tiến hành. Nếu nghiên cứu đủ lớn thì việc ngẫu nhiên hoá sẽ đảm bảo 2 nhóm cân bằng với nhau về tất cả các biến số gây nhiễu và việc phân tích kết quả sẽ rất đơn giản. Nghiên cứu dịch tễ thường gặp thường có liên quan đến nhiều biến số, ngay cả khi chúng ta đã xác định biến số phơi nhiễm quan tâm từ trước. Sự khác biệt trong việc quyết định phân nhóm số liệu và chiến lược mô hình hoá sẽ cho những kết luận có thể rất khác biệt. Có nhũng quan điểm khác nhau về cách xử lí số liệu từ các nghiên cứu thăm dò. Những lí
do cho sự cẩn trọng trong phân tích và lí giải số liệu bao gồm: (i) Nhiều so sánh: Ngay cả khi không có sự liên quan giữa biến phơi nhiễm và kết cuộc, chúng ta sẽ hi vọng sẽ có 1 trong 20 so sánh sẽ có ý nghĩa thống kê ở mức 5%. Do đó lí giải mối liên quan trong nghiên cứu mà tác động nhiều yếu tố phơi nhiễm được đo lường sẽ cần phải cẩn thận hơn trong một nghiên cứu với một giả thuyết được trù định từ trước. Tìm kiếm tất cả các liênq uan với một biến số kết cuộc được các nhà thống kê gọi là "nạo vét số liệu" (ii) Phân tích từng nhóm nhỏ: Cần phải đặc biệt cẩn thận khi lí giải kết quả về sự liên quan "biểu kiến" trong các nhóm số liệu, đặc biệt là khi không có bằng chứng về mối liên quan chung. Chúng ta thường dễ bị cám dỗ và cho rằng đó là một kết quả lí thú của nghiên cứu, nhất là khi nếu loại bỏ nó ra nghiên cứu này là một nghiên cứu âm tính. (iii) So sánh được chỉ định do kết quả phân tích Chúng ta không nên phân nhóm số liệu để có thể tạo ra một sự khác biệt thống kê rồi lí giải giá trị p này như thể giá trị p này là của một so sánh có trù định. Thí dụ nếu chúng ta có 10 nhóm tuổi và chúng ta so sánh nhóm tuổi 1 với nhóm 2, nhóm 3, , nhóm 10 rồi so sánh nhóm tuổi 1 và 2 với nhóm 3, 4, 10 và tiếp tục. Chúng ta có 9 so sánh như vậy và sau đó chúng ta sẽ chọn cách so sánh nào có sự khác biệt nhiều nhất và có ý nghĩa thống kê nhất giữa nhóm trẻ và nhóm già. Cách này là cách so sánh chỉ định do kết quả phân tích. Lẽ ra chúng ta phải quyết định việc phân nhóm càng sớm càng tốt trước khi xem sự khác biệt trong phân nhóm tuổi ảnh hưởng đến kết luận của nghiên cứu. Điều này không có nghĩa là tất cả các nghiên cứu dịch tễ phải có giả thuyết nghiên cứu và phương pháp phân tích được chỉ định từ trước khi tiến hành thu thập số liệu. Việc lí giải kết quả phải bị ảnh hưởng bởi việc phân tích. Nếu chúng ta tìm được một mối liên quan có ý nghĩa trong 50 mối liên quan được kiểm định thì điều này sẽ phải được khẳng định rõ rang. Chúng ta chỉ nên xem mối liên hệ này chỉ nhằm tạo ra giả thuyết để được kiểm định trong tương lai.