Ở bài trước khi đang xử lý dữ liệu
thì gặp trường hợp số liệu trống không (missing value). Để phân tích một số kiểm
định thống kê trong R đòi hỏi phải loại bỏ các số liệu trống không ra khỏi
data. frame vì không tính toán được. Trong nghiên cứu, có rất nhiều lý do, số
liệu không thể thu thập được cho tất cả các đối tượng hay không thể đo lường tất
cả các biến số cho một đối tượng... Trong trường hợp đó, đối tượng đó bị trống
số liệu hay còn gọi là số liệu trống không. Hôm nay, mình đề cập đến một trong
những lý do tạo nên số liệu trống không mà trong quá trình triển khai thí nghiệm
của đề tài gặp phải. Trường hợp có thể nói là vô tình, tuy nhiên cũng không kém
phần thú vị.
Hôm vừa rồi, mình có đi đo khả năng
cát bay, cát lấp của các đai rừng phòng hộ vùng cát ven biển miền Trung. Ở điểm
bố trí trên cồn, đụn cát di động tại Hưng Thủy, Lệ Thủy. Ngay cạnh đường tránh
lũ. Hai anh em đi đến điểm đo thứ nhất, trên đụn cát cách đường chừng 20 m. Lên
tới nơi. Ôi thôi. Cọc bị ai đó nhổ vứt ngang vứt dọc ngay tại chỗ. Thật chẳng
vui chút nào khi thời tiết đang nóng nắng, đi trên cát đến điểm đo lại không đo
được, do ai đó hiếu kỳ nhổ bỏ. Thế là không có số liệu đo khả năng cát bay, cát
lấp ở điểm đo đụn cát trong khoảng thời gian vừa rồi. Tưởng rằng nhổ một hai cọc
chẳng có gì thì thôi, ai ngờ nhổ hết, nhổ sạch không còn cọc nào. Không thu thập
được số liệu. Đành bố trí lại, để đợt sau vào đo cho đợt tiếp theo.
Hình 1. Thời điểm khi bố trí thí nghiệm đo khả năng cát bay cát lấp tại Lệ Thủy
Qua điểm thứ nhất không đo được dữ liệu.
Di chuyển đến điểm thứ hai, cách đó chừng 300 m, điểm trên cồn cát cao so với mặt
đường hơn 10 m, phía đối diện tính từ chỗ thấp nhất lên tới đỉnh cồn cát khoảng
20 - 30 m. Cồn cát cao, chạy dài song song với đường tránh lũ chừng gần 100 m.
Khi di chuyển trên cồn cát, có đám cỏ mọc xanh tốt trên đó. Tôi tiến lại gần
quan sát và nhờ đồng chí Quân chụp hộ mấy kiểu ảnh bên đám cỏ làm kỉ niệm. Sau
đó tiến dần lên đỉnh, tới điểm bố trí đo cát đã bố trí bữa trước. Thật bực. Điểm
đo thứ hai lại bị phá. Cả 30 chục cọc bố trí theo hình tam giác (hình 1) đều bị nhỏ sạch. Khi đó trong đầu
đã nghĩ và miệng định thốt lên chửi bâng quơ ai đó. Bởi chắc ai đó (còn trẻ) đi
ngang qua đường, thấy cồn cát cao, đẹp dừng lại và lên chụp mấy kiểu ảnh để làm
kỉ niệm hay post facebook “khoe”. Bực
hơn khi họ nhổ hết mọi cọc, lại còn bẻ gẫy cọc lung tung cắm thành hình trái
tim (hình 2) để tạo nền chụp ảnh. Ôi
trời! Bực hết chỗ nói. Thế là 2 điểm không có dữ liệu về cát bay, cát lấp trong
khoảng thời gian vừa qua.
Hình 2. Cọc cát bị ai đó hiếu kỳ nhổ bỏ và thiết kế lại (tạo nên số liệu trống không)
Thời điểm lúc đó nắng chói chang, gắt
hơn nhiều, nhiệt độ tăng cao, đặc biệt trên cồn cát cao. May có chút gió nên
cũng giữ được nỗi bực dọc này mà không chửi bâng quơ ai đó những câu “tục tĩu”. Cũng chẳng trách được họ. Bởi
tính hiếu kỳ, tò mò của con người. Mà trách bản thân mình đã lựa chọn điểm bố
trí thí nghiệm đo cát chưa hợp lý nên mới vậy. Đây là một trong những trải nghiệm
nho nhỏ khi triển khai bố trí các mô hình, thí nghiệm nghiên cứu. Thực ra, chuyện
cũng chẳng có gì nhiều thông tin hay sự việc to tác gì cho lắm. Bởi đó, là chuyện
khá bình thường. Việc các mô hình, các điểm bố trí thí nghiệm bị thiên tai,
trâu bò, thậm chí con người phá bỏ diễn ra thường nhật mà thực tế nhiều người
làm nghiên cứu đã giãi bày, minh chứng điều đó. Nên qua đây, mình cũng không nặng
lòng về vấn đề. Coi đó là một bài học nhỏ cần đúc rút cho những lần sau khỏi mắc
phải.
Sự việc không chỉ gói gọn ở đó mà đồng
chí đi cùng. Đi sau tôi, chụp mấy bức ảnh mà tôi đang tiến gần tới đỉnh cồn cát
tìm vị trí mà bữa trước tôi bố trí đo cát bay cát lấp. Trưa về. Post lên
facebook với tựa đề “những bước chân mệt
mỏi đi tìm kết quả trên vùng đất cát của nhà khoa học tương lai”. Thực sự,
tôi thấy xấu hổ với tựa đề như vậy. Chao ôi. “Nhà khoa học tương lai”. Xấu hổ lắm. Ai là nhà khoa học chứ. Làm ăn
chưa đến đầu đến đũa. Đã làm được gì?. Đã là gì đâu cơ chứ?. Đồng chí post lên tường nhà tôi. Tôi đành vào “Cảm ơn bạn. Bạn quá lời rồi. Nhà khoa học
nào ở đây?”. Tôi nghĩ, ai mà đọc được chắc cười mình chết mất. Gạch đá sao
mà tránh hết được. Cũng may mọi người chỉ cười khẩy trong bụng nên cũng ít gạch đá.
Mà cũng có thể bây giờ ai có thời gian đâu mà quan tâm bạn làm gì, bạn như thế
nào trừ những người thân thích quan tâm, để ý mà thôi. Rồi có anh comments “Bà con miền Trung yêu và sáng tạo vậy, 2 nhà
khoa học trẻ theo không kịp rồi?”, “Tại
chú cắm nhiều cọc quá làm bà con có điều kiện để sáng tạo”. Rốt cuộc là lỗi
tại mình. Nếu mình không cắm nhiều cọc chắc chẳng ai để ý làm gì. Khổ. Cắm ít cọc
thì sai số lớn, phản ánh chưa sát thực tế. Cắm nhiều. Vô tình gây nên sự tò mò,
hiếu kỳ khi bất cứ ai bị đập vào mắt. Đúng là cố gắng muốn làm tốt hơn có thể
nhưng cũng chẳng xong. Biết làm sao được. Thiết nghĩ, âu cũng là cái duyên.
Qua câu chuyện, mới thấy đây là một
trong số vô vàn lý do mà không thể thu thập hoặc đo lường tất cả các biến cho một
đối tượng, cũng như không thể thu thập được cho tất cả các đối tượng điều tra,
nghiên cứu. Đó là những “số liệu trống
không”. Việc xử lý, loại bỏ những số liệu trống không trước khi phân tích
cho một số kiểm định thống kê là rất cần
thiết. Bởi R không tính toán được các phân tích tiếp theo. Trong R có một lệnh
rất có ích cho việc này: na.omit. Nếu
bạn nào quan tâm có thể tìm hiểu thêm xử lý số liệu trống không với R.
0 comments:
Post a Comment