February 28, 2017

Hiện nay, việc ứng dụng R trong phân tích dữ liệu không còn mới ở Việt Nam, bởi cộng đồng sử dụng thống kê toán và R ngày càng lớn mạnh thông qua các workshop, các diễn đàn... hay các khóa đào tạo liên quan đến R. Tuy nhiên, sẽ là “rất mới” với những ai chưa được nghe tới, biết tới, đặc biệt là những lớp người đi trước (một số còn chẳng chấp nhận việc ứng dụng R trong phân tích, xử lý dữ liệu, vẽ các biểu đồ...). Trong phạm vi bài viết, mình xin được chia sẻ trường hợp việc mình ứng dụng R trong phân tích dữ liệu, đặc biệt là sử dụng để vẽ các hình, biểu đồ tương đối đẹp, khoa học... trong báo cáo tổng kết đề tài. Về biểu đồ mình có thể “tạm” khẳng định là đẹp, logic và khoa học và rất ít, các đề tài tương tự có được những hình, biểu đồ như vậy (giới hạn mà mình được biết tới).

Trong quá trình thực hiện đề tài cũng như tham khảo các báo cáo tổng kết đề tài ở các đơn vị khác, mình chưa thấy nhiều, thậm chí là không có đề tài ứng dụng R trong phân tích dữ liệu cũng như vẽ biểu đồ có liên quan. Đa phần là các hình vẽ từ Excel là chủ yếu, một vài từ các phần mềm thương mại như SPSS, Stata, SAS... Về liên quan đến việc ứng dụng R mình có thể kể ra đây một vài trường hợp như sau:

Phần mềm R là gì, nếu hay anh có thể giới thiệu cho hội đồng cũng như mọi người biết, ứng dụng...”. Đó là lời một thầy ngồi trong hộ đồng chấm luận văn thạc sĩ khoa học về Biến đổi khí hậu năm 2015 (Đại học quốc gia HN) nhận xét. Khi đó, mình có vẽ giúp mấy cái biểu đồ (biểu đồ tương quan với nhãn) bằng R cho một anh đang làm luận văn thạc sĩ. Thực ra, mình vẽ giúp và cũng không cung cấp các thông tin có liên quan, nên anh ấy cũng chẳng biết thế nào để giải thích cho thầy cũng như hội đồng rõ hơn về R.

Rồi mình có giúp một bạn cũng đang trong thời gian làm luận văn thạc sĩ khoa học lâm nghiệp năm 2015 (Đại học NL Thái Nguyên), việc xử lý số liệu, phân tích dữ liệu và vẽ biểu đồ hoàn toàn bằng R. Nên khi bảo vệ luận án các thầy trong hội đồng cũng chẳng biết R là gì luôn, đặc biệt là cô giáo hướng dẫn khi được hỏi về các biểu đồ tương quan có những ý nghĩa như thế nào? học viên không giải thích được (do mình vẽ giúp) nên cô phán rằng “bỏ đi, quá rắc rối”. Đó là những gì mình được nghe lại sau khi bạn ấy đến gặp giáo viên hướng dẫn xin ý kiến về đề tài luận án.

Trường hợp gần đây nhất (cuối năm 2016), là mình trực tiếp xử lý, phân tích và vẽ các loại biểu đồ bằng R trong báo cáo tổng kết đề tài. Khi chuẩn bị hội đồng, mình có in mấy cuốn đi xin ý kiến của các nhà khoa học (cây đa cây đề trong các lĩnh vực có liên quan) về nội dung, chất lượng của báo cáo. Khi đến xin ý kiến phản hồi, đa phần các chuyên gia đều có một góp ý chung là “bắt phải dẫn nguồn các hình, các biểu đồ”. Phần lớn các biểu đồ các chuyên gia chưa thấy hoặc rất ít trong các báo cáo khoa học hay các luận án nghiên cứu, đặc biệt là khi vẽ biểu đồ các tựa đề (title), nhãn cho trục trung (ylab), trục hoành (xlab) mình sử dụng bằng tiếng Anh. Hơn nữa, do in đen trắng nên các chuyên gia đều cho rằng mình và nhóm viết báo cáo coppy hình, biểu đồ (biểu đồ tương quan với nhãn, biểu đồ hộp boxplot, biểu đồ kiểm tra hậu định trong phân tích phương sai, biểu đồ xây dựng mô hình tuyếntính bằng Bayesian Model Average...) từ đâu đó, nên bắt phải trích nguồn tài liệu tham khảo.

Khi được giải thích, mình khẳng định trong báo cáo 100% các hình là do nhóm thực hiện (cá nhân) vẽ và xuất phát từ nguồn số liệu điều tra, theo dõi đo đếm của đề tài. Có Bác hỏi tiếp, vậy tựa đề mỗi hình không nên viết tiếng Anh. Mình cũng phải giải thích, cháu có để tiếng Việt nhưng cháu chưa biết cách khắc phục khi để tựa đề trong các hình bằng tiếng Việt đều bị lỗi. Mình có dở hình mà mình để tiếng Việt và bị lỗi làm dẫn chứng. Và, rồi Bác cũng không ý kiến thêm về các hình vẽ, biểu đồ nữa.

Cũng phải thú thực một điều, việc vẽ các hình, biểu đồ đẹp, khoa học, logic là rất tốt (tự khen một cái), nhưng việc hiểu và giải thích các ý nghĩa của các biểu đồ không phải đơn giản. Và, bản thân mình cũng chưa hiểu và giải thích hết các ý nghĩa của biểu đồ bằng các lời văn, câu từ sao cho hợp lý. Nên dẫn đến việc nhiều người nhầm tưởng mình đi coppy paste các biểu đồ đó trong báo cáo.

Ngày bảo vệ trước hội đồng, mình sử dụng đa số các hình vẽ, biểu đồ trong báo cáo và cố gắng giải thích ý nghĩa các hình, các biểu đồ mà khả năng có thể. Các thầy trong hội đồng đều chăm chú theo dõi các hình, các biểu đồ thật đẹp, sinh động qua các slide mà mình đang trình chiếu bằng laser pointer. Trong quá trình nhận xét phản biện của các thầy trong hội đồng đều khen về cách trình bày cũng như hình vẽ, biểu đồ rất sinh động. Có thầy cũng thú thực khi xem hình trong báo cáo (in đen trắng) rất khó coi và khó hiểu, nhưng khi nghe trình bày và giải thích qua các slide thì thấy rất có ý nghĩa và thú vị. Đó là một trong những niềm vui đối với “riêng” cá nhân mình khi bước đầu tìm hiểu, ứng dụng R trong xử lý, phân tích và vẽ các biểu đồ có liên quan trong các nghiên cứu.


Trên đây là một vài kỷ niệm nho nhỏ khi mình ứng dụng phần mềm R (phần mềm mở) trong xử lý, phân tích và vẽ các hình, biểu đồ có liên quan trong các báo cáo nghiên cứu. Việc ứng dụng R cũng như những khích lệ trong việc sử dụng R trong phân tích dữ liệu nghiên cứu là rất cần thiết, đặc biệt là từ phía các chuyên gia, các nhà khoa học đi trước, ít hoặc có những hạn chế trong việc tiếp cận R ngày nay. Tuy nhiên, không phải ai cũng thích thay đổi khi bản thân mình chưa được nghe hay biết tới, ngay cả những người trẻ như mình bây giờ.

0 comments:

chủ đề

Ăn của rừng bài báo khoa học bản quyền bành trướng Bảo vệ cây là bảo vệ chính mình biến đổi khí hậu Biển Đông Biết sai vẫn cứ làm biểu đồ biểu đồ hộp biểu đồ sai số chuẩn Biểu đồ tương quan Biểu đồ với nhãn bon-sai boxplot buoc-dau-nghien-cuu-khoa-hoc but-ky-doi-toi Cái tài Cái tâm Cái tầm canh tác đất dốc Cây xanh đô thị Cha chung không ai khóc cha nào con nấy Chân thiện mỹ chân trong chân ngoài chạy chức chạy quyền Che chở Chết toàn tập chọn cách ta sống chữ tín chuyện giờ mới kể có vấn đề Cơm áo gạo tiền Con cháu các cụ con người biến thái Con ông cháu cha công nghệ 4.0 correlation matrix corrgram corrplot Cứ đi rồi sẽ tới cuộc cách mạng 4.0 Đam mê đàn gảy tai trâu danh dự danh xưng phù phiếm Đạo đức sống đào tạo sau đại học Đạo văn Đấu tranh sinh tồn day-do Đẹp trong tâm hồn Đi tắt đón đầu dở khóc dở cười đọc nghe nhìn và cảm nhận Dồn điền đổi thửa Động lực dựa vào nhau mà sống error bar plot GGalyy ggcorplot ggExtra ggiraph ggplot2 ggrepel ggthemes Giáng sinh Giáo dục giàu nghèo giục tốc bất đạt Góc quê gridExtra Hài lòng Hai mặt một lời hãy là chính mình hãy sống có trách nhiệm hơn hèn nhát Hiệu sau ứng bão hiệu ứng domino formosa Hiệu ứng sau bão Hòa cả làng học giả bằng thật hoc-lam-tho hoc-r-moi-ngay Ích kỷ KH&CN khả năng Khoán chi Không lối thoát Kiểm định thống kê kỹ năng mềm Kỷ niệm vùng miền Label lan rừng Lão Hạc thế kỷ 21 Liêm chính lính đánh thuê Lợi dụng lợi ích nhóm lừa trên gạt dưới lười suy nghĩ Lương thiện giả vờ Lương y Ma trận tương quan Mẹ Miền cát trắng miền đất hứa Mộc Châu món ăn địa phương Mùa gặt Mục đích sống Mường La Nghịch lý chất lượng - số lượng Nghiên cứu khoa học Ngồi chơi xơi nước Nhân cách nhu cầu Những cung đường tôi đã qua NN&PTNT phân cấp sinh trưởng phân tích hậu định phan-bien-xa-hoi plot3D psych Quán Nha R Rừng ngập mặn rước hổ về nhà rvg sach-hay SARS-CoV-2 sau-luy-tre-lang sciplot Số cây Số liệu trống không Sông Châu sống chết mặc ai sức ỳ sức ỳ bản thân suy thoái Tầm lùn tâm sự tâm sự buồn thảm họa formosa thảm họa môi trường tham nhũng Thân cô thế cô thắng cố ngựa Thăng trầm Thấy vậy mà không phải vậy Thế cây Thế cây cổ Thế cây thế người Thông điệp cuộc đời Thống kê mô tả Thông tư Thước đo lòng người Thủy điện Tiên trách kỷ hậu trách nhân Tình bạn cao đẹp Tình người Tố chất làm khoa học tội đếch gì mà phải ghét ai Tôi sợ giầu lắm track changes Trải nghiệm tre già măng mọc trở mặt Trung thực tư duy Tự sự Tư tưởng thụt lùi tuy duy nhiệm kỳ Ứng dụng R trong lâm nghiệp Văn hóa cảm ơn Văn hóa giao thông văn hóa ngầm Văn hóa xin lỗi Xấu khen đẹp chê Xỏ nhầm giầy xoay đầu đổi đít Ý tưởng

bài đã đăng

Powered by Blogger.

Disqus Shortname

Widget Recent Post No.

Widget Random Post No.

Widget Recent Comment No.

PageNavi Results No.

Labels Max-Results No.

Comments system

Contact Form

Name

Email *

Message *

bài đăng phổ biến

số lượt ghé qua trang blog

Bài đăng nổi bật

Thế cây thế người

T hế trong CÂY CẢNH thể hiện các chi tiết về CẤU TRÚC ở mọi phương diện, đa góc nhìn (trên dưới trái phải ngang dọc), trong đ...

Bài đăng phổ biến

bài xem nhiều nhất