July 25, 2016

B
ài này mình xin được giới thiệu tới bạn đọc về cuốn sách hay về phân tích thống kê trong nghiên cứu khoa học nói chung. Tựa đề cuốn sách: “Phân tích dữ liệu với R” (1). Thực ra, cuốn sách đã được GS Nguyễn Văn Tuấn giới thiệu ở Việt Nam từ 2005 đến nay qua các workshop, bài giảng (video)... Bạn đọc quan tâm có thể tìm hiểu và học trực tiếp từ cuốn sách, video, tài liệu mà GS đã giới thiệu. Chắc rằng, không có ít bạn sẽ hỏi vậy cá nhân tôi, đã là gì?, làm được gì? mà giới thiệu cuốn sách, bài giảng của GS Tuấn đã giới thiệu cách đây cả chục năm và không ngừng được bổ sung, cập nhật những kiến thức mới về R, đặc biệt trong thời đại “big data”. Xin thưa với quý bạn đọc rằng, cá nhân cũng chưa là gì?, chưa làm được gì?, đặc biệt liên quan đến R. Tuy nhiên, ở góc độ nào đó, cá nhân tự tìm hiểu, học cách xử lý số liệu liên quan đến công việc hàng ngày nên bước đầu đã hiểu, biết cách xử lý ít nhiều liên quan đến R. Thấy, rất hay, rất hữu ích và cái quan trọng phù hợp với xu thế của cộng đồng nghiên cứu khoa học trong thế kỷ số. Thực ra, mình may mắn được tiếp cận, biết đến R rất tình cờ, trước đó mình quen sử dụng SPSS hơn. Cách đây hơn 1 năm mình lên mạng thấy nhiều thông tin về R từ các bài giảng video của GS Tuấn, từ đó mình chủ động tìm hiểu và ngày càng thích, “” nó. Mê luôn cả con người và “nhân cách” GS Tuấn. Khi đó mình đặt liền một lúc mấy cuốn sách của GS từ Nxb Tổng hợp TP HCM, trong đó có cuốn "Phân tích dữ liệu với R". Từ khi bắt đầu tải R, cài đặt và tập tành, sau một thời gian cũng thấy khả năng làm quen, xử lý số liệu với R được cải thiện ít nhiều, đặc biệt tạo nên những biểu đồ đẹp, sinh động, khoa học mà từ đó mình cũng mạnh dạn đăng các bài báo khoa học chuyên ngành (tạp chí nước nhà thôi).


“Phân tích dữ liệu bằng các phương pháp thống kê học là một kĩ năng rất cần thiết cho tất cả các lĩnh vực khoa học và xã hội. Phân tích dữ liệu là một quy trình khám phá trong khoa học. Trong thời đại “big data” phân tích dữ liệu đang dần trở thành một khoa học: khoa học dữ liệu hay data science. Đây là một khoa học mới và đầy hào hứng mà các bạn có thể “dấn thân”. Do đó, dù muốn hay không thì tất cả các nhà chuyên môn, nhà khoa học cần phải làm quen hay ít ra là có kiến thức về phương pháp và mô hình phân tích dữ liệu” - Trích bìa cuốn sách (1).

Nói về những lý do để học R thì cộng đồng nghiên cứu khoa học, đặc biệt những GS đầu ngành ở nhiều lĩnh vực như GS Tuấn (y khoa), Bs Trần Quý Phi (y khoa)... đã đưa ra rất nhiều. GS là con người với “nhân cách lớn” luôn trăn trở với nền giáo dục, khoa học của nước nhà. Dưới đây, mình cóp nhặt vài lý do mà GS Tuấn, Bs Trần Quý Phi đưa ra. Tại sao nên học R? để mọi người tham khảo.

  • Thứ nhất, nó miễn phí, chứ không tốn tiền như Stata và SPSS (mà phần lớn bạn ở VN dùng là lậu, bất hợp pháp);
  • Thứ hai, R được thiết kế bởi giới làm về khoa học thống kê, và những phương pháp phân tích hiện đại nhất, mới nhất đều được triển khai trong R trước. Điều đó có nghĩa là chúng ta sẽ làm chủ phương pháp sớm nhất và do đó nghiên cứu có cái “mới” sớm nhất;
  • Thứ ba, R là ngôn ngữ chính cho Dữ liệu lớn (Big Data), còn các software khác như Stata và SPSS thì chỉ dùng cho những nghiên cứu tầm nhỏ và trung mà thôi. Vì thế, học R các bạn sẽ tiếp cận và cập nhất hóa với khoa học “nóng” như Big Data rất nhanh;
  • Thứ tư, biểu đồ trong R có phẩm chất tốt hơn hẳn các software thông thường khác như SPSS và Stata;
  • Thứ năm, R còn hơn cả miễn phí, nó là một phần mềm open sorce, mã nguồn mở. Nghĩa là mọi người đều có thể xem, sửa mã nguồn. Cũng vì là mã nguồn mở cho cộng đồng người dùng, đặc biệt là những chuyên gia dễ dàng góp ý và hiệu chỉnh. Thực tế, trước khi một tính năng, đặc biệt là các package chuyên biệt được phát hành (release) nó sẽ được kiểm tra và rà soát kỹ càng nên không hề có chuyện sai lầm trong phương pháp và tính toán;
  • Thứ sáu, mặt khác R được thiết kế theo dạng các package. Ở một số phần mềm khác gọi là module như SPSS. Nhưng các package của R được xây dựng và phát hành rất nhanh, đáp ứng với sự phát triển của các thành tựu lý thuyết. Nhà nghiên cứu lý thuyết có một con đường nhanh nhất để thử nghiệm và cho mọi người áp dụng là xây dựng package trong R. Đó cũng là một lý do mà R phát triển nhanh chóng trong giới nghiên cứu, chứ không đơn thuần là do nói miễn phí;
  • Thứ bảy, R khó dùng với người mới bắt đầu là điều ai cũng phải công nhận. Nhưng thật ra do ngại ngay từ đầu và không dùng thường xuyên nên cảm tưởng ấy ngày càng nặng. Với R, người dùng sẽ hiểu dữ liệu hơn, hiểu cách mình tiến hành phân tích hơn. Nói chung, R không dành cho những người... dễ dãi;
  • ...
Trên đây mà một vài lý do trong vô vàn lý do tại sao nên học R mà mình cóp nhặt từ GS Tuấn, Bs Trần Quý Phi. Với bản thân, mình chẳng dám “múa rìu qua mắt thợ”. Bởi những gì cần nói thì những người đi trước như GS Tuấn đã giải đáp mọi thắc mắc rồi. Mình là người đi sau, mới được tiếp cận, đang trong quá trình tìm hiểu nên muốn cóp nhặt các ý kiến để học hỏi, và cũng muốn lưu lại để tham khảo. Ở góc độ cá nhân, có bắt tay vào tìm hiểu, tập tành, xử lý, vẽ biểu đồ... cho ra thành quả mới thấy cái hay, cái hữu ích của R mang lại. Khi đó cảm xúc thật khó diễn tả được, đặc biệt góp phần làm tăng giá trị hàm lượng khoa học của các báo cáo, bài báo, bài tham luận hội thảo... mà cá nhân đã trải qua. Sẽ là phiến diện cho những nhận định của bản thân. Vì vậy, nếu ai đã, đang và sẽ tìm hiểu, sử dụng R trong xử lý số liệu mới tự cảm nhận được những gì hữu ích mà R mang lại. Khi đó ở góc độ mỗi cá nhân sẽ là trải nghiệm với R, mà không hẳn ai cũng có trải nghiệm giống ai. Hơn nữa, nếu ai đang dùng quen SPSS hay IRRISTAT... khi chuyển sang R sẽ thấy sự khác biệt trong các thông số thống kê phân tích, các mô hình hồi quy, các hình vẽ, biểu đồ sẽ thấy "không thể khoa học" hơn. Vì vậy, mỗi chúng ta hãy tự cảm nhận sự khác biệt giữa R với các phần mềm xử lý thông kê thông thường. Đó là những trải nghiệm thú vị, hữu ích, đặc biệt cho những ai theo đuổi con đường nghiên cứu khoa học chính nghĩa. Hãy bắt đầu trải nghiệm cùng R mọi người nhé.


Tuy nhiên, như Bs Trần Quý Phi có nói “R không dành cho những người... dễ dãi”. Đủ biết, bạn phải dành thời gian, kiên trì và đặc biệt thường xuyên sử dụng R như thế nào. Ở góc độ cá nhân, từ khi tiếp cận, tìm hiểu, tập tành xử lý, vẽ được cái biểu đồ nhìn chung tương đối đẹp cũng mất không ít thời gian (ai có bắt tay vào tìm hiểu, xử lý mới biết mất thời gian, thậm chí là "cực" như thế nào). Khi đăng bài báo khoa học, hay thi thoảng sau mỗi thành quả mình hay post giới thiệu trên facebook mọi người nhìn thấy đẹp, bảo mình giới thiệu. Mình sẵn sàng chia sẻ mọi thứ, những gì mình đã tìm hiểu, tập tành xử lý liên quan đến R, từ tài liệu (sách về R của GS Tuấn, bản pdf trên mạng), các bài giảng (video)... Mình coppy hết những gì mình có, kể cả những code sau mỗi lần mình tập xử lý và có thành quả là các hình vẽ, biểu đồ. Có nhiều trường hợp, các bạn nhờ mình xử lý, vẽ biểu đồ giúp để phục vụ cho báo cáo nghiên cứu mà bạn đang phụ trách. Nhưng, dường như mọi người không có thời gian cũng như chưa đủ kiên nhẫn để tìm hiểu, học cách xử lý số liệu bằng R.


Bản thân mình cũng đang trong quá trình tìm hiểu, tập tành thôi, gọi là biết chút ít (cũng đủ để xử lý những gì liên quan đến đề tài nghiên cứu thông thường), nên mong muốn được chia sẻ tới ai đó quan tâm, ĐỂ cùng tìm hiểu, tập tành và cùng chia sẻ những mẹo hay trong R. Chứ không dám “khoe” cái gì cả, càng không dám "thể hiện" một chút gì (bởi mình không có thói quen như vậy). Cũng không dám “lên lớp” ai về vấn đề gì, dù là nhỏ nhoi nhất. Tuy nhiên, mình cũng xác định ngay từ đầu. Không hẳn sợ "gạch đá" mà làm mất đi cái niềm vui khi làm quen với R, và để có thể tiến bộ hơn thì việc học hỏi, rút kinh nghiệm từ gạch đá sẽ là rất hữu ích đối với bản thân.

 ====================================================================== 
(1) Nguyễn Văn Tuấn (2014). Phân tích dữ liệu với R. Nxb Tổng hợp TP HCM.

0 comments:

chủ đề

Ăn của rừng bài báo khoa học bản quyền bành trướng Bảo vệ cây là bảo vệ chính mình biến đổi khí hậu Biển Đông Biết sai vẫn cứ làm biểu đồ biểu đồ hộp biểu đồ sai số chuẩn Biểu đồ tương quan Biểu đồ với nhãn bon-sai boxplot buoc-dau-nghien-cuu-khoa-hoc but-ky-doi-toi Cái tài Cái tâm Cái tầm canh tác đất dốc Cây xanh đô thị Cha chung không ai khóc cha nào con nấy Chân thiện mỹ chân trong chân ngoài chạy chức chạy quyền Che chở Chết toàn tập chọn cách ta sống chữ tín chuyện giờ mới kể có vấn đề Cơm áo gạo tiền Con cháu các cụ con người biến thái Con ông cháu cha công nghệ 4.0 correlation matrix corrgram corrplot Cứ đi rồi sẽ tới cuộc cách mạng 4.0 Đam mê đàn gảy tai trâu danh dự danh xưng phù phiếm Đạo đức sống đào tạo sau đại học Đạo văn Đấu tranh sinh tồn day-do Đẹp trong tâm hồn Đi tắt đón đầu dở khóc dở cười đọc nghe nhìn và cảm nhận Dồn điền đổi thửa Động lực dựa vào nhau mà sống error bar plot GGalyy ggcorplot ggExtra ggiraph ggplot2 ggrepel ggthemes Giáng sinh Giáo dục giàu nghèo giục tốc bất đạt Góc quê gridExtra Hài lòng Hai mặt một lời hãy là chính mình hãy sống có trách nhiệm hơn hèn nhát Hiệu sau ứng bão hiệu ứng domino formosa Hiệu ứng sau bão Hòa cả làng học giả bằng thật hoc-lam-tho hoc-r-moi-ngay Ích kỷ KH&CN khả năng Khoán chi Không lối thoát Kiểm định thống kê kỹ năng mềm Kỷ niệm vùng miền Label lan rừng Lão Hạc thế kỷ 21 Liêm chính lính đánh thuê Lợi dụng lợi ích nhóm lừa trên gạt dưới lười suy nghĩ Lương thiện giả vờ Lương y Ma trận tương quan Mẹ Miền cát trắng miền đất hứa Mộc Châu món ăn địa phương Mùa gặt Mục đích sống Mường La Nghịch lý chất lượng - số lượng Nghiên cứu khoa học Ngồi chơi xơi nước Nhân cách nhu cầu Những cung đường tôi đã qua NN&PTNT phân cấp sinh trưởng phân tích hậu định phan-bien-xa-hoi plot3D psych Quán Nha R Rừng ngập mặn rước hổ về nhà rvg sach-hay SARS-CoV-2 sau-luy-tre-lang sciplot Số cây Số liệu trống không Sông Châu sống chết mặc ai sức ỳ sức ỳ bản thân suy thoái Tầm lùn tâm sự tâm sự buồn thảm họa formosa thảm họa môi trường tham nhũng Thân cô thế cô thắng cố ngựa Thăng trầm Thấy vậy mà không phải vậy Thế cây Thế cây cổ Thế cây thế người Thông điệp cuộc đời Thống kê mô tả Thông tư Thước đo lòng người Thủy điện Tiên trách kỷ hậu trách nhân Tình bạn cao đẹp Tình người Tố chất làm khoa học tội đếch gì mà phải ghét ai Tôi sợ giầu lắm track changes Trải nghiệm tre già măng mọc trở mặt Trung thực tư duy Tự sự Tư tưởng thụt lùi tuy duy nhiệm kỳ Ứng dụng R trong lâm nghiệp Văn hóa cảm ơn Văn hóa giao thông văn hóa ngầm Văn hóa xin lỗi Xấu khen đẹp chê Xỏ nhầm giầy xoay đầu đổi đít Ý tưởng

bài đã đăng

Powered by Blogger.

Disqus Shortname

Widget Recent Post No.

Widget Random Post No.

Widget Recent Comment No.

PageNavi Results No.

Labels Max-Results No.

Comments system

Contact Form

Name

Email *

Message *

bài đăng phổ biến

số lượt ghé qua trang blog

Bài đăng nổi bật

Thế cây thế người

T hế trong CÂY CẢNH thể hiện các chi tiết về CẤU TRÚC ở mọi phương diện, đa góc nhìn (trên dưới trái phải ngang dọc), trong đ...

Bài đăng phổ biến

bài xem nhiều nhất