Ở
|
bài trước mình có sử dụng các gói GGally,
ggcorplot, corrplot, corrgram... trong R để biểu thị các mối tương quan giữa từng
cặp biến (biến liên tục) của cây Keo tai tượng trong ma trận tương quan. Ma trận tương quan nhằm thể hiện những
ước lượng mức độ liên hệ (tương quan) giữa các biến độc lập với các biến phụ
thuộc, hoặc ảnh hưởng của các biến độc lập với nhau (các yếu tố ảnh hưởng).
Trong phạm vi bài viết, mình chỉ đề cập đến việc sử dụng packages GGally và
corrplot để vẽ biểu đồ ma trận tương quan với các cách thể hiện khác nhau, từ việc dùng thang màu sắc với các khoảng màu đậm nhạt khác nhau (mức phân
chia mau hơn hoặc thưa hơn); hoặc thay đổi gradient màu sắc từ thấp, trung bình
đến cao; đến việc thể hiện mức độ tương quan với độ to nhỏ của vòng tròn và màu
sắc tương ứng... Hãy cùng thử nghiệm để thấy sự khác biệt trong thể hiện ma trận
tương quan giữa các biến liên tục của đối tượng nghiên cứu. Ví dụ dưới đây:
> library(GGally)
# data
(rt2n)
# Mặc định
trong R
>
x1=ggcorr(rt2n)
Theo mặc định
trong R, ggcorr sử dụng một thang màu liên lục, từ - 1 đến + 1 (với các khoảng
cách đều nhau ( ± 0,5) nhằm thể hiện mức tương quan từ rời rạc (không có mối
tương quan) đến rất chặt giữa từng cặp biến trong ma trận tương quan. Tuy
nhiên, để phân chia thang màu liên tục từ - 1 đến + 1 với các khoảng cách đều
nhau không phải là ± 0,5 như mặc định,
chúng ta có thể phân chia thang màu với mức độ phân chia mau hơn hoặc thưa hơn
với nbreaks = ... Bạn có thể thay nbreaks bằng các số tự nhiên khác để thấy sự
khác biệt về thang phân chia màu sắc nhằm thể hiện các mối tương quan theo cặp
trong ma trận tương quan.
# với
nbreaks = 5
>
x2=ggcorr(rt2n, nbreaks=5)
# với
nbreaks = 10
>
x3=ggcorr(rt2n, nbreaks=10)
#Ngoài ra,
bạn có thể thay đổi gradient màu sắc từ thấp, trung bình và cao theo ý muốn.
>
x4=ggcorr(rt2n, low="#e7e1ef", mid="#c994c7",
high="#dd1c77", nbreaks=10)
>
x5=ggcorr(rt2n, low="#f7fcb9", mid="#addd8e",
high="#31a354", nbreaks=7)
# Thay vì
thể hiện ma trận tương quan bằng hình vuông như mặc định, chúng ta có thể thể
hiện mức độ tương quan tương ứng với độ to nhỏ của vòng tròn và màu sắc tương ứng.
Cụ thể như sau:
> x6=
ggcorr(rt2n, geom="circle", nbreaks=7, low="#edf8b1",
mid="#7fcdbb", high="#2c7fb8")
# Ngoài
dùng thang màu sắc để thể hiện mức độ tương quan giữa các cặp biến trong ma trận
tương quan, chúng ta có thể thể hiện hệ số tương quan cùng màu sắc trong ma trận
tương quan.
> x7=
ggcorr(rt2n, label=TRUE)
> x8=
ggcorr(rt2n, nbreaks=7, palette="RdGy", label=TRUE, label_size=3,
label_color="white")
>
x9=ggcorr(rt2n, nbreaks=9, drop=TRUE)
>
x10=ggcorr(rt2n, geom="blank", label=TRUE, hjust=0.75) +
geom_point(size=10, aes(color=coefficient>0, alpha=abs(coefficient)>0.5))+
scale_alpha_manual(values=c("TRUE"=0.25, "FALSE"=0))+
guides(color=FALSE, alpha=FALSE)
# Sử dụng package (corrplot) để thể hiện các đặc tính tương quan trong ma trận tương quan.
>
library(corrplot)
>
M=cor(rt2n)
>
x11=corrplot(M, type="lower", method="pie",
addCoef.col="black", tl.col="black", tl.srt=45)
# Diễn giải kết quả
Từ đây bạn có thể lựa chọn các hình nào ưng ý để báo cáo, thậm chí đăng bài báo khoa học. Từ hình trên ta có thể so hàng ngang hàng dọc giữa từng cặp biến để biết hệ số tương quan. Màu sắc đậm nhạt hoặc biểu tượng kim đồng hồ (hình trên) chiếm càng nhiều thì mức độ tương quan các chặt và ngược lại.
0 comments:
Post a Comment