Menjelajahi Regresi Linier dalam Statistika: Memahami Hubungan Antar Variabel

Dipublikasikan oleh Muhammad Ilham Maulana

01 April 2024, 08.44

Sumber: Gambar: Caraguna

Dalam statistik, regresi linear adalah model statistik yang memperkirakan hubungan linear antara respons skalar dan satu atau lebih variabel penjelas (juga dikenal sebagai variabel terikat dan independen). Kasus satu variabel penjelas disebut regresi linear sederhana; untuk lebih dari satu, prosesnya disebut regresi linear berganda. Istilah ini berbeda dari regresi linear multivariat, di mana beberapa variabel terikat yang berkorelasi diprediksi, bukan hanya satu variabel skalar. Jika variabel penjelas diukur dengan kesalahan, maka diperlukan model kesalahan dalam variabel, juga dikenal sebagai model kesalahan pengukuran.

Dalam regresi linear, hubungan dimodelkan menggunakan fungsi prediktor linear yang parameter modelnya tidak diketahui dan diestimasi dari data. Model-model seperti itu disebut model linear. Paling umum, rata-rata bersyarat respons yang diberikan nilai variabel penjelas (atau prediktor) diasumsikan sebagai fungsi afinitas dari nilai-nilai tersebut; kurang umum, median bersyarat atau beberapa kuantil lainnya digunakan. Seperti semua bentuk analisis regresi, regresi linear berfokus pada distribusi probabilitas bersyarat respons yang diberikan nilai-nilai prediktor, bukan pada distribusi probabilitas bersama dari semua variabel ini, yang merupakan domain analisis multivariat.

Regresi linear adalah jenis analisis regresi pertama yang dipelajari secara ketat dan digunakan secara luas dalam aplikasi praktis. Ini karena model yang bergantung secara linear pada parameter yang tidak diketahui lebih mudah disesuaikan daripada model yang berkaitan secara non-linear dengan parameter mereka dan karena properti statistik estimator yang dihasilkan lebih mudah ditentukan.

Regresi linear memiliki banyak aplikasi praktis. Kebanyakan aplikasi dapat dikategorikan dalam salah satu dari dua kategori umum berikut:

  • Jika tujuannya adalah pengurangan kesalahan yaitu reduksi varians dalam prediksi atau peramalan, regresi linear dapat digunakan untuk memasangkan model prediktif ke suatu himpunan data yang diamati dari nilai respons dan variabel penjelas. Setelah mengembangkan model tersebut, jika nilai tambahan dari variabel penjelas dikumpulkan tanpa nilai respons yang menyertainya, model yang disesuaikan dapat digunakan untuk membuat prediksi respons.
  • Jika tujuannya adalah menjelaskan variasi dalam variabel respons yang dapat dikaitkan dengan variasi dalam variabel penjelas, analisis regresi linear dapat diterapkan untuk mengkuantifikasi kekuatan hubungan antara respons dan variabel penjelas, dan khususnya untuk menentukan apakah beberapa variabel penjelas mungkin tidak memiliki hubungan linear sama sekali dengan respons, atau untuk mengidentifikasi subset variabel penjelas yang mungkin mengandung informasi yang tidak diperlukan tentang respons.

Model-model regresi linear sering dipasangkan menggunakan pendekatan kuadrat terkecil, tetapi mereka juga dapat dipasangkan dengan cara lain, seperti dengan meminimalkan "kurang sesuaian" dalam beberapa norm lain (seperti regresi deviasi terkecil), atau dengan meminimalkan versi berpenalitas dari fungsi biaya kuadrat terkecil seperti pada regresi ridge (penalitas norma L2) dan lasso (penalitas norma L1). Penggunaan Mean Squared Error (MSE) sebagai biaya pada dataset yang memiliki banyak pencilan besar, dapat menghasilkan model yang lebih cocok dengan pencilan daripada data yang sebenarnya karena pentingnya yang lebih tinggi yang diberikan oleh MSE kepada kesalahan besar. Jadi, fungsi biaya yang tangguh terhadap pencilan harus digunakan jika dataset memiliki banyak pencilan besar. Sebaliknya, pendekatan kuadrat terkecil dapat digunakan untuk memasangkan model yang bukan model linear. Dengan demikian, meskipun istilah "kuadrat terkecil" dan "model linear" erat kaitannya, mereka tidak sinonim.

Rumus Sederhana Regresi Linier

Dalam suatu set data {\displaystyle \{y_{i},\,x_{i1},\ldots ,x_{ip}\}_{i=1}^{n}} dari n unit statistik, model regresi linear mengasumsikan bahwa hubungan antara variabel dependen y dan vektor regresor x adalah linear. Hubungan ini dimodelkan melalui istilah gangguan atau variabel error ε — sebuah variabel acak yang tidak diamati yang menambah "noise" pada hubungan linear antara variabel dependen dan regresor. Dengan demikian, model ini memiliki bentuk sebagai berikut.

{\displaystyle y_{i}=\beta _{0}+\beta _{1}x_{i1}+\cdots +\beta _{p}x_{ip}+\varepsilon _{i}=\mathbf {x} _{i}^{\mathsf {T}}{\boldsymbol {\beta }}+\varepsilon _{i},\qquad i=1,\ldots ,n,}

dimana T menunjukkan transpos, sehingga xiTβ adalah produk dalam antara vektor xi dan β.

Seringkali n persamaan ini ditumpuk dan ditulis dalam notasi matriks sebagai

{\displaystyle \mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},\,}

dimana, 

{\displaystyle \mathbf {y} ={\begin{bmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{bmatrix}},\quad }

{\displaystyle \mathbf {X} ={\begin{bmatrix}\mathbf {x} _{1}^{\mathsf {T}}\\\mathbf {x} _{2}^{\mathsf {T}}\\\vdots \\\mathbf {x} _{n}^{\mathsf {T}}\end{bmatrix}}={\begin{bmatrix}1&x_{11}&\cdots &x_{1p}\\1&x_{21}&\cdots &x_{2p}\\\vdots &\vdots &\ddots &\vdots \\1&x_{n1}&\cdots &x_{np}\end{bmatrix}},}

{\displaystyle {\boldsymbol {\beta }}={\begin{bmatrix}\beta _{0}\\\beta _{1}\\\beta _{2}\\\vdots \\\beta _{p}\end{bmatrix}},\quad {\boldsymbol {\varepsilon }}={\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{bmatrix}}.}

Notasi dan terminologi

  • {\displaystyle \mathbf {y} }adalah vektor dari nilai yang diamati{\displaystyle y_{i}\ (i=1,\ldots ,n)} of variabel yang disebut regresi, variabel endogen, variabel respons, variabel target, variabel terukur, variabel kriteria, atau variabel terikat.
  • {\displaystyle \mathbf {X} } dapat dilihat sebagai matriks vektor baris {\displaystyle \mathbf {x} _{i\cdot }} atau vektor kolom berdimensi n {\displaystyle \mathbf {x} _{\cdot j}}, yang dikenal sebagai regressor, variabel eksogen, variabel penjelas, kovariat, variabel masukan, variabel prediktor, atau variabel independen (jangan dikelirukan dengan konsep variabel acak independen).
  • {\displaystyle {\boldsymbol {\beta }}} adal ah suatu {\displaystyle (p+1)} vektor parameter dimensi, di mana 0{\displaystyle \beta _{0}}adalah suku intersep (jika ada yang disertakan dalam model—sebaliknya {\displaystyle {\boldsymbol {\beta }}}adalah dimensi p). Elemen-elemennya dikenal sebagai efek atau koefisien regresi (walaupun istilah terakhir kadang-kadang digunakan untuk memperkirakan dampak). Dalam regresi linier sederhana, p=1, dan koefisiennya dikenal sebagai kemiringan regresi. Estimasi dan inferensi statistik dalam regresi linier berfokus pada β. Elemen vektor parameter ini ditafsirkan sebagai turunan parsial variabel terikat terhadap berbagai variabel bebas.
  • {\displaystyle {\boldsymbol {\varepsilon }}} adalah vektor nilai {\displaystyle \varepsilon _{i}}. Bagian model ini disebut istilah error, istilah gangguan, atau terkadang noise (berbeda dengan "sinyal" yang diberikan oleh model lainnya). Variabel ini mencakup semua faktor lain yang mempengaruhi variabel dependen y selain regressor x. Hubungan antara error term dan regressor, misalnya korelasinya, merupakan pertimbangan penting dalam merumuskan model regresi linier, karena hal ini akan menentukan metode estimasi yang tepat.

Contoh Penggunaan

Pertimbangkan situasi di mana sebuah bola kecil dilemparkan ke udara dan kemudian kita mengukur ketinggiannya hi pada berbagai momen waktu ti. Fisika memberi tahu kita bahwa, dengan mengabaikan hambatan, hubungan tersebut dapat dimodelkan sebagai

{\displaystyle h_{i}=\beta _{1}t_{i}+\beta _{2}t_{i}^{2}+\varepsilon _{i},}

dimana β1 menentukan kecepatan awal bola, β2 sebanding dengan gravitasi standar, dan εi disebabkan oleh kesalahan pengukuran. Regresi linier dapat digunakan untuk memperkirakan nilai β1 dan β2 dari data yang diukur. Model ini non-linier pada variabel waktu, tetapi linier pada parameter β1 dan β2; jika kita mengambil regressor xi = (xi1, xi2) = (ti, ti2), modelnya mengambil bentuk standar.

{\displaystyle h_{i}=\mathbf {x} _{i}^{\mathsf {T}}{\boldsymbol {\beta }}+\varepsilon _{i}.}

  • Regresi Linear Univariate 

Dalam regresi linear univariat, hanya ada satu variabel independen yang terlibat. Karena itu, hanya ada satu variabel input X dan satu variabel output Y. Kedua variabel ini direpresentasikan sebagai sumbu X dan Y pada diagram kartesius. Dalam jenis regresi linear ini, model regresi linear dijelaskan sebagai berikut:

{\displaystyle h_{w}(x)=w_{1}x+w_{0}}

dimana {\displaystyle w}{\displaystyle w} merupakan nilai yang akan dicari sedemikian sehingga nilai {\displaystyle w}{\displaystyle w} menjadi optimal dan {\displaystyle x}{\displaystyle x} merupakan variable bebas atau input. Proses pencarian nilai {\displaystyle w}{\displaystyle w} dapat dilakukan dengan beberapa cara diantaranya dengan menggunakan pendekatan least squaremaximum likehood, atau algoritme gradient descent. Pada dasarnya, pencarian nilai {\displaystyle w}{\displaystyle w} dilakukan hingga nilai error yang dihasilkan merupakan nilai yang paling minimal. Fungsi error yang digunakan adalah sebagai berikut.

{\displaystyle E(w)={\frac {1}{2N}}\sum _{i=1}^{N}(h_{w}(x^{i})-t^{i})^{2}}

Dimana {\displaystyle N} merupakan banyaknya data input, {\displaystyle h_{w}(x^{i})} merupakan model regresi linear, dan {\displaystyle t} adalah target output yang seharusnya.

  • Regresi Linear Multivariate

Dalam regresi linear multivariat, tidak hanya ada satu variabel independen yang terlibat, tetapi beberapa variabel independen. Hal ini disebabkan oleh penggunaan input yang memiliki lebih dari satu dimensi. Oleh karena itu, diperlukan model regresi linear yang berbeda dari regresi linear univariat. Model regresi linear multivariat dapat dijelaskan sebagai berikut:

{\displaystyle h_{w}(x)=w_{0}+w_{1}x_{1}+w_{2}x_{2}+\dots +w_{m}x_{m}}

{\displaystyle h_{w}(x)=w_{0}+\sum _{i=0}^{m}w_{i}x_{i}}

Dimana {\displaystyle w} juga merupakan nilai yang akan dicari sedemikian sehingga nilai {\displaystyle w} menjadi optimal dan {\displaystyle x} merupakan variable bebas atau input. Proses pencarian nilai {\displaystyle w} juga masih dapat dilakukan dengan menggunakan cara yang sama dengan regresi linear univariate, yaitu dengan menggunakan pendekatan least squaremaximum likehood, atau algoritme gradient descent. Pada dasarnya, pencarian nilai {\displaystyle w} dilakukan hingga nilai error yang didapatkan dari fungsi error merupakan nilai yang paling minimal. Fungsi error yang digunakan masih sama dengan regresi linear univariate.


Disadur dari: id.wikipedia.org