Pendahuluan: Di Tengah Kegaduhan, Muncul Sebuah Pertanyaan Krusial
Saat ChatGPT meledak di akhir tahun 2022, dunia pendidikan tinggi dilanda gelombang kejutan yang tak terduga. Laporan-laporan yang menyebar dengan cepat tentang kemampuannya untuk lulus ujian ([1]) memicu "kegaduhan frenetik" di berbagai sektor, terutama di lingkungan universitas. Email dari para pimpinan, dekan, dan kepala sekolah mengalir deras, semuanya bertujuan untuk meningkatkan kesadaran tentang perangkat lunak tersebut dan memunculkan pertanyaan mendalam tentang keaslian asesmen serta tantangan dalam mendeteksi plagiarisme. Namun, di tengah semua kekhawatiran yang memuncak, para peneliti melihat celah besar: ada "kelangkaan penelitian yang relevan" yang tersedia, khususnya dalam bidang pendidikan teknik ([1]).
Merasa bahwa ada kebutuhan mendesak untuk mendapatkan bukti empiris, sebuah tim ahli dari tujuh universitas berbeda di Australia bersatu. Mereka tidak hanya ingin mengkonfirmasi kemampuan ChatGPT dalam mengerjakan asesmen, tetapi juga mencari tahu apakah teknologi ini bisa digunakan untuk memfasilitasi pembelajaran, alih-alih sekadar menjadi alat kecurangan ([1]). Kegaduhan di dunia akademik yang terjadi saat itu bukanlah sekadar reaksi sesaat, melainkan mencerminkan ketidakpastian mendalam yang berakar pada keterbatasan infrastruktur pendidikan yang sudah usang. Metode asesmen, yang sering kali tidak berubah selama beberapa dekade, tiba-tiba menjadi sangat rentan. Penelitian ini hadir sebagai mercusuar, menawarkan data empiris pertama yang sangat dibutuhkan untuk menavigasi krisis ini, mengubah ketidakpastian menjadi wawasan yang terukur tentang potensi teknologi dan cara kita harus meresponsnya.
Bagian 1: Di Balik Laboratorium Pendidikan: Bagaimana Para Ahli Menguji Kekuatan AI?
Untuk mendapatkan pemahaman yang mendalam tentang dampak ChatGPT, para peneliti memutuskan untuk tidak hanya mengamati teknologi dari jauh. Mereka "memasuki" sistem itu dan melakukan simulasi nyata. Dengan menyatukan para ahli dari berbagai latar belakang teknik yang berbeda, mereka secara kolektif menguji respons ChatGPT terhadap soal-soal asesmen yang ada dari sepuluh mata kuliah berbeda di tujuh universitas Australia ([1]). Metodologi ini menunjukkan pergeseran paradigma, di mana para peneliti secara langsung memanipulasi parameter internal sistem.
Prosesnya sangat terstruktur. Para peneliti berperan sebagai mahasiswa, mengambil setiap tugas asesmen yang ada dan mengujinya dengan ChatGPT. Tujuannya adalah untuk melihat seberapa besar kemungkinan seorang mahasiswa dapat menggunakan AI ini untuk mendapatkan nilai kelulusan ([1]). Mereka tidak hanya mengandalkan pertanyaan apa adanya, tetapi juga bereksperimen dengan "prompt engineering," sebuah istilah baru yang menggambarkan seni memodifikasi perintah masukan untuk menghasilkan keluaran yang lebih baik dan lebih relevan. Teknik ini mencakup pemberian instruksi, konteks, data masukan, dan indikator keluaran yang lebih terperinci ([1]). Para peneliti meniru bagaimana seorang siswa yang cerdas akan mencoba-coba hingga menemukan cara terbaik untuk mendapatkan jawaban yang dapat diterima.
Analisis dari pendekatan ini mengungkapkan implikasi yang lebih luas. Fakta bahwa para peneliti harus menggunakan teknik prompt engineering untuk mendapatkan hasil yang lebih baik menunjukkan sebuah tren penting: di masa depan, keterampilan menggunakan AI (literasi AI) akan sama pentingnya dengan literasi digital dasar. Hal ini menimbulkan pertanyaan tentang bagaimana kurikulum harus beradaptasi untuk mengajarkan siswa agar menjadi "insinyur prompt" yang efektif, bukan hanya pengguna pasif. Studi ini secara eksplisit bertujuan untuk menetapkan tolok ukur kinerja ChatGPT per awal tahun 2023, yang akan menjadi data berharga untuk perbandingan di masa mendatang seiring kemajuan teknologi ([1]).
Bagian 2: Paradoks Kelulusan: Ketika AI Sukses di Beberapa Area dan Gagal Total di Lainnya
Temuan penelitian ini penuh kejutan. ChatGPT terbukti bisa 'lulus' di beberapa mata kuliah (tiga dari sepuluh, dengan lima mata kuliah gagal dan dua lainnya abu-abu) dan 'unggul' dalam beberapa jenis asesmen. Namun, di balik keberhasilan itu, ada kegagalan-kegagalan yang mencengangkan, terutama di area yang paling tidak diharapkan.
A. Keberhasilan yang Menghantui: Ketika ChatGPT Lulus Ujian
Analisis yang mendalam mengungkap jenis asesmen yang paling rentan terhadap kecerdasan buatan.
- Pemrograman: Dalam mata kuliah pemrograman dasar, ChatGPT menunjukkan performa yang luar biasa. Ia berhasil menjawab sebagian besar kuis daring dan menghasilkan kode yang benar untuk tugas-tugas sederhana. Dalam satu mata kuliah, ia mencapai nilai 68.2%, sebuah nilai kredit yang nyaman ([1]). Keberhasilan ini menunjukkan bahwa AI sangat mahir dalam menerjemahkan instruksi verbal ke dalam sintaks kode dan bahkan memberikan penjelasan yang baik untuk mendukung pemahaman kode yang dihasilkan. Hal ini bukan hanya tentang kemampuan AI, tetapi juga menyoroti bahwa kurikulum pemrograman tradisional, yang sering berfokus pada soal-soal sederhana, sangat rentan terhadap otomatisasi. Mungkin sudah saatnya untuk beralih mengajarkan "pemikiran komputasional" tingkat tinggi daripada sekadar sintaks dasar, seperti yang disarankan oleh studi ([1]).
- Kuis Daring: Secara umum, kuis daring adalah jenis asesmen yang paling rentan. ChatGPT berhasil menjawab sebagian besar pertanyaan di semua kuis yang diujikan ([1]). Bahkan dengan teknik "lama" untuk mencegah kecurangan, seperti mengacak variabel atau membatasi waktu, ChatGPT tidak menemui kendala berarti. Kecepatan dan kemampuannya untuk memproses teks membuat batasan waktu menjadi tidak relevan. Temuan ini sangat penting karena menunjukkan bahwa asesmen yang mengandalkan format kuis daring dengan bobot tinggi memiliki risiko integritas yang substansial, dan perlu dipertimbangkan kembali ([1]).
B. Kegagalan yang Mencengangkan: Keterbatasan Kritis AI
Meskipun sukses dalam beberapa area, ChatGPT menunjukkan kelemahan mendalam yang mengejutkan para peneliti, khususnya dalam tugas-tugas yang membutuhkan pemahaman yang lebih dalam dan aplikasi dunia nyata.
- Matematika dan Fisika: Paradoks terbesar ada di sini. Meskipun ChatGPT memiliki kemampuan bahasa yang canggih, ia sering kali gagal dalam soal matematika dan fisika. Dalam salah satu ujian, ia hanya mampu mencapai nilai 36%—sebuah kegagalan yang telak ([1]). Analisis mendalam menunjukkan AI ini bisa memberikan instruksi yang sangat baik tentang cara menyelesaikan masalah, tetapi sering membuat kesalahan dalam perhitungan aljabar dan aritmatika ([1]). Kelemahannya yang tidak dapat diandalkan dalam matematika, bahkan sering memberikan jawaban yang berbeda setiap kali pertanyaan yang sama diulang, adalah celah terbesar dalam integritasnya saat ini. Ini memberi kita ruang untuk berinovasi pada asesmen yang menekankan aplikasi matematis praktis dan pemikiran kritis, di mana siswa harus menunjukkan pemahaman konsep, bukan hanya sekadar salin-tempel jawaban. Tabel yang disediakan dalam laporan ini dengan jelas menunjukkan perbedaan antara soal yang mudah diatasi oleh ChatGPT dan soal yang membutuhkan lebih dari sekadar pemahaman tekstual. Contohnya, soal matematika yang disajikan memerlukan pemahaman mendalam pada notasi matriks dan aljabar ([1]).
- Tugas Berbasis Realita: ChatGPT gagal total dalam asesmen yang membutuhkan interaksi fisik atau pemahaman kontekstual dunia nyata. Ini termasuk tugas laboratorium, presentasi lisan, atau proyek yang membutuhkan analisis data dari gambar dan tabel ([1]). ChatGPT tidak dapat melakukan eksperimen di lab, dan meskipun ia bisa membantu menulis laporan, hasilnya sering kali generik dan tidak mencakup data spesifik dari eksperimen ([1]). Untuk tugas seperti membuat mind map atau merancang situs web, AI ini juga tidak mampu menghasilkan keluaran visual yang dibutuhkan, meskipun ada alat AI lain yang bisa melakukannya ([1]).
- "Halusinasi" Referensi: Salah satu temuan yang paling mengkhawatirkan adalah kecenderungan ChatGPT untuk mengarang referensi. Dalam tugas berbasis penelitian, ia menciptakan judul, nama penulis, bahkan nomor DOI yang tidak ada ([1]). Hal ini menjadi kelemahan fatal yang membuat AI ini tidak dapat diandalkan sebagai sumber ilmiah dan menjadi celah integritas terbesar. Temuan ini sangat penting, karena menunjukkan bahwa meskipun kemampuan bahasa AI sangat canggih, ia tidak memiliki pemahaman yang mendalam tentang kebenaran informasi. Ini menyoroti bahwa AI saat ini tidak dapat menggantikan proses penelitian yang teliti dan verifikasi informasi.
Bagian 3: Mengapa Temuan Ini Bisa Mengubah Dunia Pendidikan?
Temuan ini penting hari ini bukan hanya karena mengungkap kelemahan AI, tetapi karena ia menjadi "titik acuan" (benchmark) yang krusial untuk mengukur kemajuan teknologi yang terus melaju ([1]). Ini adalah cetak biru untuk masa depan, memberikan peta jalan bagi para pendidik, pemimpin universitas, dan bahkan dunia industri ([1]).
Ancaman ChatGPT bukan hanya pada kecurangan individual, tetapi pada seluruh sistem pendidikan yang dibangun di atas metode asesmen yang sudah usang. Keberhasilan ChatGPT dalam kuis daring dan soal hitungan sederhana membuktikan bahwa asesmen ini tidak lagi mengukur pemahaman, tetapi hanya kemampuan untuk mencari jawaban. Jika asesmen yang berisiko tinggi terus digunakan, ini akan menyebabkan penurunan nilai otentisitas ijazah dan kredibilitas profesional di masa depan ([1]). Ancaman ini memaksa kita untuk merenung dan berinovasi. Seperti yang disarankan oleh studi ([1]), ini adalah kesempatan untuk:
- Menjadikan AI sebagai Alat Pembelajaran: Alih-alih melarangnya, kita bisa mengajarkan siswa untuk menggunakan ChatGPT sebagai "tutor pribadi" yang selalu tersedia, membantu mereka memahami konsep sulit dan menyusun ide. Studi ini menemukan bahwa ChatGPT sangat baik dalam memberikan penjelasan dan instruksi, yang dapat dimanfaatkan untuk membalikkan model pembelajaran ([1]). Siswa dapat diminta untuk memecahkan masalah dengan bantuan ChatGPT dan kemudian menganalisis outputnya untuk memahami kesalahan atau kekurangannya.
- Merancang Ulang Asesmen: Pindah dari kuis daring berisiko tinggi ke asesmen yang tahan-AI, seperti presentasi lisan, wawancara, proyek desain, dan, yang paling penting, pekerjaan laboratorium. Ini adalah jenis asesmen yang menuntut kehadiran fisik, pemikiran kritis, dan kreativitas unik yang tidak dapat direplikasi oleh AI ([1]).
- Membentuk Kurikulum Baru: Mengintegrasikan etika dan literasi AI ke dalam kurikulum. Para peneliti menegaskan bahwa kita harus mengajarkan mahasiswa "bagaimana menggunakan AI secara etis dan aman," karena teknologi ini akan menjadi bagian tak terpisahkan dari dunia profesional mereka ([1]). Sama seperti siswa perlu memahami cara berkolaborasi secara daring, mereka juga perlu memahami AI dan cara memanfaatkannya sebagai bagian dari alur kerja mereka ([1]).
Bagian 4: Menutup Celah Integritas: Rekomendasi Nyata dan Dampak Masa Depan
Penelitian ini bukanlah akhir dari cerita, melainkan awal dari babak baru. Para peneliti bahkan mencatat keterbatasan studi ini, yaitu fakta bahwa AI berkembang begitu cepat ([1]). Rilis GPT-4, yang terjadi hanya beberapa hari sebelum studi diserahkan, telah mengubah permainan. GPT-4, dengan plugin seperti Wolfram Alpha, diklaim dapat mengatasi kelemahan matematika yang ditemukan dalam studi ini, menjadikannya "pengubah permainan" untuk asesmen numerik ([1]). Hal ini menunjukkan bahwa bergantung pada kelemahan teknologi saat ini adalah strategi jangka pendek yang sangat berisiko.
Jika diterapkan, temuan ini bisa mengurangi biaya operasional dalam pengawasan ujian dan meningkatkan kualitas pembelajaran dalam waktu lima tahun. Fokus akan bergeser dari "pengawasan" menjadi "pembinaan," di mana para dosen dapat menggunakan waktu berharga mereka untuk memfasilitasi pembelajaran yang lebih dalam, alih-alih mengkhawatirkan kecurangan.
Rekomendasi Utama dan Dampak Masa Depan:
Berdasarkan analisis yang ekstensif, studi ini menyajikan beberapa rekomendasi utama untuk para pendidik dan institusi pendidikan ([1]):
- Hentikan Kuis dan Ujian Daring Berisiko: Hentikan penggunaan kuis daring atau ujian dengan bobot penilaian tinggi yang dapat dengan mudah dijawab oleh ChatGPT. Sebaliknya, gunakan kuis daring sebagai alat formatif tanpa nilai yang hanya digunakan untuk memastikan pemahaman siswa terhadap konsep dasar dan sebagai prasyarat untuk membuka materi selanjutnya.
- Manfaatkan Laboratorium dan Proyek: Jadikan asesmen berbasis proyek dan laboratorium sebagai tulang punggung kurikulum. Asesmen ini mengharuskan siswa untuk melakukan pekerjaan fisik dan analitis yang unik, yang tidak dapat direplikasi oleh AI. Selain itu, pastikan laporan laboratorium tidak menjadi satu-satunya bentuk penilaian, karena laporan dapat dengan mudah dibantu oleh ChatGPT ([1]). Gunakan metode penilaian lain seperti observasi langsung, presentasi, atau wawancara lisan.
- Kembalikan Wawancara dan Presentasi Lisan: Asesmen ini menuntut interaksi manusia yang autentik. Meskipun ChatGPT dapat membantu menyusun naskah pidato, wawancara lisan dan diskusi di kelas menuntut pemahaman mendalam yang tidak dapat dipalsukan ([1]).
- Ajak Mahasiswa Berkolaborasi dengan AI: Alih-alih melarangnya, ajarkan mereka cara menggunakan AI sebagai alat untuk riset, pengeditan, dan ide-ide, sambil tetap menekankan pentingnya verifikasi dan kritik. Dengan melatih siswa untuk menggunakan AI secara strategis, mereka akan lebih siap untuk masa depan profesional yang akan didominasi oleh kecerdasan buatan.
Pada akhirnya, studi ini menegaskan bahwa kita tidak bisa bersembunyi dari revolusi AI. Kita harus merangkulnya. Tantangannya bukan lagi bagaimana kita mencegah siswa berinteraksi dengan AI, tetapi bagaimana kita mengajari mereka untuk menggunakan alat yang sangat kuat ini secara etis dan profesional, sehingga mereka tidak hanya lulus ujian, tetapi juga siap untuk masa depan yang akan didominasi oleh kecerdasan buatan.
Sumber Artikel:
Nikolic, S., Daniel, S., Haque, R., Belkina, M., Hassan, G. M., Grundy, S., ... & Sandison, C. (2023). ChatGPT versus engineering education assessment: a multidisciplinary and multi-institutional benchmarking and analysis of this generative artificial intelligence tool to investigate assessment integrity. European Journal of Engineering Education, 48(4), 559-614.