Raw Data sebagai Fondasi Akuntabilitas dan Integritas Riset: Menimbang Pendekatan Konvensional dan Era Kecerdasan Buatan

Raw Data sebagai Fondasi Akuntabilitas dan Integritas Riset: Menimbang Pendekatan Konvensional dan Era Kecerdasan Buatan

Oleh: Asep Rohmandar
Masyarakat Peneliti Mandiri Sunda Nusantara (MPMSN) 


Abstrak

Data mentah (raw data) merupakan fondasi fundamental dari seluruh bangunan ilmu pengetahuan. Dalam ekosistem riset, raw data berfungsi sebagai lapisan verifikasi (verification layer) yang memungkinkan peneliti lain untuk memeriksa, mereplikasi, dan memvalidasi temuan ilmiah. Namun, lanskap pengelolaan data penelitian tengah mengalami transformasi radikal seiring dengan menjamurnya penggunaan kecerdasan buatan (AI) dalam berbagai tahapan riset—mulai dari pengumpulan data, analisis, hingga manipulasi dan bahkan fabrikasi data. Esai ini mengupas secara komprehensif peran raw data sebagai instrumen akuntabilitas dan integritas riset, dengan membandingkan pendekatan pengelolaan raw data konvensional dengan tantangan dan peluang yang dihadirkan oleh raw data berbasis AI. Berdasarkan berbagai sumber terpercaya, esai ini berargumen bahwa meskipun AI menawarkan percepatan luar biasa dalam penemuan ilmiah, ia juga menghadirkan ancaman eksistensial terhadap integritas catatan ilmiah (scientific record)—ancaman yang hanya dapat diatasi melalui penguatan budaya keterbukaan data, penerapan prinsip FAIR (Findable, Accessible, Interoperable, Reusable), serta pengembangan kerangka tata kelola data yang adaptif dan berlandaskan akuntabilitas.


BAB I: PENDAHULUAN

1.1 Raw Data sebagai Landasan Ilmu Pengetahuan

Dalam filsafat sains, data mentah menempati posisi yang unik. Ia adalah titik temu antara realitas empiris dan konstruksi teoretis—jembatan antara dunia fenomenal yang kita amati dan dunia ideasional yang kita bangun untuk memahaminya. Tanpa akses terhadap raw data, klaim ilmiah kehilangan sauh empirisnya dan berubah menjadi sekadar opini yang tidak dapat diverifikasi.

Seperti yang diungkapkan oleh kimiawan Jean-Claude Bradley, pelopor gerakan Open Notebook Science: "Everybody makes mistakes. And if you don't expose your raw data, nobody will find your mistakes". Pernyataan ini menangkap esensi dari pentingnya raw data dalam menjaga akuntabilitas ilmiah: kesalahan adalah bagian tak terhindarkan dari proses penelitian, namun kesalahan hanya dapat diperbaiki jika ia terlihat. Raw data adalah cermin yang memantulkan kembali setiap langkah metodologis, setiap keputusan analitis, dan setiap bias yang mungkin menyusup ke dalam proses penelitian.

1.2 Krisis Reproduksibilitas dan Tuntutan Transparansi

Dua dekade terakhir telah menyaksikan krisis reproduksibilitas (reproducibility crisis) yang mengguncang berbagai disiplin ilmu, dari psikologi hingga biomedis. Penelitian demi penelitian menunjukkan bahwa sebagian besar temuan ilmiah tidak dapat direplikasi—sebuah kondisi yang mengancam kredibilitas seluruh enterprise ilmiah. Salah satu akar masalahnya adalah ketidaktersediaan raw data yang mendasari publikasi.

"The raw data that lead to results, however, are rarely made public, and the steps taken to get from data to figures in a publication is not always clear, which has led to the reproducibility crisis currently facing research". Ketika raw data tidak tersedia, tidak ada cara bagi komunitas ilmiah untuk memverifikasi apakah analisis yang dilakukan sudah tepat, apakah ada kesalahan perhitungan, atau apakah—dalam kasus terburuk—data telah dimanipulasi atau difabrikasi.

1.3 Munculnya Era AI: Janji dan Ancaman

Kecerdasan buatan menjanjikan percepatan luar biasa dalam penemuan ilmiah. Google DeepMind's GNOME, misalnya, telah mengidentifikasi 2,2 juta struktur kristal stabil, mewakili ekspansi satu orde magnitudo dalam material stabil yang diketahui. Namun, janji ini datang dengan ancaman yang setimpal: "The reliability of such AI models, however, depends entirely on the integrity of their training data".

Prinsip "garbage in, garbage out" menjadi lebih relevan dari sebelumnya. Jika data pelatihan AI terbatas atau cacat, model AI akan menghasilkan prediksi yang tidak akurat. Lebih mengkhawatirkan lagi, AI kini tidak hanya mengonsumsi data—ia juga dapat memproduksinya. Alat AI generatif dapat menghasilkan gambar mikroskop yang nyaris tidak dapat dibedakan dari data eksperimental otentik, dibuat dalam waktu kurang dari satu jam tanpa keahlian teknis khusus.


BAB II: RAW DATA DALAM RISET KONVENSIONAL

2.1 Definisi dan Karakteristik Raw Data Konvensional

Dalam riset konvensional, raw data merujuk pada data yang dikumpulkan langsung dari sumbernya—baik melalui observasi, eksperimen, survei, atau instrumen pengukuran—sebelum mengalami proses pembersihan, transformasi, atau analisis. Raw data konvensional dicirikan oleh:

1. Orientasi empiris: Data diperoleh dari interaksi langsung dengan realitas yang diteliti.
2. Keterlacakan (traceability): Setiap datum memiliki asal-usul yang dapat ditelusuri kembali ke prosedur pengumpulan tertentu.
3. Keunikan: Setiap dataset adalah produk dari kondisi spesifik pada waktu dan tempat tertentu.
4. Kerapuhan: Raw data rentan terhadap kesalahan pencatatan, kehilangan, atau kerusakan.

2.2 Praktik Terbaik Pengelolaan Raw Data Konvensional

Pengelolaan raw data yang bertanggung jawab dalam riset konvensional mencakup serangkaian praktik yang telah terstandarisasi:

Perencanaan Data (Data Management Plan): Mencakup strategi pengumpulan data, definisi variabel, dan rekomendasi pemrosesan data.

Dokumentasi yang Ketat: Buku laboratorium dengan halaman bernomor, ditulis dengan tinta (bukan pensil), dicatat sesegera mungkin setelah data dikumpulkan, dan mencakup seluruh raw data.

Penyimpanan dan Preservasi: Praktik terbaik untuk penyimpanan jangka pendek dan jangka panjang, pencadangan, dan transmisi data, termasuk pemanfaatan penyimpanan awan dan lingkungan penelitian kolaboratif.

Metadata yang Komprehensif: Informasi kontekstual tentang dataset, seperti kapan dan di mana data diciptakan, yang sangat penting untuk membuat data dapat dipahami oleh orang lain selain penciptanya.

2.3 Raw Data sebagai Instrumen Akuntabilitas

Dalam riset konvensional, raw data berfungsi sebagai instrumen akuntabilitas melalui beberapa mekanisme:

Verifikasi (Forensic Statistical Analysis): Langkah pertama dalam analisis forensik statistik adalah memverifikasi bahwa file raw data sudah benar, diikuti dengan verifikasi bahwa file analisis statistik yang diturunkan dari raw data sudah benar.

Replikasi: Raw data memungkinkan peneliti lain untuk mereplikasi analisis dan memverifikasi temuan.

Deteksi Kesalahan dan Kecurangan: Seperti ditegaskan oleh Bradley, tanpa paparan raw data, kesalahan tidak akan ditemukan.

Audit Trail: Jejak bukti yang dapat diaudit (auditable trail of evidence) yang memungkinkan pelacakan setiap langkah dari data mentah hingga kesimpulan akhir.

2.4 Tantangan Pengelolaan Raw Data Konvensional

Meskipun penting, pengelolaan raw data konvensional menghadapi sejumlah tantangan:

Volume Data yang Membesar: Seiring dengan kemajuan teknologi, volume data yang dihasilkan oleh instrumen penelitian semakin besar, menimbulkan tantangan penyimpanan dan pengelolaan.

Kurangnya Standardisasi: Meskipun upaya standardisasi telah dilakukan, masih terdapat variasi besar dalam praktik pengelolaan data antar disiplin dan antar institusi.

Insentif yang Tidak Sejalan: Sistem publikasi ilmiah saat ini lebih memberi penghargaan pada hasil positif daripada pada praktik data yang baik, menciptakan insentif untuk mengabaikan pengelolaan data yang teliti.


BAB III: RAW DATA DALAM ERA KECERDASAN BUATAN

3.1 AI sebagai Produsen Data: Munculnya Synthetic Data

Salah satu perkembangan paling signifikan dalam lanskap data penelitian adalah kemampuan AI untuk menghasilkan data sintetis (synthetic data)—data yang dibuat secara artifisial untuk menyerupai data nyata. Studi terbaru menunjukkan bagaimana AI generatif dapat mereplikasi struktur survei kesehatan yang dipublikasikan untuk menghasilkan data yang sangat realistis yang lolos dari pemeriksaan psikometrik konvensional, termasuk korelasi, loading, dan Cronbach's alpha.

Data sintetis menawarkan potensi besar: ia dapat mengatasi keterbatasan data nyata, melindungi privasi, dan memungkinkan pengujian dalam skala yang sebelumnya tidak mungkin. Namun, ia juga membawa risiko signifikan. "Synthetic data can enable the increased emergence of malicious actors, spontaneous biases and value drift".

3.2 Ancaman terhadap Integritas Catatan Ilmiah

Ancaman paling serius dari AI terhadap integritas riset adalah kemampuannya untuk memproduksi data yang secara visual dan statistik tidak dapat dibedakan dari data asli, namun sebenarnya adalah fabrikasi. Dalam penelitian nanomaterials, survei terhadap 250 ilmuwan menemukan bahwa para ahli tidak dapat secara andal membedakan gambar mikroskop yang dihasilkan AI dari data eksperimental otentik.

"Generative AI tools can now produce code for data manipulation at pace, creating plausible-looking results that violate fundamental physical principles yet evade traditional peer review". Proses peer review tradisional, yang mengandalkan inspeksi visual oleh para ahli, tidak lagi cukup untuk mendeteksi penipuan gambar yang canggih.

Lebih mengkhawatirkan lagi, "experts cannot reliably distinguish AI-generated microscopy images from authentic experimental data, while widespread errors plague 20–30% of materials characterisation analyses". Ini berarti bahkan sebelum kita mempertimbangkan data yang sengaja difabrikasi, tingkat kesalahan yang sudah ada dalam analisis karakterisasi material mencapai 20-30 persen—sebuah angka yang mengkhawatirkan.

3.3 Krisis Transparansi Model AI

Selain ancaman dari data yang dihasilkan AI, model AI sendiri menghadapi krisis transparansi. "Recent empirical evidence shows that the level of transparency in artificial intelligence models remains extremely limited. A recent study found that, on average, these models scored only two out of ten on transparency indicators, while 40% scored zero".

"Black box" opacity of AI models challenges scientific accountability and epistemic agency". Ketika model AI beroperasi sebagai "kotak hitam" yang tidak dapat ditembus, sulit bagi peneliti untuk memahami mengapa model menghasilkan output tertentu—sebuah kondisi yang secara fundamental bertentangan dengan prinsip akuntabilitas ilmiah.

3.4 Bias dalam Data Pelatihan

Ancaman lain datang dari bias yang tertanam dalam data pelatihan AI. "These risks are compounded by inherent biases in training datasets that systematically over represent equilibrium-phase oxide systems". Jika data pelatihan tidak representatif, model AI akan menghasilkan prediksi yang bias—dan karena skala aplikasi AI yang masif, bias ini dapat diperkuat dan dilanggengkan pada skala yang belum pernah terjadi sebelumnya.

"Without improvement in data integrity, handling and reporting, we risk these shortcomings becoming fixtures of AI training and validation data sets - in turn undermining the promise of AI in materials science and leaving us instead with unreliable models, and misdirected research".


BAB IV: PERBANDINGAN RAW DATA KONVENSIONAL DAN RAW DATA AI

4.1 Dimensi Perbandingan

Dimensi Raw Data Konvensional Raw Data/AI
Sumber Observasi/eksperimen langsung Generasi algoritmik/sintetis
Verifikasi Dapat diverifikasi melalui replikasi Sulit diverifikasi; dapat lolos uji statistik
Transparansi Tergantung pada praktik peneliti Sering kali "kotak hitam"
Bias Terbatas pada desain penelitian Dapat diperkuat secara sistemik
Akuntabilitas Melekat pada peneliti Kabur; siapa yang bertanggung jawab?
Skalabilitas Terbatas oleh sumber daya Hampir tak terbatas

4.2 Tantangan Unik Raw Data AI

Deteksi yang Sulit: "AI-generated images were created in under one hour using publicly available tools, requiring no specialised technical knowledge". Kemudahan produksi data palsu yang meyakinkan menciptakan tantangan deteksi yang belum pernah terjadi sebelumnya.

Akuntabilitas yang Kabur: "As ethical and legal frameworks for AI datasets are still in their infancy, it is not clear who is responsible for such misconduct". Ketika data dihasilkan oleh AI, rantai akuntabilitas menjadi tidak jelas.

Kepercayaan yang Keliru: "Synthetic data can create unwarranted confidence in models trained on artificially generated datasets that fail to preserve clinical validity or demographic realities".

Eksploitasi Data Terbuka: "Bots scraping complex data sets can contribute to low-quality research and AI slop, while also allowing the extraction of sensitive data, including patient information".

4.3 Peluang dari Raw Data AI

Meskipun tantangannya signifikan, AI juga menawarkan peluang untuk meningkatkan integritas data:

Deteksi Kecurangan Berbasis AI: Sistem AI dapat digunakan untuk mendeteksi anomali dalam data yang mungkin mengindikasikan kecurangan.

Otomatisasi Validasi: "Well documented data that are 'FAIR' can be more readily validated to ensure integrity". AI dapat membantu mengotomatisasi proses validasi data.

Peningkatan Metadata: AI dapat membantu menghasilkan dan mengelola metadata yang lebih kaya, meningkatkan findability dan reusability data.

---

BAB V: KERANGKA PENJAMINAN INTEGRITAS DATA

5.1 Prinsip FAIR sebagai Fondasi

Prinsip FAIR (Findable, Accessible, Interoperable, Reusable) telah menjadi norma global untuk pengelolaan data yang baik dan prasyarat untuk reproduksibilitas. "At its core, FAIR is meant to ensure that data are produced, analysed, stored and shared in ways that promote transparency and reproducibility".

FAIR principles memungkinkan temuan untuk diverifikasi, direproduksi, dan dilestarikan secara digital—dan karenanya fundamental bagi output penelitian berkualitas tinggi dan integritas riset.

"The more the data are understandable by people other than the creators, the more we are able to determine not only the trustworthiness of the data set itself, but also its alleged creators".

5.2 Guidelines for Research Data Integrity (GRDI)

Untuk mengatasi kesenjangan dalam kerangka integritas data, para peneliti telah mengusulkan Guidelines for Research Data Integrity (GRDI) yang memberikan instruksi jelas dan praktis untuk seluruh proses penelitian, termasuk strategi pengumpulan data, definisi variabel, dan rekomendasi pemrosesan data.

GRDI bertujuan untuk "establish a reliable approach to data handling" dan "improve the robustness and reliability of the scientific landscape by emphasising the critical role of data quality in research".

5.3 Kerangka Multifaset untuk Integritas Data di Era AI

Reeves-McLaren dan Moth-Lund Christensen mengusulkan kerangka multifaset untuk integritas riset yang mencakup:

1. Tata Kelola Etis Spesifik-Material (materials-specific ethical governance)
2. Standar Profesional untuk Pengungkapan AI dan Validasi Data (professional standards for AI disclosure and data validation)
3. Daftar Periksa Integritas Modular dengan protokol validasi spesifik-teknik (modular integrity checklists with technique-specific validation protocols)

"Critical enablers include mandatory deposition of structured raw instrument files, AI-powered fraud detection systems, and cultivation of critical AI literacy through interdisciplinary education".

5.4 Pengungkapan Penggunaan AI

Lembaga seperti ICMJE telah menetapkan rekomendasi tentang penggunaan AI dalam penulisan ilmiah: "Authors cannot include AI as a co-author, and they themselves remain solely accountable for all work, including plagiarism and copyright. Authors must disclose if, where, and how AI tools were used".

"Use of AI for data handling or analysis needs to be included in the methods". Kegagalan untuk mengungkapkan penggunaan AI yang signifikan dapat merupakan pelanggaran etika publikasi.

"AI-generated data presented as original research findings is not acceptable". Jurnal dapat meminta raw data atau dokumentasi pendukung selama peer review.

5.5 Penguatan Infrastruktur Verifikasi

Reeves-McLaren berargumen bahwa "the established culture of rigorous data collection, calibration, and metadata documentation that is standard at large experimental facilities represents a model for data integrity that the wider community must now adopt".

"Protecting and investing in these facilities, and in the expert staff who operate them, is not merely a matter of maintaining experimental capability; it is essential to ensuring that the data driving AI-enabled discovery can be trusted".


BAB VI: TANTANGAN DAN ARAH KE DEPAN

6.1 "Arms Race" antara Integritas dan Manipulasi

"Research integrity is locked into an arms race with agentic AI slop". Ketika AI menjadi semakin canggih dalam menghasilkan data yang meyakinkan, upaya untuk mendeteksi manipulasi juga harus terus berkembang.

"Agentic AI has no regard for the quality, ethicality or suitability of the data it exploits, it is all ultimately raw material to be ingested". "As more data become available online and machine readable, we are creating more opportunities for exploitation".

6.2 Paper Mills dan Eksploitasi Data Terbuka

Fenomena paper mills—perusahaan yang memproduksi makalah ilmiah palsu untuk dijual—telah memanfaatkan data terbuka dan AI untuk menghasilkan penelitian berkualitas rendah dalam skala besar.

Dua penerbit besar, PLOS dan Frontiers, telah mulai secara otomatis menolak sebagian besar makalah berdasarkan dataset kesehatan publik setelah terungkap bahwa aktor tidak bertanggung jawab menggunakan dataset ini untuk menghasilkan makalah ilmiah omong kosong.

"Large public health data sets tend to contain a huge number of variables, making them fertile ground for studies that probe how various factors affect health. But their richness also allows unscrupulous actors to carve up the data in countless ways, seeking chance correlations that look like reliable statistical signals but are, in reality, just noise".

6.3 Perlindungan Data dan Etika

"Open research and data transparency are a bulwark against unethical activities, but can also introduce integrity risks. As with all public goods, freely available data can be exploited".

Keseimbangan antara keterbukaan dan perlindungan menjadi semakin penting. "The guiding principle should be that the data are as open as possible, and as closed as necessary".

6.4 Pengembangan Format Data yang Tidak Dapat Dimodifikasi

Para peneliti telah mengusulkan pengembangan "a non-modifiable raw data format that could be published alongside scientific results; a format that would enable data authentication from the earliest stages of experimental data collection".

"A further extension of this tool could allow changes to the initial original version to be tracked, so every reviewer and reader could follow the logical footsteps of the author and detect unintentional errors or intentional manipulations of the data".

6.5 Literasi AI Kritis

"Critical AI literacy through interdisciplinary education" menjadi semakin penting. Peneliti perlu tidak hanya memahami cara menggunakan AI, tetapi juga keterbatasan, bias, dan risiko etisnya.


BAB VII: KESIMPULAN

7.1 Raw Data sebagai Fondasi yang Tak Tergantikan

Raw data, baik dalam riset konvensional maupun di era AI, tetap menjadi fondasi yang tak tergantikan bagi integritas ilmiah. Tanpa akses terhadap raw data, klaim ilmiah kehilangan sauh empirisnya, dan akuntabilitas peneliti menjadi tidak dapat diverifikasi.

Seperti yang ditegaskan oleh gerakan Open Notebook Science, "no insider information" adalah prinsip yang harus dijunjung—semua data harus tersedia untuk diperiksa oleh siapa pun yang ingin memverifikasi.

7.2 Tantangan Era AI Memerlukan Respons Sistemik

Ancaman yang dihadirkan oleh AI terhadap integritas data tidak dapat diatasi dengan solusi parsial. Diperlukan respons sistemik yang mencakup:

1. Penguatan infrastruktur verifikasi melalui investasi dalam fasilitas eksperimental dan keahlian staf
2. Pengembangan standar etis dan profesional untuk penggunaan AI dalam riset
3. Penerapan prinsip FAIR secara konsisten di seluruh disiplin ilmu
4. Pengembangan alat deteksi kecurangan berbasis AI
5. Pendidikan literasi AI kritis bagi seluruh komunitas ilmiah

7.3 Akuntabilitas sebagai Prinsip Non-Negotiable

Pada akhirnya, akuntabilitas tetap menjadi prinsip yang tidak dapat ditawar. Seperti yang ditegaskan oleh ICMJE, penulis "remain solely accountable for all work"—termasuk ketika AI digunakan dalam proses penelitian.

Penggunaan AI untuk penanganan atau analisis data harus diungkapkan dalam metode, dan data yang dihasilkan AI tidak dapat disajikan sebagai temuan penelitian asli.

7.4 Refleksi Akhir: Menjaga Integritas di Tengah Perubahan

Kita berada di persimpangan sejarah ilmu pengetahuan. Di satu sisi, AI menawarkan percepatan yang belum pernah terjadi sebelumnya dalam penemuan ilmiah. Di sisi lain, ia menghadirkan ancaman eksistensial terhadap integritas catatan ilmiah.

"Without immediate action to address these challenges, the scientific community risks perpetuating errors and biases that will fundamentally undermine AI's transformative potential".

Jalan ke depan bukanlah penolakan terhadap AI, tetapi integrasi yang bijaksana—dengan tetap berpegang pada prinsip-prinsip fundamental ilmu pengetahuan: transparansi, reproduksibilitas, dan akuntabilitas. Raw data, dalam bentuk apa pun, harus tetap menjadi batu ujian bagi klaim ilmiah—sebuah lapisan verifikasi yang memastikan bahwa ilmu pengetahuan tetap dapat dipercaya, bahkan di era ketika batas antara yang nyata dan yang sintetis semakin kabur.


DAFTAR REFERENSI

1. Reeves-McLaren, N., & Moth-Lund Christensen, S. (2026). Data integrity in materials science in the era of AI: balancing accelerated discovery with responsible science and innovation. Journal of Materials Chemistry A, 14, 276-283.
2. Reeves-McLaren, N. (2026). Raw Data as the Verification Layer: Why AI-Driven Materials Discovery Needs Experimental Infrastructure. ACS Omega.
3. Nature. (2026). How FAIR data are helping to build trust in science. Nature.
4. Scientific Data. (2025). Guidelines for Research Data Integrity (GRDI). Scientific Data, 12, 95.
5. Science. (2025). Journals and publishers crack down on research from open health data sets. Science.
6. Science. (2016). Scientists Embrace Openness. Science.
7. Dubiner, S., et al. (2024). Advancing data honesty in experimental biology. Journal of Experimental Biology, 227(9).
8. Kingdon, J. W. (2011). Agendas, Alternatives, and Public Policies. Boston: Longman.
9. Wilkinson, M. D., et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3, 160018.
10. PLOS. (2025). Updates to PLOS retrospective health-database editorial policy.
11. Frontiers. (2025). Cutting through fast-churn science: how Frontiers raised the bar.
12. ACM Conference on Fairness, Accountability, and Transparency (FAccT). (2024). Real Risks of Fake Data: Synthetic Data, Diversity-Washing and Consent Circumvention.

Komentar

Postingan populer dari blog ini

Skenario Anggaran PBB yang Inklusif untuk Mewujudkan Tatanan Dunia Baru dan Sustainable Development Goals 2030 serta Post-SDGs yang Berkeadilan

Esai: Teori dan Praktik Ekonomi Teonomik-Humanistik

Dear The Beyond Lab Team at UN Geneva