Glosarium pada Subyek Pembelajaran “Sains Data”
Apa itu Glosarium?
Glosarium adalah daftar kata atau daftar istilah khusus yang disusun secara alfabet dalam suatu bidang pengetahuan tertentu. Kata-kata atau istilah ini biasanya dilengkapi dengan definisi atau penjelasan yang mudah dipahami.Tujuan utama glosarium adalah untuk membantu pembaca, terutama mereka yang baru mempelajari suatu bidang keilmuwan tertentu, memahami istilah-istilah yang mungkin asing atau memiliki arti khusus dalam konteks tersebut.
Mengapa Glosarium penting?
- Memudahkan pemahaman: Glosarium membantu pembaca untuk memahami istilah-istilah teknis atau istilah yang jarang digunakan dalam bahasa sehari-hari.
- Meningkatkan keakuratan: Dengan adanya glosarium, pembaca dapat memastikan bahwa mereka memahami suatu istilah dengan benar, sesuai dengan konteks penggunaannya dalam bidang tersebut.
- Menghindari kesalahpahaman: Glosarium membantu menghindari kesalahpahaman yang mungkin timbul akibat perbedaan interpretasi terhadap suatu istilah.
- Sebagai Referensi Cepat: Glosarium berfungsi sebagai kamus mini yang dapat digunakan untuk mencari arti suatu istilah dengan cepat.
Ciri-ciri Glosarium
- Disusun secara alfabetis.
- Menggunakan bahasa yang jelas dan mudah dipahami.
- Spesifik untuk bidang tertentu.
- Dapat berupa glosarium satu bahasa atau dwibahasa.
Kesimpulan
Glosarium adalah alat yang sangat berguna untuk meningkatkan pemahaman terhadap suatu teks, terutama teks-teks yang membahas topik-topik yang kompleks atau menggunakan istilah-istilah khusus. Dengan memahami konsep glosarium, kita dapat menjadi pembaca yang lebih kritis dan efektif.
B
Basis Data
Kumpulan data yang diatur dan disimpan dengan cara yang memungkinkan akses dan pengambilan yang mudah.
Basis Data atau database adalah kumpulan data yang terorganisasi secara sistematis dan terstruktur, yang dapat diakses, diperbarui, diubah, dan dikelola secara efisien. Data-data disimpan dalam format digital, dan dapat diakses menggunakan perangkat lunak khusus yang disebut sistem manajemen basis data (DBMS).
Basis Data Grafik
Dibuat khusus untuk menyimpan dan menavigasi hubungan.
Basis Data Grafik (Graph Database) adalah jenis basis data yang dirancang khusus untuk menyimpan dan mengelola data yang dapat diwakili sebagai grafik. Grafik terdiri dari simpul (node) dan sisi (edge) yang menghubungkan node-node tersebut. Node dan edge dapat memiliki atribut untuk menyimpan informasi tambahan.
Basis Data Terdistribusi
Kumpulan data yang digunakan bersama-sama dan memiliki hubungan logis fisik tersebar di jaringan komputer.
Basis Data Terdistribusi (Distributed Database) adalah basis data yang didistribusikan di beberapa lokasi geografis yang berbeda. Data dalam basis data terdistribusi dipartisi dan disimpan di beberapa server atau node yang terhubung melalui jaringan.
Big Data
Aset informasi bervolume tinggi (high-volume), berkecepatan tinggi (high-velocity), dan/atau memiliki banyak ragam (high-variety) yang menuntut bentuk pemrosesan informasi yang hemat biaya dan inovatif yang memungkinkan peningkatan wawasan, pengambilan keputusan, dan otomatisasi proses.
Big Data adalah istilah yang digunakan untuk menggambarkan kumpulan data yang sangat besar, kompleks, dan beragam sehingga sulit untuk diproses atau dianalisis menggunakan metode tradisional. Data ini seringkali memiliki karakteristik berikut:
- Volume: Jumlah data yang sangat besar.
- Velocity: Kecepatan di mana data dihasilkan dan diperbarui.
- Variety: Keanekaragaman jenis data, termasuk teks, angka, gambar, video, dan data sensor.
- Veracity: Kualitas dan akurasi data.
Contoh Big Data
- Data sosial media
- Data sensor
- Data transaksi
- Data medis
- Data geografis
C
CRISP-DM (Cross Industry Standard Process for Data Mining)
Proses model yang berfungsi sebagai dasar untuk proses data science.
CRISP-DM (Cross Industry Standard Process for Data Mining) adalah suatu metodologi yang digunakan sebagai panduan dalam proses pengembangan proyek data mining. Ini adalah kerangka kerja yang dapat diadaptasi untuk berbagai jenis proyek data mining, terlepas dari industri atau skala proyek.
[https://github.com/tasiamdln/Purwadhika_JCDS_Capstone_3]
D
Data
Fakta atau pengamatan yang terpisah dan obyektif, tidak terorganisir dan tidak diproses, serta tidak menyampaikan makna tertentu. Item data adalah deskripsi data dan tercatat dari hal-hal, peristiwa, kegiatan, dan transaksi.
Data adalah kumpulan fakta, angka, atau informasi yang diperoleh melalui pengamatan, pengukuran, atau pengumpulan informasi. Data ini bisa berupa angka, teks, gambar, suara, atau jenis informasi lainnya. Sederhananya, data adalah bahan mentah yang digunakan untuk menghasilkan informasi.
Dataset
Kumpulan data diatur dalam format tertentu.
Dataset adalah kumpulan data yang terorganisir dan disusun secara sistematis, biasanya dalam bentuk tabel.
Data Analyst
Profesi pekerjaan yang bertugas untuk membaca serta menganalisis data yang ada dari suatu entitas (private, public)
Data Analyst adalah seorang profesional yang memiliki keahlian dalam mengumpulkan, membersihkan, menganalisis, dan menginterpretasikan data untuk mendapatkan wawasan berharga. Data yang mereka analisis bisa berasal dari berbagai sumber, seperti database perusahaan, media sosial, sensor, dan lain sebagainya.
Data-Driven Decision Making
Penggunaan fakta, metrik, dan data untuk memandu keputusan bisnis yang selaras dengan tujuan, sasaran, dan inisiatif perusahaan.
Data-Driven Decision Making (DDDM) atau Pengambilan Keputusan Berbasis Data adalah pendekatan dalam membuat keputusan yang didasarkan pada analisis data yang akurat dan terkini, bukan hanya intuisi atau pengalaman semata. Dalam DDDM, data digunakan sebagai landasan utama untuk memahami situasi, mengidentifikasi tren, dan merumuskan strategi yang efektif.
Data Kategorikal
Data yang dapat dikelompokkan dan terbagi berdasarkan karakteristik atau ciri khasnya masing-masing.
Data Kategorikal adalah jenis data yang digunakan untuk mengelompokkan atau mengklasifikasikan suatu objek atau individu berdasarkan karakteristik tertentu. Data ini tidak berupa angka yang bisa dihitung secara matematis, melainkan berupa label atau kategori.
Data Kontinu
Data kontinu dapat direpresentasikan dalam berbagai nilai numerik, seperti bilangan desimal, bulat, dan lain-lain.
Data Kontinu adalah jenis data kuantitatif yang memiliki nilai yang dapat bervariasi secara terus-menerus dalam suatu rentang tertentu. Tidak seperti data kategorikal yang memiliki nilai-nilai yang diskrit atau terpisah, data kontinu dapat mengambil nilai apa pun di antara dua titik data.
Data Kualitatif
Kumpulan data yang berbentuk kata, skema, atau gambar.
Data Kualitatif adalah jenis data yang menggambarkan kualitas atau karakteristik suatu objek atau fenomena. Data ini tidak dapat diukur secara numerik atau dihitung, melainkan berupa deskripsi, kata-kata, atau narasi.
Data Kuantitatif
Kumpulan data yang dinyatakan dalam bentuk angka.
Data kuantitatif adalah jenis data yang dapat diukur dan dinyatakan dalam bentuk angka. Data ini memberikan informasi tentang jumlah, ukuran, atau besaran suatu objek atau fenomena. Dengan kata lain, data kuantitatif adalah data yang bisa dihitung.
Data Nominal
Jenis pengelompokkan data yang tidak memiliki dengan data lainnya dan tidak memiliki arti khusus.
Data nominal adalah jenis data yang digunakan untuk mengklasifikasikan atau mengelompokkan data ke dalam kategori yang berbeda tanpa adanya urutan atau peringkat tertentu. Angka yang diberikan pada setiap kategori hanya berfungsi sebagai label atau kode, bukan sebagai nilai kuantitatif yang dapat diurutkan.
Data Numerik
Data berwujud angka yang bisa didapat dari hasil sebuah pengukuran.
Data numerik adalah jenis data yang dinyatakan dalam bentuk angka. Data ini memberikan informasi kuantitatif tentang suatu objek atau fenomena, seperti jumlah, ukuran, atau besaran. Dengan kata lain, data numerik adalah data yang bisa dihitung dan diukur.
Data Ordinal
Jenis pengelompokkan data yang memiliki urutan, atau harus disusun secara berurutan dengan mekanisme peringkat subyektif.
Data Ordinal adalah jenis data yang memiliki urutan atau peringkat tertentu. Artinya, kategori dalam data ordinal dapat disusun dari yang paling rendah hingga yang paling tinggi atau sebaliknya. Namun, jarak antara setiap kategori tidak selalu sama.
Data Science
Wawasan yang sangat berguna untuk keperluan bisnis. Ilmu ini merupakan penggabungan prinsip dan praktik dari bidang matematika, statistik, artificial intelligence, dan computer engineering untuk menganalisis data dalam jumlah besar.
Sains Data (Data Science) adalah disiplin ilmu yang menggabungkan berbagai metode ilmiah, proses, algoritma, dan sistem untuk mengekstrak pengetahuan dan wawasan berharga dari kumpulan data yang besar dan kompleks. Singkatnya, ilmu data adalah tentang mengubah data mentah menjadi informasi yang berguna untuk pengambilan keputusan.
Data Scientist
Praktisi yang memiliki kemampuan dan keahlian dalam mengelola dan menganalisis data dalam jumlah besar (Big Data).
Ilmuwan data (Data Scientist) adalah seorang profesional yang memiliki keahlian dalam mengumpulkan, membersihkan, menganalisis, dan menginterpretasi data besar untuk menemukan pola, tren, dan wawasan yang berharga. Mereka menggabungkan keterampilan dari berbagai bidang, termasuk matematika, statistika, ilmu komputer, dan domain pengetahuan tertentu (seperti bisnis, kesehatan, atau keuangan).
Data Terstruktur
Salah satu jenis data yang disusun dengan rapi dan diatur sedemikian rupa sehingga memiliki format atau bentuk yang tetap.
Data terstruktur adalah jenis data yang memiliki format yang jelas, teratur, dan mudah diidentifikasi. Data ini biasanya disimpan dalam tabel dengan baris dan kolom yang memiliki tipe data yang spesifik (misalnya, teks, angka, tanggal). Setiap elemen data memiliki tempat yang pasti dalam struktur data ini.
Data Warehouse
Sebuah sistem atau platform yang dirancang untuk mengumpulkan, menyimpan, menganalisis, dan mengelola data dari berbagai sumber yang berbeda untuk tujuan analisis bisnis dan pengambilan keputusan.
Gudang data (Data Warehouse) adalah sebuah sistem terpusat yang digunakan untuk menyimpan data dari berbagai sumber dalam satu tempat. Data ini kemudian diorganisir, dibersihkan, dan diubah menjadi format yang siap untuk analisis. Bayangkan gudang data sebagai sebuah perpustakaan besar yang menyimpan semua buku (data) perusahaan, disusun dengan rapi sehingga mudah ditemukan dan digunakan untuk berbagai keperluan.
Data Wrangling
Proses atau kumpulan kegiatan yang meliputi: mengumpulkan data (gathering data), menyiapkan data untuk dianalisis (assessing data), dan pembersihan data (cleaning data) sebelum data digunakan dalam proses analisis.
Data wrangling atau yang sering juga disebut sebagai data munging adalah proses mengubah data mentah (raw data) menjadi data yang lebih terstruktur, bersih, dan siap untuk dianalisis. Bayangkan Anda memiliki kumpulan data yang berantakan, tidak konsisten, dan memiliki banyak kesalahan. Data wrangling adalah proses membersihkan, menyusun, dan mengubah data tersebut menjadi bentuk yang lebih rapi dan mudah dipahami.
Deep Learning
Metode dalam artificial intelligence yang mengajarkan komputer untuk memproses data layaknya otak manusia ketika berfikir.
Deep Learning adalah subbidang dari machine learning yang terinspirasi oleh struktur dan fungsi otak manusia. Lebih spesifiknya, deep learning menggunakan jaringan saraf tiruan (artificial neural networks) dengan banyak lapisan untuk belajar dari data yang sangat besar dan kompleks. Lapisan-lapisan ini memungkinkan model deep learning untuk mengidentifikasi pola yang sangat rumit dan membuat prediksi yang akurat.
Derajat (Degree)
Jumlah atribut dalam sebuah relasi. Masih merujuk pada tabel di atas, berarti tabel tersebut memiliki derajat tiga karena terdiri dari 3 atribut.
Derajat dalam konteks tersebut mengacu pada jumlah kolom atau atribut dalam sebuah tabel relasi di basis data. Atribut sendiri bisa diartikan sebagai karakteristik atau sifat dari suatu entitas yang diwakili oleh tabel tersebut.
Misalnya:
Jika kita memiliki sebuah tabel bernama “Mahasiswa” dengan kolom:
NIM (Nomor Induk Mahasiswa)
Nama
Jurusan
Maka, tabel “Mahasiswa” tersebut memiliki derajat 3 karena terdiri dari 3 atribut yaitu NIM, Nama, dan Jurusan.
E
Evolusi
Perubahan yang terjadi secara sangat lambat atau memerlukan waktu yang sangat panjang.
Evolusi adalah proses perubahan bertahap suatu spesies dari generasi ke generasi. Perubahan ini disebabkan oleh adanya variasi genetik dalam suatu populasi dan seleksi alam yang memilih sifat-sifat yang menguntungkan untuk bertahan hidup dan bereproduksi.
F
Feature
Ciri atau karakteristik dari data yang digunakan untuk analisis atau pelatihan model. Misalnya, “umur” dan “jenis kelamin” adalah fitur (feature) dalam dataset pelanggan
Feature Engineering
Proses pemilihan, ekstraksi, dan transformasi fitur untu meningkatkan kinerja model.
Feature Selection
Proses mmilih fitur (feature) yang paling relevan dan penting untuk model.
False Positive
Kesalahan dalam klasifikasi di mana model memprediksi suatu kejadian akan terjadi, padahal sebenarnya tidak terjadi.
False Negative
Kesalahan dalam klasifikasi di mana model memprediksi suatu kejadian tidak akan terjadi, padahal sebenarnya terjadi.
G
GitHub
Software yang memungkinan kontrol proyek melalui alat yang dikenal sebagai Git.
Gradien Descent
Digunakan untuk menemukan minimal atau maksimal daru suatu fungsi.
I
Informasi
Data yang memberikan nilai tambah pada pemahaman suatu subyek. Adapun definisi lainnya bahwa data informasi adalah data yang telah dibentuk menjadi bentuk yang lebih berarti dan berguna bagi bagi penggunanya.
K
Kebijaksanaan
Akumulasi pengetahuan yang memungkinkan Anda memahami cara menerapkan konsep dari suatu domain ke suatu masalah baru. Adapun pengertian yang lain yaitu kebijaksanaan adalah kemampuan untuk bertindak kritis atau praktis dalam situasi tertentu.
Keterampilan Interpersonal
Kemampuan yang dimiliki seseorang dalam melakukan komunikasi maupun interaksi dengan orang lain.
L
Linier Regression
Merupakan algoritma supervised machine learning yang belajar dari kumpulan data berlabel dan memetakan titik data ke fungsi linier yang paling optimal serta dapat digunakan untuk prediksi pada kumpulan data baru.
LMS (Learning Management System)
Program perangkat lunak berbasis web untuk manajemen, dokumentasi, pemantauan, pelaporan, administrasi, dan distribusi konten pendidikan, program, pelatihan, dan lain-lain.
Logic Regression
Berfungsi untuk memprediksi kategori variabel dependen menggunakan seperangkat variabel independen yang diberikan.
M
Machine Learning
Ilmu pengembangan algoritma yang memanfaatkan konsep matematis dan statistik dalam menjalankan tugas tertentu tanpa instruksi eksplisit.
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
- DAFTAR REFERENSI GRATIS –
[1] “What is Data Science?” https://www.ibm.com/topics/data-science [Website]
[2] Maryanto, B (2019). “BIG DATA DAN PEMANFAATANNYA DALAM BERBAGAI SEKTOR”. Media Informatika Vol.16 No.2 [Journal]
[3] Nield, Thomas. “Essential Math for Data Science”. O’Reilly [E-Book]
[4] Putri, H.N, Saputro D.R (2022). “Clustering Data Campuran Numerik dan Kategorik Menggunakan Algoritme Ensemble Quick RObust Clustering using LinKs (QROCK)”. PRISMA [Journal]
[5] The Council on Quality and Leadership “12 REASONS why data is important” [E-Book]