Identifikasi individu, variabel, dan variabel kategori dalam sebuah data set
Konsep variabel dalam data set menjadi nyata melalui eksplorasi variabel kategori dan kuantitatif. Menggunakan data nutrisi dari sebuah kedai kopi sebagai contoh, pelajaran ini menyoroti bagaimana variabel dapat mewakili berbagai aspek dalam data set, seperti jenis minuman, jumlah kalori, kandungan gula, dan jumlah kafein.
Jutaan orang Indonesia bergantung pada kafein untuk membantu mereka bangun di pagi hari. Berikut adalah data nutrisi tentang beberapa minuman populer di kedai kopi Ben’s Beans (lihat tabel data terlampir di bawah ini):
Individu dalam himpunan data ini adalah?:
[A] Pelanggan pada Ben’s Beans
[B] Minuman pada Ben’s Beans
[C] Kandungan kafein
Himpunan data ini berisi?:
[A] 4 variabel, 1 di antaranya adalah kategorikal
[B] 4 variabel, 2 di antaranya adalah kategorikal
[C] 6 variabel, 1 di antaranya adalah kategorikal
[D] 6 variabel, 2 di antaranya adalah kategorikal
Kita diberitahu bahwa jutaan orang Indonesia bergantung pada kafein untuk membuat mereka bangun di pagi hari, yang memang benar. Walaupun saya pribadi, jika saya minum kafein di pagi hari, saya sangat sensitif sehingga saya tidak akan bisa tidur di malam hari. Di sini ada data nutrisi tentang beberapa minuman populer di kedai kopi Ben’s Beans. Baiklah, kita memiliki berbagai nama minuman, lalu kita memiliki jenis minuman, yang terdiri dari minuman panas dan/ atau dingin. Di sini kita memiliki jumlah kalori untuk setiap minuman tersebut, di sini ada kandungan gula dalam gram untuk setiap minuman, dan di sini ada kandungan kafein dalam miligram untuk setiap minuman.
Kemudian kita ditanya apa individu dalam data set ini dan kita memiliki tiga pilihan: pelanggan Ben’s Beans, minuman Ben’s Beans, atau kandungan kafein. Kita harus berhati-hati karena saat seseorang berbicara tentang individu dalam data set, mereka tidak selalu berarti harus orang, bisa juga benda. Dalam data set ini, setiap baris merujuk pada jenis minuman tertentu di kedai kopi Ben’s Beans, jadi jenis minuman yang ditawarkan Ben’s Beans adalah individu dalam data set ini, yaitu minuman Ben’s Beans.
Selanjutnya, mereka menanyakan data set ini berisi berapa banyak variabel dan berapa banyak variabel tersebut yang bersifat kategori. Jika kita lihat di atas sini, mari kita lihat variabel-variabelnya. Kolom pertama ini pada dasarnya memberi kita jenis minuman, yang tidak termasuk sebagai variabel, tetapi lebih sebagai pengenal (identifier). Namun, semua kolom lainnya merepresentasikan variabel. Misalnya, “jenis” adalah variabel yang bisa berupa panas atau dingin, dan karena hanya bisa memiliki salah satu dari sejumlah pilihan (panas atau dingin), variabel ini termasuk variabel kategori. Meskipun hanya ada dua kategori, bisa saja ada lebih dari dua kategori, tetapi ini bukanlah variabel yang dapat memiliki nilai-nilai numerik yang banyak. Jadi, ini adalah variabel kategori.
Kalori bukanlah variabel kategori; Anda bisa memiliki sesuatu dengan 4,1 kalori, atau 178 kalori. Nilai-nilai ini tidak sesuai dengan kategori tertentu. Hal yang sama berlaku untuk gula dan kafein, karena keduanya adalah variabel kuantitatif yang tidak bisa dimasukkan ke dalam kategori tertentu. Jadi di sini, saya akan mengatakan bahwa ada empat variabel, satu di antaranya adalah kategori. Itu akan menjadi pilihan A di sini.