PEMBERITAHUAN: Kelompok konsultasi Statistik IDRE akan memindahkan situs web ke CMS WordPress pada bulan Februari untuk memfasilitasi pemeliharaan dan pembuatan konten baru. Beberapa halaman lama kami akan dihapus atau diarsipkan sehingga tidak lagi dipelihara. Kami akan mencoba untuk mempertahankan pengalihan sehingga URL lama akan terus bekerja sebaik mungkin. Selamat Datang di Institute for Digital Research and Education Bantu Stat Consulting Group dengan memberi hadiah Stata Learning Module Menggabungkan data Modul ini akan menggambarkan bagaimana Anda dapat menggabungkan file di Stata. Contohnya meliputi file tambahan, penggabungan satu lawan satu, dan penggabungan kecocokan satu lawan satu. Menambahkan file data Bila Anda memiliki dua file data, Anda mungkin ingin menggabungkannya dengan menumpuknya satu di atas yang lain. Sebagai contoh, kita memiliki file yang berisi ayah dan file yang berisi ibu seperti gambar di bawah ini. Jika kita ingin menggabungkan file-file ini dengan menumpuknya satu di atas yang lain, kita bisa menggunakan perintah append seperti yang ditunjukkan di bawah ini. Kita bisa menggunakan daftar perintah untuk melihat apakah ini bekerja dengan benar. Tambahan bekerja dengan baik. Ayah dan ibu ditumpuk bersama dalam satu file. Tapi, ada sedikit masalah. Kami tidak bisa memberitahu ayah dari para ibu. Mari kita coba melakukan ini lagi, tapi pertama kita akan membuat variabel bernama momdad di file data ayah dan ibu yang akan berisi file data ayah ayah dan ibu untuk file data moms. Ketika kami menggabungkan dua file itu bersama-sama, variabel momdad akan memberi tahu kami siapa ibu dan ayah itu. Disini kita membuat variabel momdad untuk file data ayah. Kami menyimpan file yang memanggilnya dads1. Di sini kita membuat variabel momdad untuk file data moms. Kami simpan file yang memanggilnya moms1. Sekarang, mari kita tambahkan ayah dan ibu1 bersama-sama. Sekarang, ketika kita mencantumkan data, variabel momdad menunjukkan siapa ibu dan ayah mereka. Pencocokan penggabungan Cara lain untuk menggabungkan file data adalah penggabungan yang cocok. Katakan bahwa kami ingin menggabungkan ayah dengan file data faminc, meminta informasi ayah dan informasi keluarga berdampingan. Kita bisa melakukan ini dengan penggabungan pertandingan. Mari kita lihat file ayah dan famem. Kami ingin menggabungkan file data sehingga terlihat seperti ini. Perhatikan bahwa variabel famid digunakan untuk mengaitkan pengamatan dari file ayah dengan pengamatan yang sesuai dari file faminc. Strategi penggabungan file berjalan seperti ini. 1. sortir ayah di famid dan simpan file itu (sebut saja ayah2). 2. sort faminc pada famid dan simpan file itu (menyebutnya faminc2). 3. gunakan file dads2. 4. menggabungkan file dads2 dengan file faminc2 menggunakan famid untuk mencocokkannya. Inilah empat langkah tersebut. 1. Urutkan file ayah oleh famid dan simpan sebagai ayah 2. Urutkan file faminc dengan famid dan simpan sebagai faminc2. 3. Gunakan file dads2 4. Gabung dengan file faminc2 menggunakan famid sebagai variabel kunci. Sepertinya ini bekerja dengan baik, tapi apa itu gabungan variabel Variabel penggabungan mengindikasikan, untuk setiap pengamatan, bagaimana penggabungan tersebut berjalan. Ini berguna untuk mengidentifikasi catatan yang tidak sesuai. Menggabungkan dapat memiliki satu dari tiga nilai 1 - Catatan berisi informasi dari file1 saja (misalnya catatan seorang ayah2 tanpa catatan faminc2 yang sesuai.2 - Catatan berisi informasi dari file2 saja (misalnya catatan faminc2 tanpa catatan ayah2 yang sesuai.3 - The Catatan berisi informasi dari kedua file (misalnya catatan ayah dan faminc2 yang cocok). Bila Anda memiliki banyak catatan, tabulasi gabungan sangat berguna untuk meringkas berapa banyak ketidakcocokan yang Anda miliki. Dalam kasus kami, semua rekaman cocok jadi nilai untuk menggabungkan Selalu 3. Pencocokan satu lawan satu Penggabungan jenis lain disebut gabungan satu dengan banyak. Gabungan satu lawan satu kami cocok dengan ayah dan faminc dan ada satu lawan satu yang cocok dengan file. Jika kita menggabungkan orang tua dengan Anak-anak, ada banyak anak per ayah dan karena itu ini adalah gabungan satu dengan banyak orang. Seperti yang Anda lihat di bawah, strategi untuk menggabungkan satu dengan banyak sama dengan gabungan satu dengan lainnya 1. Urutkan ayah pada famid dan Simpan file itu sebagai ayah3 2. urutkan anak-anak di famid dan selamatkan itu File sebagai anak3 3. gunakan file dads3 4. gabungkan file dads3 dengan file kids3 menggunakan famid untuk mencocokkannya. Keempat langkah tersebut ditunjukkan di bawah ini. 1. Urutkan file data ayah pada famid dan simpan file itu sebagai ayah3. 2. Urutkan file data anak-anak di famid dan simpan file itu sebagai anak3. 3. Gunakan file dads3. 4. Gabungkan file dads3 dengan file kids3 menggunakan famid untuk mencocokkannya. Mari kita daftar hasilnya. Hasilnya sedikit lebih mudah dibaca jika kita menyortir data tentang famid dan kelahiran. Seperti yang Anda lihat, ini pada dasarnya sama dengan penggabungan satu lawan satu. Anda mungkin bertanya-tanya apakah urutan file pada gabungan pernyataan itu relevan. Di sini, kita beralih urutan file dan hasilnya sama. Satu-satunya perbedaan adalah urutan catatan setelah penggabungan. Menambahkan contoh data Contoh langkah penggabungan yang cocok (satu-ke-satu dan satu-ke-banyak) Program contoh gabungan gabungan Isi dari situs web ini tidak boleh dianggap sebagai pengesahan dari situs web, buku, atau produk perangkat lunak tertentu oleh University of California. Stata untuk Periset: Menggabungkan Kumpulan Data Ini adalah bagian dari seri Stata for Researchers. Untuk daftar topik yang tercakup dalam seri ini, lihat Pendahuluan. Jika Anda baru mengenal Stata, kami sangat merekomendasikan membaca artikel secara berurutan. Menggabungkan dua kumpulan data adalah tugas manajemen data yang umum, dan satu hal yang sangat mudah dilakukan. Namun, juga sangat mudah salah. Sebelum menggabungkan kumpulan data pastikan Anda memahami struktur kumpulan data dan logika cara Anda menggabungkannya. Jika tidak, Anda bisa mendapatkan data set yang menurut Anda siap untuk dianalisis, tapi benar-benar omong kosong belaka. Stata mencoba untuk memastikan bahwa Anda telah memikirkan apa yang Anda lakukan, tapi tidak dapat memberi tahu Anda apa yang masuk akal dan apa yang tidak. Stata selalu bekerja dengan satu kumpulan data sekaligus, jadi Anda akan selalu menggabungkan kumpulan data di memori (kumpulan data master) dengan kumpulan data lain pada disk (disebut kumpulan data yang digunakan, untuk alasan yang akan jelas saat Anda melihat Sintaksnya). Menambahkan Data Set Stata menyebutnya menambahkan ketika Anda menambahkan pengamatan dari penggunaan kumpulan data ke kumpulan data master. Menambahkan masuk akal saat pengamatan di kedua kumpulan data mewakili hal yang sama, tapi bukan hal yang sama. Misalnya, Anda mungkin menambahkan kumpulan data orang dari Wisconsin ke kumpulan data orang-orang dari Illinois. Kumpulan data harus memiliki variabel yang sama atau kebanyakan sama, dengan nama yang sama. Jika sebuah variabel hanya muncul dalam satu kumpulan data, pengamatan dari kumpulan data lainnya akan diberikan nilai yang hilang untuk variabel tersebut. Sintaksnya adalah untuk melakukan penambahan sederhana: muat kumpulan data master dan ketik: tambahkan menggunakan dataset dimana dataset adalah nama kumpulan data yang ingin Anda tambahkan. Penggabungan Kumpulan Data Stata menyebutnya penggabungan saat pengamatan dari dua kumpulan data digabungkan. Ada empat teori penggabungan: Dalam penggabungan satu lawan satu, satu pengamatan dari kumpulan data master digabungkan dengan satu pengamatan dari kumpulan data yang digunakan. Gabungan satu lawan satu masuk akal saat pengamatan di kedua kumpulan data menggambarkan hal yang sama, namun memiliki informasi yang berbeda tentang mereka. Misalnya, Anda bisa menggabungkan jawaban yang diberikan orang dalam satu survei dengan jawaban yang diberikan oleh orang yang sama dalam dua survei. Dalam gabungan satu-ke-banyak atau banyak-ke-satu, satu pengamatan dari satu kumpulan data dikombinasikan dengan banyak pengamatan dari yang lain (perbedaan antara satu-ke-banyak dan banyak-ke-satu, apakah kumpulan data master Memiliki kuota kuota atau kumpulan data yang digunakan). Penggabungan ini masuk akal bila Anda memiliki data hierarkis, dan satu kumpulan data berisi informasi tentang level satu unit sementara yang lainnya berisi informasi tentang level dua unit. Misalnya, Anda bisa menggabungkan informasi tentang rumah tangga dengan informasi tentang individu yang tinggal di rumah tangga tersebut. Pada prinsipnya ada juga banyak penggabungan banyak. Dalam prakteknya mereka jarang sekali berguna. Jika Anda merasa ingin melakukan penggabungan banyak-ke-banyak, Anda harus memikirkan kembali apa yang Anda lakukan. Seringkali yang benar-benar perlu Anda lakukan adalah mengidentifikasi dan memperbaiki pengenal duplikat, dan kemudian penggabungan Anda akan bekerja sebagai satu lawan satu atau satu-ke-banyak. Dalam semua gabungan baik dibahas, Stata menggabungkan pengamatan yang memiliki nilai variabel kunci yang sama, biasanya sebuah ID. Anda juga dapat mencocokkan berdasarkan beberapa variabel (misalnya menggabungkan data untuk negara dan tahun yang sama). Dalam gabungan satu-ke-banyak atau banyak-ke-satu, ini adalah pengenal untuk tingkat dua unit yang merupakan variabel kunci (misalnya ID rumah tangga, bukan ID individual). Yang sangat penting bahwa variabel kunci memiliki format yang sama di kedua kumpulan data. Jika pengamatan dalam satu kumpulan data tidak sesuai dengan pengamatan di sisi lain, akan diberikan nilai yang hilang untuk variabel dari kumpulan data lainnya. Karena kelayakan sebuah proyek penelitian sering kali bergantung pada seberapa banyak pengamatan yang benar-benar digabungkan (misalnya, berapa banyak orang dari satu gelombang survei dapat ditemukan dalam gelombang dua) Stata memberi Anda alat untuk mencari tahu berapa banyak pengamatan yang benar-benar digabungkan dan untuk memeriksa pertanyaan yang Tidak. Jika sebuah variabel ada di kedua kumpulan data, nilai dari kumpulan data master akan disimpan dan nilai dari kumpulan data yang digunakan akan dibuang. Terkadang inilah yang Anda inginkan, namun cenderung menjadi kesalahan. Secara umum Anda harus mengatur data Anda sedemikian rupa sehingga satu-satunya variabel file yang akan digabungkan memiliki kesamaan adalah variabel kunci. Sintaks untuk gabungan adalah: menggabungkan tipe keyvars menggunakan dataset Tipe harus 1: 1 (satu-ke-satu), 1: m (satu-ke banyak), m: 1 (banyak ke satu) atau m: M (banyak ke banyak) keyvars adalah variabel kunci atau variabel dan kumpulan data adalah nama dari kumpulan data yang ingin Anda gabungkan. Contoh Menggabungkan Kumpulan Data Contoh mencakup beberapa file yang berisi informasi siswa fiktif dari tahun 2007. scores. dta berisi nilai siswa pada tes standar, demografi. dta berisi informasi demografis tentang mereka, dan guru. dta berisi informasi tentang guru mereka. Luangkan waktu sejenak untuk melihat setiap file, lalu jalankan file do yang memuat skor. Dalam kumpulan data ini, setiap observasi mewakili seorang siswa. Browse dan Anda akan melihat bahwa Anda memiliki ID siswa (id), guru ID (guru) dan skor untuk masing-masing. Tugas pertama Anda adalah menambahkan informasi demografis. Dalam demografi. dta setiap observasi juga mewakili seorang siswa, dengan variabel id dan ras. Jadi ini adalah pekerjaan untuk penggabungan satu lawan satu dan variabel utamanya adalah id. Menggabungkan 1: 1 id menggunakan demografi Stata akan melaporkan bahwa semua 60 observasi cocok. Ini juga akan menciptakan variabel yang disebut penggabungan. Satu di gabungan berarti pengamatan hanya berasal dari data master yang mengatur dua alat itu hanya berasal dari kumpulan data yang digunakan dan tiga artinya pengamatan berhasil dicocokkan dan oleh karenanya berasal dari keduanya. Dalam hal ini kita melihat bahwa semua pengamatan dicocokkan dan dengan demikian memiliki gabungan yang sama dengan tiga, jadi kita tidak perlu menyimpan variabelnya. Sebenarnya kita perlu menjatuhkannya (atau mengganti namanya) sebelum melakukan penggabungan lebih lanjut: Selanjutnya tambahkan informasi tentang guru. Di dalam guru. Setiap pengamatan mewakili seorang guru, dan setiap guru memiliki banyak siswa. Itu membuat ini gabungan banyak-ke-satu (karena banyak siswa saat ini dalam ingatan dan satu guru berada dalam rangkaian data yang digunakan). Variabel kunci bukan id. Karena itu mengacu pada siswa, tapi guru: menggabungkan m: 1 guru menggunakan guru Sekali lagi, semua 60 pengamatan digabungkan dengan benar, sehingga Anda bisa drop merge. Menggabungkan Data Panel Sekarang anggaplah Anda melacak siswa-siswa ini selama beberapa tahun. Kumpulan data panel2007.dta berisi versi penyandian data yang disederhanakan ini: hanya id dan skor. Kumpulan data panel2008.dta memiliki variabel yang sama untuk tahun yang berbeda. Bagaimana Anda menggabungkannya Cara yang tepat untuk menggabungkannya tergantung pada struktur data yang Anda inginkan. Ini adalah data hirarkis dimana tingkat dua unit adalah siswa dan satu level satu unit adalah data siswa untuk tahun tertentu. Dengan demikian dapat diwakili dalam bentuk yang luas (satu observasi per siswa), atau dalam bentuk panjang (satu observasi per siswa per tahun). Untuk memasukkan data dalam bentuk panjang cukup susun dua kumpulan data menggunakan lampiran. Namun, Anda perlu tahu tahun mana setiap pengamatan mewakili. Untuk melakukan itu, tambahkan variabel tahun ke kedua kumpulan data, dengan nilai 2007 untuk data 2007 dan nilai 2008 untuk data tahun 2008. Anda bisa melakukannya dengan file-file berikut ini: hapus semua set lebih banyak dari log close log close menggunakan combine1.log, ganti panel20000 menggunakan gen tahun2007 save panel2007append menggunakan panel2008 gen year2008 menambahkan menggunakan panel2007append save appendedData, ganti Untuk memasukkan data dalam bentuk lebar, Lakukan penggabungan satu-ke-satu dengan id sebagai variabel kunci. Tapi pertama-tama Anda perlu mengganti nama variabel. Ingatlah bahwa dalam bentuk yang luas, itu adalah nama variabel yang memberi tahu Anda level satu unit yang Anda bicarakan. Jadi bukan skor. Anda perlu score2007 dan score2008. Hapus semua set lebih banyak dari log close log log menggunakan combine2.log, ganti menggunakan panel2007 rename score score2007 save panel2007merge gunakan panel2008 rename score score2008 gabungkan 1: 1 id menggunakan panel2007merge save diggedData, ganti Kali ini kamu akan melihat satu pengamatan tidak cocok. Anda bisa melihat yang mana dengan mengetik: Nomor siswa 55 tidak ada di panel2008 dan karenanya tidak bisa diimbangi. Akibatnya, kami tidak tahu apa nilai ujiannya di tahun 2008. Sayangnya, ini sangat umum. Para siswa pindah dari distrik sekolah di antara tes sepanjang waktu. Jika keseluruhan agenda penelitian Anda bergantung pada kedua skor tes tersebut, Anda mungkin perlu membuang pengamatan yang tidak ada di kedua kumpulan data. Anda dapat melakukannya pada titik ini dengan menambahkan: drop jika merge3 Anda juga dapat menentukan observasi mana yang harus disimpan secara langsung dalam perintah penggabungan: menggabungkan 1: 1 id menggunakan panel2007merge, tetap menjaga (match) tetap berarti hanya menjaga pengamatan yang sesuai . Alternatifnya adalah master dan penggunaan. Dan Anda bisa daftar lebih dari satu. Misalnya, untuk menjaga pengamatan yang sesuai dan pengamatan yang hanya berasal dari kumpulan data master, sembari membuang pengamatan yang hanya berasal dari penggunaan kumpulan data, Anda bilang tetap (master match). Masalah Umum dengan Merges Merges akan mengungkap segala macam masalah dengan kumpulan data Anda (dan jika mereka tidak melakukan penggabungan tetap akan mengenalkan yang baru). Berikut adalah dua metode umum dan cara memperbaikinya: Variabel Kunci Disimpan dalam Format yang Berbeda Sementara Stata dengan senang hati akan mencocokkan berbagai jenis angka (contoh dan pelampung, misalnya), cant cocok dengan angka dan senar. ID dapat disimpan sebagai salah satu (selama Anda memilih tipe numerik yang memiliki cukup presisi. Bekerja dengan Data) dan tidak jarang menemukan bahwa kumpulan data Anda menyimpan ID dengan cara yang berbeda. Dalam hal ini biasanya paling baik untuk mengubah angka menjadi string: gen idStringstring (id) drop id rename idString id Fungsi string () mengambil sebuah angka dan mengubahnya menjadi sebuah string. Anda bisa memberikan argumen kedua yang berisi format di mana nomor tersebut harus dituliskan jika diperlukan. ID duplikat Jika Anda mencoba melakukan penggabungan dan Anda mendapatkan pesan kesalahan seperti id quotvariable tidak secara unik mengidentifikasi pengamatan di dataquot master ini berarti Anda memiliki ID duplikat pada kumpulan data yang disebutkan. Masalah ini harus diperbaiki sebelum Anda melanjutkan. Jangan hanya mengubah jenis penggabungan untuk kumpulan data yang relevan dari kuotot kuotasi ke quotmanyquot dengan harapan agar pesan kesalahan hilang. Akibatnya, kumpulan data yang dihasilkan tidak akan masuk akal untuk pengamatan yang terpengaruh. Salah satu sumber duplikat yang mungkin adalah kesalahan round-off karena menyimpan ID dalam tipe variabel yang tidak sesuai. Dalam kasus ini, Anda harus kembali ke data asli dan memastikan pengenal disimpan sebagai tipe yang tidak sesuai dengan mereka, seperti panjang, ganda, atau string. Perhatikan bahwa untuk tujuan penggabungan, nilai yang hilang diperlakukan seperti nilai lainnya. Jika Anda memiliki pengamatan dengan ID ID yang hilang akan menghitungnya sebagai duplikat. Mungkin Anda harus menurunkannya sebelum digabungkan. Namun sebagian besar duplikat ID hasil dari kesalahan dalam data. Anda harus melakukan sesuatu terhadap mereka sebelum Anda dapat melakukan penggabungan Anda. Jalankan file do yang memuat data set mergeerror. Kumpulan data ini berisi siswa, namun beberapa di antaranya memiliki ID duplikat yang perlu diperbaiki. Anda dapat melihat berapa banyak masalah yang Anda hadapi dengan laporan duplikat: id laporan duplikat Ini memberi tahu Anda berapa banyak pengamatan memiliki nilai id yang sama. Keluaran memberitahu Anda bahwa tidak ada ID yang muncul lebih dari dua kali, namun dua belas pengamatan memiliki ID duplikat. Untuk pemeriksaan lebih lanjut, buat sebuah variabel yang memberitahu Anda berapa banyak salinan yang ada dari masing-masing ID: bysort id: gen copiesN Kemudian Anda dapat melihat hanya masalah pengamatan dengan: browse if copygt1 Untuk pengamatan dengan id sama dengan 9, 26, dan 33, kedua pengamatan dengan ID yang sama identik. Hal ini menunjukkan bahwa siswa yang sama telah masuk dua kali dan Anda dapat memperbaiki masalahnya dengan hanya membuang pengamatan ekstra. Lakukan dengan: Perhatikan bahwa tidak seperti perintah laporan duplikat yang Anda jalankan sebelumnya, perintah ini tidak memiliki varlist. Ini berarti hanya tetes pengamatan duplikat jika mereka memiliki nilai yang sama untuk semua variabel, bukan hanya id. Anda bisa memberikannya sebuah varlist sehingga bisa menurunkan pengamatan jika hanya variabel-variabel tersebut memiliki nilai yang sama, namun berhati-hatilah melakukannya. Pada titik ini dalam masalah kompleks Anda mungkin ingin menjatuhkan variabel salinan yang Anda buat sebelumnya dan membuatnya jadi telusuri jika salinan tidak akan lagi menunjukkan pengamatan yang telah Anda tetapkan, namun tidak perlu dilakukan dalam kumpulan data ini. Untuk pengamatan dengan id sama dengan 64, 74, dan 94, variabel lainnya menunjukkan bahwa pengamatan dengan ID yang sama tidak sama. Ini adalah masalah utama untuk penggabungan: Anda tidak dapat memastikan data kuotasi mana yang ada dalam kumpulan data ini sesuai dengan kuotot kuotasi pada kumpulan data hipotetis lainnya. Menambahkan lebih banyak variabel dapat membantu. Misalnya, dalam kasus ini, penggabungan oleh id dan ras akan memungkinkan Anda mencocokkan kedua subjek dengan id sama dengan 94. Penggabungan dengan id. ras. Dan kelas akan memungkinkan Anda untuk benar sesuai dengan subjek dengan id sama dengan 74. Perlu diingat bahwa jika kumpulan data yang ingin Anda gabungkan dengan yang satu ini adalah untuk tahun ajaran berikutnya seperti pada contoh sebelumnya, Anda harus mengurangi satu dari yang Kelas pertama. Jika Anda memilih untuk pergi ke rute ini, buat ulang variabel salinan dengan menggunakan kumpulan variabel lengkap yang akan Anda cocokkan dengan awalan dan lihat berapa banyak duplikat yang tersisa. Tidak ada yang akan membantu kedua observasi dengan id sama dengan 64, dan dalam kumpulan data yang lebih besar, kemungkinannya lebih kecil yang cocok dengan beberapa variabel lagi akan memungkinkan Anda mengidentifikasi subjek secara unik. Dalam kasus seperti itu, Anda mungkin perlu membuang semua pengamatan yang tidak dapat Anda identifikasi secara unik, karena Anda andal tidak dapat mencocokkannya. Anda bisa melakukannya dengan: drop jika copygt1 Cara alternatif untuk menggabungkan kumpulan data menjadi bentuk yang luas adalah dengan terlebih dahulu menambahkannya dan kemudian membentuk kembali. Kombinasikan panel2007 dan panel2008 ke dalam bentuk lebar dengan menggunakan metode ini. (Solusi) Jika Anda menggabungkan dua tahun data menjadi bentuk panjang dengan menggunakan tambahan. Bagaimana Anda bisa menemukan pengamatan yang tidak muncul pada tahun 2008 (Solusi) Kombinasikan error2007.dta dan error2008.dta dengan menggabungkannya ke dalam bentuk yang luas, memperbaiki masalah apa pun yang Anda temukan. Kemudian tambahkan dua kumpulan data dan coba cari masalah yang sama. (Solusi) Revisi Terakhir: 12292015
No comments:
Post a Comment