Artikel Data Base: Data Mining

Data mining adalah proses penggalian pola dari data. Data mining menjadi alat yang semakin penting untuk mengubah data menjadi informasi. Hal ini umumnya digunakan dalam berbagai profil praktek, seperti pemasaran, pengawasan, deteksi penipuan dan penemuan ilmiah.

Data mining dapat digunakan untuk menemukan pola dalam data tetapi sering dilakukan hanya pada sampel data. Proses pertambangan tidak akan efektif jika sampel bukan merupakan representasi yang baik dari tubuh yang lebih besar dari data. Data mining tidak dapat menemukan pola-pola yang mungkin ada dalam tubuh lebih besar dari data jika pola-pola yang tidak hadir dalam sampel yang "ditambang". Ketidakmampuan untuk menemukan pola bisa menjadi penyebab untuk beberapa perselisihan antara pelanggan dan penyedia layanan. Oleh karena itu data mining tidak sangat mudah, namun mungkin berguna jika cukup representatif sampel data dikumpulkan. Penemuan pola tertentu dalam satu set data tertentu tidak berarti bahwa suatu pola ditemukan di tempat lain pada data yang lebih besar dari sampel yang diambil. Sebuah bagian penting dari proses ini adalah verifikasi dan validasi pola pada data sampel lainnya.

Istilah terkait data pengerukan, penangkapan ikan mengintip data dan data mengacu pada penggunaan data mining teknik untuk ukuran sampel yang (atau mungkin) terlalu kecil untuk kesimpulan statistik yang akan dibuat mengenai validitas dari setiap pola yang ditemukan (lihat juga data-mengintip bias). Data pengerukan mungkin, bagaimanapun, digunakan untuk mengembangkan hipotesis baru, yang kemudian harus divalidasi dengan set sampel cukup besar.

Latar Belakang

Manusia telah "secara manual" penggalian pola dari data selama berabad-abad, tetapi meningkatnya volume data dalam zaman modern telah menyerukan pendekatan otomatis lebih. Awal metode untuk mengidentifikasi pola-pola dalam data termasuk teorema Bayes '(1700) dan analisis regresi (1800). Proliferasi, ubiquity dan meningkatkan kekuatan teknologi komputer telah meningkat pengumpulan data dan penyimpanan. Sebagai kumpulan data telah tumbuh dalam ukuran dan kompleksitas, langsung tangan-data analisis telah semakin telah ditambah dengan tidak langsung, pengolahan data otomatis. Ini telah dibantu oleh penemuan lain dalam ilmu komputer, seperti jaringan saraf, clustering, algoritma genetika (1950), pohon keputusan (1960) dan dukungan mesin vektor (1980). Data mining adalah proses penerapan metode ini untuk data dengan tujuan mengungkap pola-pola tersembunyi [1] telah digunakan selama bertahun-tahun oleh bisnis., Ilmuwan dan pemerintah untuk menyaring volume data seperti catatan perjalanan maskapai penumpang, data sensus dan supermarket scanner data untuk menghasilkan laporan-laporan riset pasar. (Catatan, bagaimanapun, melaporkan bahwa tidak selalu dianggap sebagai data mining.)

Alasan utama untuk menggunakan data mining adalah untuk membantu dalam analisis koleksi pengamatan perilaku. data tersebut rentan terhadap collinearity karena kesalingterkaitan diketahui. Sebuah kenyataan yang tak terhindarkan data mining adalah bahwa (sub-) set (s) dari data yang dianalisis mungkin tidak representatif dari domain keseluruhan, dan karena itu tidak mungkin berisi contoh hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi masalah seperti ini, analisis dapat ditambah dengan menggunakan pendekatan berbasis percobaan dan lainnya, seperti Choice Pemodelan data yang dihasilkan manusia. Pada situasi ini, korelasi baik yang melekat dapat dikendalikan, atau dihapus sama sekali, selama konstruksi dari desain eksperimental.

Ada beberapa upaya untuk menentukan standar untuk data mining, misalnya Salib Eropa 1999 Standar Industri Proses Data Mining (DM Crisp-1.0) dan Java 2004 Data standar Pertambangan (JDM 1.0). Ini adalah berkembang standar; versi terbaru dari standar tersebut sedang dalam pengembangan. Independen upaya-upaya standardisasi, sistem perangkat lunak bebas tersedia open-source seperti Proyek R, weka, KNIME, RapidMiner dan lain-lain telah menjadi standar informal untuk menentukan proses data-mining. Tiga pertama dari sistem ini dapat mengimpor dan mengekspor model di PMML (Predictive Model Markup Language) yang menyediakan cara standar untuk mewakili model data mining sehingga ini dapat dibagi antara aplikasi statistik yang berbeda. PMML adalah bahasa berbasis XML yang dikembangkan oleh Data Mining Group (DMG) [2], sebuah kelompok independen yang terdiri dari banyak data perusahaan pertambangan. PMML versi 4.0 dirilis pada bulan Juni 2009. [2] [3] [4]

Penelitian dan evolusi

Selain permintaan industri didorong untuk standar dan interoperabilitas, kegiatan profesional dan akademik juga memberikan kontribusi cukup besar bagi evolusi dan kekakuan metode dan model; artikel yang diterbitkan dalam edisi 2008 dari International Journal Teknologi Informasi dan Pengambilan Keputusan merangkum hasil survei literatur yang melacak dan menganalisis evolusi ini. [5]

Tubuh profesional utama di lapangan adalah Asosiasi Interest Group Khusus Komputasi Mesin pada Knowledge Discovery dan Data Mining (SIGKDD). [Rujukan?] Sejak tahun 1989 mereka telah menjadi tuan rumah konferensi internasional tahunan dan diumumkan proses nya, [6] dan sejak tahun 1999 telah menerbitkan sebuah jurnal akademik dua tahunan berjudul "SIGKDD Explorations". [7] Lainnya Ilmu Komputer konferensi meliputi penambangan data:

* DMIN - International Conference on Data Mining; [8]
* DMKD - Penelitian Masalah pada Data Mining dan Knowledge Discovery;
* Konferensi Eropa ECML-PKDD - pada Mesin Belajar dan Prinsip-prinsip dan Praktek Discovery Pengetahuan di Database;
* ICDM - Konferensi Internasional IEEE pada Data Mining; [9]
* MLDM - Mesin Belajar dan Data Mining di Pengakuan Pola;
* SDM - Konferensi Internasional Siam pada Data Mining
* EDM - Konferensi Internasional Pertambangan Data Pendidikan

Process

Pra-pemrosesan

Sebelum algoritma data mining dapat digunakan, data sasaran satu set harus dirakit. Sebagai data mining hanya dapat mengungkap pola-pola yang sudah ada dalam data, dataset target harus cukup besar untuk memuat pola-pola ini sambil tetap cukup ringkas akan ditambang dalam jangka waktu yang diterima. Sebuah sumber yang sama untuk data adalah datamart atau gudang data. Pra-proses sangat penting untuk menganalisis dataset clustering atau multivariat sebelum data mining.

Target yang ditetapkan kemudian dibersihkan. Membersihkan menghapus pengamatan dengan suara dan data yang hilang.

Data yang bersih berkurang menjadi vektor fitur, salah satu vektor per observasi. Sebuah vektor ciri adalah versi diringkas dari pengamatan data mentah. Misalnya, gambar hitam dan putih wajah yang 100px dengan 100px akan berisi 10.000 bit data mentah. Hal ini mungkin akan berubah menjadi sebuah vektor fitur dengan menempatkan mata dan mulut dalam gambar. Melakukan hal tersebut akan mengurangi data untuk setiap vektor dari 10.000 bit kode untuk ke tiga lokasi, secara dramatis mengurangi ukuran dataset yang akan ditambang, sehingga mengurangi usaha pengolahan. Fitur (s) yang dipilih akan tergantung pada apa tujuan (s) adalah / adalah; jelas, memilih yang "benar" fitur (s) adalah dasar data mining yang sukses.

Vektor fitur dibagi menjadi dua kelompok, himpunan "pelatihan" dan "set test". Set pelatihan digunakan untuk "melatih" algoritma data mining (s), sedangkan set tes digunakan untuk memverifikasi keakuratan segala pola yang ditemukan.

Data mining umumnya melibatkan kelas empat tugas: [10]

* Clustering - adalah tugas menemukan kelompok-kelompok dan struktur dalam data yang dalam beberapa cara atau yang lain "sama", tanpa menggunakan struktur yang dikenal dalam data.
* Klasifikasi - adalah tugas generalisasi dikenal struktur untuk diterapkan ke data baru. Sebagai contoh, sebuah program email yang mungkin mencoba untuk mengklasifikasikan email sebagai sah atau spam. algoritma pohon keputusan umum termasuk belajar, tetangga terdekat, klasifikasi Bayesian naif dan jaringan syaraf.
* Regresi - Upaya untuk menemukan sebuah fungsi yang model data dengan kesalahan minimal.
* Asosiasi aturan belajar - Mencari hubungan antara variabel-variabel. Misalnya supermarket dapat mengumpulkan data tentang kebiasaan membeli pelanggan. Menggunakan aturan asosiasi belajar, supermarket bisa menentukan produk yang sering dibeli bersama-sama dan menggunakan informasi ini untuk tujuan pemasaran. Ini kadang-kadang disebut sebagai analisis pasar keranjang.
* Lihat juga analisis data terstruktur.

validasi

Langkah terakhir dari penemuan pengetahuan dari data adalah untuk memverifikasi pola yang dihasilkan oleh algoritma data mining terjadi dalam data set yang lebih luas. Tidak semua pola yang ditemukan oleh algoritma data mining yang harus berlaku. Adalah umum untuk algoritma data mining untuk menemukan pola dalam training set yang tidak hadir dalam data umum ditetapkan, ini disebut overfitting. Untuk mengatasi hal ini, evaluasi menggunakan tes set data yang algoritma data mining tidak dilatih pada. Pola belajar yang diterapkan untuk ini menetapkan pengujian dan output yang dihasilkan dibandingkan dengan keluaran yang diinginkan. Sebagai contoh, sebuah algoritma data mining mencoba untuk membedakan spam dari email yang sah akan dilatih pada training set email sampel. Setelah dilatih, pola belajar akan diterapkan pada tes set email yang belum terlatih, keakuratan pola-pola ini kemudian dapat diukur dari berapa banyak email mereka dengan benar mengklasifikasikan. Sejumlah metode statistik dapat digunakan untuk mengevaluasi algoritma seperti kurva ROC.

Jika pola belajar tidak memenuhi standar yang diinginkan, maka perlu mengevaluasi kembali dan mengubah preprocessing dan data mining. Jika pola belajar tidak memenuhi standar yang diinginkan maka langkah terakhir adalah menafsirkan pola belajar dan mengubahnya menjadi pengetahuan.

terkenal menggunakan

Business

Data mining dalam aplikasi manajemen hubungan pelanggan dapat memberikan kontribusi signifikan terhadap bottom line. Alih-alih secara acak menghubungi calon pelanggan atau pelanggan melalui call center atau mengirim surat, perusahaan dapat berkonsentrasi pada prospek usaha yang diperkirakan memiliki tinggi kemungkinan menanggapi penawaran. metode canggih lebih lanjut dapat digunakan untuk mengoptimalkan sumber daya di seluruh kampanye, sehingga orang dapat memprediksi saluran dan yang menawarkan seorang individu yang paling mungkin untuk menanggapi - di semua menawarkan potensi. Selain itu, aplikasi canggih dapat digunakan untuk mengotomatisasi surat tersebut. Setelah hasil dari data pelanggan pertambangan (/ calon pelanggan potensial dan saluran / menawarkan) ditentukan, aplikasi "canggih" dapat secara otomatis mengirim e-mail atau surat biasa. Akhirnya, dalam kasus di mana banyak orang akan mengambil tindakan tanpa menawarkan, pemodelan mengangkat dapat digunakan untuk menentukan orang akan memiliki peningkatan terbesar dalam menanggapi jika diberi penawaran. Clustering data juga dapat digunakan untuk secara otomatis menemukan segmen atau kelompok dalam mengatur data pelanggan.

Bisnis menggunakan data mining dapat melihat hasil investasi, tetapi juga mereka mengakui bahwa jumlah model prediksi dapat dengan cepat menjadi sangat besar. Daripada satu model untuk memprediksi berapa banyak pelanggan yang akan churn, bisnis bisa membangun model terpisah untuk masing-masing daerah dan jenis pelanggan. Kemudian daripada mengirim penawaran kepada semua orang yang cenderung churn, hanya mungkin ingin mengirim menawarkan bagi pelanggan yang kemungkinan akan menawarkan. Dan akhirnya, itu juga mungkin ingin menentukan pelanggan akan menguntungkan atas jendela waktu dan hanya mengirim menawarkan kepada mereka yang kemungkinan besar akan menguntungkan. Dalam rangka mempertahankan jumlah model, mereka perlu untuk mengelola versi model dan pindah ke pertambangan data otomatis.

Data mining juga dapat membantu untuk departemen sumber daya manusia dalam mengidentifikasi karakteristik karyawan mereka yang paling sukses. Informasi yang diperoleh, seperti perguruan tinggi dihadiri oleh karyawan yang sangat sukses, dapat membantu SDM recruiting fokus upaya sesuai. Selain itu, Strategis aplikasi Enterprise Management membantu perusahaan menerjemahkan tujuan tingkat korporasi, seperti laba dan target margin saham, menjadi keputusan operasional, seperti rencana produksi dan tingkat tenaga kerja. [11]

Contoh lain dari data mining, sering disebut analisis keranjang pasar, berkaitan dengan penggunaannya dalam penjualan ritel. Jika toko pakaian mencatat pembelian pelanggan, sistem data-mining bisa mengidentifikasi para pelanggan yang mendukung lebih dari yang kemeja sutera kapas. Meskipun beberapa penjelasan hubungan mungkin sulit, mengambil keuntungan dari lebih mudah. Contoh yang berkaitan dengan aturan asosiasi dalam data transaksi berbasis. Tidak semua data transaksi berdasarkan aturan dan logis atau tidak tepat juga dapat hadir dalam database. Dalam aplikasi manufaktur, aturan eksak mungkin menyatakan bahwa 73% produk yang memiliki cacat tertentu atau masalah akan mengembangkan masalah sekunder dalam enam bulan ke depan.

Analisis keranjang pasar juga telah digunakan untuk mengidentifikasi pola pembelian dari konsumen Alpha. Alpha Konsumen adalah orang yang memainkan peran kunci dalam menghubungkan dengan konsep di balik sebuah produk, kemudian mengadopsi produk tersebut, dan akhirnya memvalidasi untuk sisa masyarakat. Menganalisis data yang dikumpulkan pada pengguna jenis ini telah memungkinkan perusahaan untuk memprediksi tren masa depan dan tuntutan membeli perkiraan pasokan.

Data Mining adalah alat yang sangat efektif dalam industri pemasaran katalog. Catalogers memiliki sejarah yang kaya dari transaksi nasabah pada jutaan pelanggan sejak beberapa tahun. alat pertambangan Data dapat mengidentifikasi pola-pola di antara pelanggan dan membantu mengidentifikasi pelanggan yang paling mungkin untuk merespon kampanye mailing mendatang.

Terkait dengan jalur produksi-sirkuit terpadu, sebuah contoh dari data mining adalah dijelaskan dalam makalah "Pertambangan IC Data Uji untuk Optimalkan VLSI Testing" [. 12] Dalam makalah ini penerapan data mining dan analisa keputusan untuk masalah mati- taraf uji fungsional dijelaskan. Percobaan yang disebutkan dalam makalah ini menunjukkan kemampuan menerapkan sistem penambangan data historis mati-tes untuk membuat model probabilistik pola kegagalan mati yang kemudian digunakan untuk menentukan secara real time yang mati untuk menguji berikutnya dan kapan harus berhenti pengujian. Sistem ini telah terbukti, berdasarkan uji eksperimen dengan data historis, memiliki potensi untuk meningkatkan keuntungan produk IC dewasa.

Sains dan teknik

Dalam beberapa tahun terakhir, data mining telah banyak digunakan dalam bidang sains dan teknik, seperti bioinformatika, genetika, pengobatan, pendidikan dan teknik tenaga listrik.

Dalam bidang studi tentang genetika manusia, tujuan penting adalah memahami hubungan pemetaan antara variasi antar-individu dalam urutan DNA manusia dan variabilitas dalam kerentanan penyakit. Dalam istilah awam, adalah untuk mengetahui bagaimana perubahan urutan DNA seseorang mempengaruhi risiko pengembangan penyakit biasa seperti kanker. Hal ini sangat penting untuk membantu meningkatkan diagnosis, pencegahan dan pengobatan penyakit. Penambangan data teknik yang digunakan untuk melakukan tugas ini dikenal sebagai pengurang dimensi multifaktor. [13]

Dalam bidang teknik listrik, teknik data mining telah banyak digunakan untuk memantau kondisi peralatan listrik tegangan tinggi. Tujuan dari pemantauan kondisi adalah untuk memperoleh informasi yang berharga pada status kesehatan isolasi itu peralatan. Clustering data seperti peta mengorganisir diri (SOM) telah diterapkan pada pemantauan getaran dan analisis transformator on-load tap-changer (OLTCS). Menggunakan monitoring getaran, dapat diamati bahwa setiap operasi perubahan tekan menghasilkan sinyal yang berisi informasi tentang kondisi kontak tekan changer dan mekanisme drive. Jelas, posisi tekan yang berbeda akan menghasilkan sinyal yang berbeda. Namun, terdapat variabilitas yang besar antara sinyal kondisi normal untuk posisi keran yang sama persis. SOM telah diterapkan untuk mendeteksi kondisi normal dan untuk memperkirakan sifat kelainan. [14]

Data teknik pertambangan juga telah diterapkan untuk analisis gas terlarut (DGA) pada transformator daya. DGA, sebagai diagnosa untuk gardu listrik, telah tersedia selama bertahun-tahun. Data mining teknik seperti SOM telah diterapkan untuk menganalisis data dan untuk menentukan tren yang tidak jelas dengan teknik DGA rasio standar seperti Segitiga Duval. [14]

Sebuah wilayah keempat aplikasi untuk data mining di bidang ilmu / rekayasa dalam penelitian pendidikan, di mana data mining telah digunakan untuk mempelajari faktor yang menyebabkan siswa memilih untuk terlibat dalam perilaku yang mengurangi mereka belajar [15] dan untuk memahami faktor-faktor yang mempengaruhi mahasiswa retensi. [16] Sebuah contoh yang serupa aplikasi sosial dari data mining adalah penggunaannya dalam keahlian menemukan sistem, dimana deskriptor keahlian manusia diekstrak, dinormalisasi dan diklasifikasikan sehingga memudahkan menemukan ahli, khususnya di bidang ilmiah dan teknis. Dalam cara ini, data mining dapat memfasilitasi memori Kelembagaan.

Contoh lain dari penerapan aplikasi teknik data mining adalah data biomedis difasilitasi oleh ontologi domain, [17] data mining uji klinis, [18] Analisis lalu lintas SOM menggunakan, [19] dan sebagainya.

Dalam surveilans reaksi obat yang merugikan, Uppsala Monitoring Pusat telah, sejak tahun 1998, data yang digunakan untuk metode penambangan secara rutin layar untuk menunjukkan pola pelaporan masalah obat muncul keselamatan di database WHO global 4.600.000 dicurigai obat insiden reaksi yang merugikan [20]. Baru-baru ini, metode yang sama yang telah dikembangkan untuk tambang koleksi besar catatan kesehatan elektronik untuk mengasosiasikan pola temporal resep obat untuk diagnosis medis. [21]

data mining spasial

Spasial data mining adalah penerapan teknik data mining untuk data spasial. Spasial data mining berikut sepanjang fungsi yang sama dalam data mining, dengan tujuan akhir untuk menemukan pola-pola dalam geografi. Sejauh ini, data mining dan Sistem Informasi Geografis (GIS) telah ada sebagai dua teknologi yang terpisah, masing-masing dengan metode sendiri, tradisi dan pendekatan untuk visualisasi dan analisis data. Khususnya, GIS paling kontemporer hanya memiliki fungsionalitas analisis yang sangat dasar spasial. Ledakan besar pada data geografis direferensikan disebabkan oleh perkembangan di bidang TI, pemetaan digital, penginderaan jauh, dan difusi global GIS menekankan pentingnya mengembangkan data driven pendekatan induktif untuk analisis geografis dan pemodelan.

Data mining, yang merupakan sebagian pencarian otomatis untuk pola-pola tersembunyi di dalam database yang besar, menawarkan manfaat potensi besar untuk diterapkan GIS berbasis pengambilan keputusan. Baru-baru ini, tugas mengintegrasikan kedua teknologi telah menjadi kritis, terutama karena berbagai organisasi sektor publik dan swasta yang memiliki database besar dengan data tematik dan referensi geografis mulai menyadari potensi besar informasi yang tersembunyi di sana. Di antara organisasi-organisasi tersebut adalah:

* Kantor yang memerlukan analisis atau penyebaran data statistik geo-referensi
* Layanan kesehatan publik mencari penjelasan dari cluster penyakit
* Lingkungan instansi menilai dampak perubahan pola penggunaan lahan pada perubahan iklim
* Geo-pemasaran perusahaan yang melakukan segmentasi pelanggan berdasarkan lokasi spasial.

Tantangan

Repositori data geospasial cenderung sangat besar. Selain itu, ada GIS dataset sering pecah menjadi fitur dan komponen atribut, yang konvensional diarsipkan dalam sistem manajemen data hibrida. Algoritmik persyaratan berbeda secara substansial untuk relasional (atribut) manajemen data dan untuk topologi (fitur) manajemen data [22]. Terkait dengan ini adalah kisaran dan keragaman format data geografis, yang juga menyajikan tantangan yang unik. The geografis data digital revolusi adalah menciptakan jenis baru dari format data vektor luar "tradisional" dan "raster" format. Geografis repositori data yang semakin meliputi data sakit-terstruktur seperti citra dan geo-referenced multi-media [23].

Ada beberapa tantangan kritis dalam penelitian penemuan pengetahuan geografis dan data mining. Miller dan Han [24] menawarkan daftar berikut topik penelitian muncul di lapangan:

* Mengembangkan dan mendukung gudang data geografis - sifat spasial sering dikurangi menjadi atribut aspatial sederhana dalam gudang data utama. Membuat GDW terpadu membutuhkan memecahkan masalah dalam interoperabilitas data spasial dan temporal, termasuk perbedaan dalam semantik, referensi sistem, geometri, akurasi dan posisi.
* Lebih baik representasi spatio-temporal dalam penemuan pengetahuan geografis - penemuan pengetahuan saat geografis (GKD) teknik umumnya menggunakan representasi yang sangat sederhana tentang objek geografis dan hubungan spasial. Geografis data teknik pertambangan harus mengenali obyek geografis yang lebih kompleks (garis dan poligon) dan hubungan (jarak non-Euclidean, arah, konektivitas dan interaksi melalui disebabkan ruang geografis seperti daerah). Perlu waktu lebih terintegrasi ke dalam representasi geografis dan hubungan.
* Geografis pengetahuan penemuan menggunakan beragam jenis data - teknik GKD harus dikembangkan yang dapat menangani berbagai jenis data di luar raster tradisional dan model vektor, termasuk gambar dan multimedia geo-referensi, serta jenis data dinamis (video streaming, animasi).

Pengawasan

Sebelumnya data mining untuk menghentikan program teroris di bawah pemerintah AS termasuk Informasi Kesadaran Total (TIA) program, Secure Flight (sebelumnya dikenal sebagai Computer-Assisted Penumpang Sistem penyaringan (Capps II)), Analisis, Diseminasi, Visualisasi, Insight, Semantic Peningkatan ( Advise [25]), dan Multistate Anti-Terorisme Pertukaran Informasi (MATRIX). [26] Program-program tersebut telah dihentikan karena kontroversi tentang apakah mereka melanggar amandemen 4 Konstitusi AS, meski banyak program yang dibentuk di bawah mereka terus didanai oleh organisasi yang berbeda, atau di bawah nama yang berbeda. [27]

Dua data yang masuk akal teknik pertambangan dalam konteks memerangi terorisme termasuk "pertambangan pola" dan "pertambangan berbasis data subjek".

Pola mining

"Pola pertambangan" adalah teknik data mining yang melibatkan menemukan pola-pola yang ada dalam data. Dalam konteks ini sering berarti pola kaidah asosiasi. Motivasi awal untuk mencari aturan asosiasi berasal dari keinginan untuk menganalisa data transaksi supermarket, yaitu, untuk memeriksa perilaku pelanggan dalam hal produk yang dibeli. Sebagai contoh, aturan asosiasi "bir ⇒ keripik (80%)" menyatakan bahwa empat dari lima pelanggan yang membeli bir juga membeli keripik.

Dalam konteks pola pertambangan sebagai alat untuk mengidentifikasi kegiatan teroris, National Research Council memberikan definisi sebagai berikut: "Pola berbasis data mining mencari pola (termasuk pola data anomali) yang mungkin terkait dengan aktivitas teroris - pola-pola ini mungkin dianggap sebagai sinyal kecil di laut besar kebisingan. "[28] [29] [30] Pola Pertambangan meliputi daerah-daerah baru seperti Music Information Retrieval (MIR) di mana pola terlihat baik dalam domain temporal temporaldan non diimpor untuk pengetahuan klasik penemuan teknik pencarian.

berbasis data mining Perihal

"Subjek berbasis data mining" adalah teknik data mining yang melibatkan mencari asosiasi antar individu dalam data. Dalam konteks memerangi terorisme, National Research Council memberikan definisi sebagai berikut: "Subjek berbasis data mining menggunakan datum individu atau lainnya yang dianggap memprakarsai, berdasarkan informasi lain, untuk kepentingan tinggi, dan tujuannya adalah untuk menentukan apa yang orang lain atau transaksi keuangan atau gerakan, dll, yang terkait dengan datum memulai "[. 29].

Privasi keprihatinan dan etika

Beberapa orang percaya bahwa data mining itu sendiri adalah netral secara etis [31]. Namun, cara-cara di mana data mining dapat digunakan dapat menimbulkan pertanyaan tentang privasi, legalitas, dan etika. [32] Secara khusus, data mining pemerintah atau komersial set data untuk keamanan nasional atau tujuan penegakan hukum, seperti dalam Program Kesadaran Informasi Jumlah atau dalam menasihati, telah menimbulkan kekhawatiran privasi. [33] [34]

Data mining membutuhkan persiapan data yang dapat mengungkapkan informasi atau pola yang dapat kompromi kewajiban kerahasiaan dan privasi. Sebuah cara yang umum untuk hal ini terjadi adalah melalui agregasi data. Data agregasi adalah ketika data tersebut dicatat, mungkin dari berbagai sumber, dan disatukan sehingga mereka dapat dianalisis [35]. Ini bukan data mining per se, tapi hasil dari penyusunan data sebelum dan untuk tujuan analisis. Ancaman terhadap privasi seseorang datang ke dalam bermain saat data, setelah dikompilasi, menyebabkan penambang data, atau siapapun yang memiliki akses ke yang baru-data yang dikumpulkan set, untuk dapat mengidentifikasi individu-individu tertentu, terutama ketika awalnya data yang anonim.

Disarankan bahwa seseorang dibuat sadar hal berikut sebelum data dikumpulkan:

* Tujuan dari proyek-proyek pengumpulan data dan data mining apapun,
* Bagaimana data akan digunakan,
* Yang akan mampu untuk menambang data dan menggunakannya,
* Keamanan sekitar akses ke data, dan di samping itu,
* Bagaimana data dikumpulkan dapat diupdate [35.]

Di Amerika Serikat, masalah privasi telah agak diatasi dengan kongres mereka melalui bagian pengendalian peraturan seperti Asuransi Kesehatan Portabilitas dan Akuntabilitas Act (HIPAA). The HIPAA memerlukan individu untuk diberikan "informed consent" tentang segala informasi yang mereka berikan dan masa depan yang dimaksudkan dengan menggunakan fasilitas menerima informasi tersebut. Menurut sebuah artikel di Biotech Business Week, "Dalam prakteknya, HIPAA mungkin tidak menawarkan perlindungan yang lebih besar daripada peraturan lama di bidang penelitian, kata AAHC. Lebih penting lagi, tujuan aturan tentang perlindungan melalui informed consent dirusak oleh kompleksitas bentuk-bentuk persetujuan yang dibutuhkan pasien dan peserta, yang mendekati tingkat sifat tdk dimengerti bagi individu rata-rata "[36] ini menekankan perlunya untuk anonimitas data dalam data. agregasi praktek.

Satu tambahan dapat memodifikasi data sehingga mereka anonim, sehingga individu mungkin tidak mudah diidentifikasi [35.] Namun, bahkan de-diidentifikasi data set dapat berisi informasi yang cukup untuk mengidentifikasi individu, seperti yang terjadi ketika wartawan berhasil menemukan beberapa individu berdasarkan sejarah pencarian set yang sengaja dirilis oleh AOL. [37]

survei Marketplace

Beberapa peneliti dan organisasi telah melakukan tinjauan data alat pertambangan dan survei penambang data. Ini mengidentifikasi beberapa kekuatan dan kelemahan dari paket perangkat lunak. Mereka juga memberikan gambaran dari perilaku, pilihan dan pandangan dari penambang data. Beberapa dari laporan ini meliputi:

* Forrester Research 2010 prediktif Analytics dan Data Mining Solutions laporan. [38]
* Analytics Rexer Tahunan Data Miner survei. [39] [40] [41]
* Gartner 2008 "Magic Quadrant" laporan. [42]
* Robert Nisbet's 2006 Tiga Bagian Seri artikel "Data Mining Tools: Yang Salah satunya adalah Terbaik Untuk CRM" [? 43]
* Haughton et al. 'S 2003 Review Data Pertambangan Paket Perangkat Lunak dalam The statistik Amerika. [44]

SUMBER :

http://en.wikipedia.org/wiki/Data_mining

Software Data Mining

Software AC2 –

AC2 adalah seperangkat C / C + + librairies memungkinkan developper dan profesional TI untuk menanamkan fungsi data mining menjadi seperangkat AC2 adalah C / C + + Dan librairies memungkinkan developper profesional TI untuk Artikel menanamkan Fungsi data mining ke perangkat lunak mereka sendiri. AC2 juga tersedia sebagai shell grafis di bawah Windows 3.1/95/NT dan Unix / Motif. AC2 juga tersedia sebagai shell Windows Grafis Di Arus bawah 3.1/95/NT Dan Unix / Motif. AC2 meliputi meliputi AC2
semua langkah dari proses data mining, dari model data (dengan model OO penuh) untuk cross-validasi dan USING * Semua Langkah transovarial data mining, data model USING (Artikel Baru model Penuh OO) untuk Artikel Dan cross-validasi
boot-strapping. boot-strapping.
Kontribusi oleh: Hugues Marty (hugues@isoftSPAM_BLOCKER.fr) Kontribusi Oleh: Hugues Marty (hugues@isoftSPAM_BLOCKER.fr)

AC2 –

AC2 adalah seperangkat C / C + + librairies memungkinkan developper dan profesional TI untuk menanamkan fungsi data mining ke dalam perangkat lunak mereka sendiri. AC2 adalah seperangkat C / C + + librairies memungkinkan Dan developper profesional TI untuk Artikel menanamkan Fungsi data mining dalam perangkat lunak mereka Ke Sendiri. AC2 juga tersedia sebagai shell grafis di bawah Windows 3.1/95/NT dan Unix / Motif. AC2 juga tersedia sebagai shell Windows Grafis Di Arus bawah 3.1/95/NT Dan Unix / Motif. AC2 mencakup semua langkah dari proses data mining, dari model data (dengan model OO penuh) untuk cross-validasi dan boot-tegap. mencakup AC2 * Semua Langkah USING transovarial data mining, data model USING (Artikel Baru Penuh model OO) untuk Artikel Dan boot cross-validasi-tegap. Kontribusi oleh: Cyril Way (cyril@isoftSPAM_BLOCKER.fr) Kontribusi Oleh: Cyril Way (cyril@isoftSPAM_BLOCKER.fr)

Software Q-Hasil

Semikonduktor, MEM, LCD, OLED, Device Nano Dan Hasil

Anda baru saja diproduksi 5.000 perangkat. Artikel Baru saja nama dan Kembali diproduksi 5,000 perangkat.

Tapi 2.398 dari mereka tidak memenuhi spesifikasi .... Tapi mereka tidak USING 2,398 memenuhi spesifikasi ....

Mengapa? Mengapa?

Itulah pertanyaan Q-HASIL dirancang untuk menjawab. Itulah Pertanyaan Q-Hasil dirancang untuk Artikel menjawab.

Apakah Anda yang ramping produksi, memecahkan patung hasil bermasalah, atau debug manufakturabilitas desain baru, Anda perlu alat investigasi kuat dalam gudang senjata Anda. Apakah nama dan Kembali Yang ramping PMDN, memecahkan Patung bermasalah Hasil, Danijel manufakturabilitas debug desain untuk Artikel, nama dan Kembali alat perlu kuat dalam Investigasi nama dan Kembali gudang senjata. Sebuah hasil manufaktur manufaktur alat alat yang menghasilkan berlangganan My Yang cepat akan mencari melalui produksi dan data pengujian dan membantu Anda dengan cepat fokus pada solusi yang tepat. Mencari cepat Perdana akan keanaeragaman PMDN Dan tidak aktif membantu Dan pengujian data nama dan Kembali Artikel Baru cepat Perdana FOKUS PADA Solusi tepat yang.

Hasil adalah variabel yang paling penting dalam proses produksi Anda, apakah Anda memproduksi CMOS, LCD, OLEDs, MEMS atau nano-perangkat. Hasil variabel adalah pagar Yang Penting transovarial dalam nama dan Kembali PMDN, apakah nama dan Kembali memproduksi CMOS, LCD, OLEDs, MEMS nano perangkat-Danijel. Hasil optimasi manajemen dan hasil sangat penting. Dan perbaikan hasil merupakan perbaikan segera di bottom line. Hasil optimasi Manajemen Dan Hasil Yang Penting Garis. Dan menghasilkan peningkatan perbaikan Langsung Yang Di Arus bawah nama dan Kembali.

Tanpa hasil Anda punya apa-apa. Tanpa nama dan Kembali Hasil APA-APA Punya.

Bila hasil rendah Anda perlu mencari alasannya. Bila perlu nama dan Kembali rendah Hasil Mencari alasannya. Anda perlu memeriksa data produksi Anda untuk menentukan parameter peralatan atau salah. data perlu memeriksa nama dan Kembali PMDN nama dan Kembali untuk Artikel menentukan parameter building Danijel Salah.

Menggunakan teknologi miliknya data mining, Q-HASIL dapat membantu mengurangi jam vital atau hari dari waktu yang dibutuhkan untuk menyelesaikan masalah hasil mahal. Menggunakan data eksklusif Teknologi pertambangan, Mahal Q-Hasil dapat membantu mengurangi kemacetan Danijel Yang penting Hari USING dibutuhkan waktu untuk Artikel Hasil menyelesaikan masalah.

Q-HASIL mudah digunakan, tidak memerlukan pelatihan yang ekstensif, dan dapat bekerja pada masalah Anda dalam 24 jam berikutnya. Klik di sini untuk mempelajari lebih lanjut. Q-Hasil Mudah digunakan, tidak memerlukan Pelatihan Yang ekstensif dan Jaksa dapat bekerja PADA masalah nama dan Kembali Di selai berikutnya 24.

Sebagian Besar Hasil Diagnostik hanya alat membantu nama dan Kembali mengkonfirmasi hipotesis.

Apakah itu Masalah A? Apakah ITU Masalah A? Atau Masalah B? Danijel Masalah B?

Tapi kalau Anda sudah tahu bahwa banyak, Anda tidak akan mengalami masalah. Tapi kalau nama dan Kembali sudah Tahu bahwa Banyak, nama dan Kembali tidak akan keanaeragaman mengalami masalah.

Q-HASIL unik. Q-Hasil Unik. Ini menggunakan teknik data mining untuk mengidentifikasi kemungkinan penyebab masalah hasil dari data produksi Anda. Karena cakupan yang menyeluruh, sangat ideal untuk menemukan solusi untuk masalah yang sulit - masalah di mana tersangka biasa bukan penjahat. Suami menggunakan data untuk Artikel Teknik pertambangan mengidentifikasi kemungkinan penyebab masalah USING Hasil cakupan data nama dan Kembali PMDN. KARENA Atas komprehensif yang, Sangat ideal untuk Artikel menemukan Solusi untuk Artikel Yang sulit masalah - masalah Di mana tersangka biasa dengan penjahat untuk hubungi.

pelanggan kami menggunakan Q-HASIL karena: Kami menggunakan pelanggan Q-Hasil KARENA: CD Dan Kasus

* QYIELD menemukan kemungkinan penyebab variasi hasil ... Hasil QYIELD menemukan kemungkinan penyebab variasi ... cepat. cepat Perdana. Kadang-kadang suatu urutan besarnya lebih cepat daripada pendekatan lainnya. Kadang-kadang urutan besarnya lebih cepat Perdana daripada suatu pendekatan Lainnya.
* Hal ini mudah digunakan. Hal inisial Mudah digunakan. Beberapa pelanggan kami telah memperoleh hasil yang bermanfaat dalam beberapa menit menginstal produk. Beberapa pelanggan Kami telah memperoleh Hasil Yang bermanfaat dalam beberapa menit Produk menginstal.
* Ini menangani unnormalized, bias data dengan outlier dan nilai-nilai yang hilang jenis fab menghasilkan data dan statistik buku kebencian. INI menangani unnormalized, data bias Artikel Baru Dan outlier value-value Pemakaian Yang Hilang fab menghasilkan data statistik Buku Dan kebencian.
* Ia bekerja dengan data produksi standar - jenis data yang Anda mungkin sudah memiliki. data bekerja Artikel Baru IA PMDN standar - Pemakaian data Yang mungkin sudah memiliki nama dan Kembali.
* Ini dirancang untuk menangani fab dataset berukuran, tidak dataset hanya berukuran spreadsheet. Hal inisial dirancang untuk Artikel menangani-ukuran dataset fab, untuk hubungi spreadsheet berukuran hanya dataset.
* QYIELD berjalan pada Windows 2000/XP workstation standar. QYIELD berjalan PADA Windows 2000/XP workstation standar.

Hasil Semikonduktor Link (Software untuk Semikonduktor)

"Ield Y Semuanya ... jika Anda tidak memiliki produk yang menghasilkan, Anda tidak punya apa-apa untuk dijual." (Laura Peters, Semiconductor Internasional, Desember 1998) ". Ield Y Semuanya ... jika tidak memiliki nama dan Kembali Produk menghasilkan yang, nama dan Kembali tidak APA-APA Punya 1.998 untuk Artikel menjual." (Laura Peters, Semiconductor International, Desember.)

Halaman ini berisi link ke beberapa artikel online terhadap hasil semikonduktor yang kami temukan menarik. Halaman Suami berisi beberapa link artikel Ke semikonduktor terhadap online Hasil Yang menarik temukan Kami.

* Memisahkan Wafer Semikonduktor Manufaktur Banyak di Bagian I: statistik's Toolbox, Memisahkan Banyak Di manufaktur Wafer Semikonduktor Bagian tidak I: statistik's Toolbox inisial,
Jack E. Reece, Reece Associates, Ltd, George Lake, CO, USA, dan George A. Milliken, Kansas State University, Manhattan, KS, USA Jack E. Reece, Reece Associates, Ltd, Lake George, CO, USA, Dan George A. Milliken, Kansas State University, Manhattan, KS, USA

Artikel ini adalah salah satu dari rangkaian membahas rancangan percobaan biaya-efektif ketika mencoba untuk meningkatkan hasil produksi. Yang menarik dalam pasal ini adalah diskusi tentang bagaimana tabel kebenaran sama dengan tipe yang diproduksi oleh Q-HASIL harus ditafsirkan. Artikel Suami adalah Salah Satu rangkaian USING membahas rancangan eksperimental efektif-biaya untuk Artikel ketika mencoba meningkatkan Hasil PMDN. Yang menarik adalah inisial dalam pasal Diskusi Tentang bagaimana tabel kebenaran untuk Artikel tipe Yang Sama Oleh Q-Hasil ditafsirkan harus diproduksi. Artikel tersebut juga membahas langkah-langkah statistik lainnya. Artikel tersebut juga membahas Lainnya Langkah-Langkah statistik. Lihat juga Bagian II dan Bagian III yang sayangnya tidak terhubung dari Bagian I. Lihat juga Bagian tidak II Dan III Bagian tidak Yang sayangnya tidak terhubung Bagian tidak USING I.
* Hasil Peramalan dalam Industri Semikonduktor Di Peramalan Hasil manufaktur Semikonduktor
PK Nag, W. Maly dan H. Jacobs et al, Nag Carnegie Mellon PK, W. Maly Dan Jacobs H. et al, Carnegie Mellon
Ini bukan kertas tunggal, tapi sebuah link ke situs web dari Y4 (Hasil Peramalan) proyek. Kertas untuk hubungi INI tunggal, tapi untuk berlangganan My link situs web USING Ke Y4 (Hasil Peramalan) Proyek. Anda pernah mendengar tentang permainan SimCity - baik ini adalah SimFab! Pernah mendengar nama dan Kembali Tentang SimCity permainan - Baik adalah inisial SimFab! Proyek ini dikembangkan simulator yang memungkinkan hasil analisis biaya vs trade-off, memprediksi, misalnya, pengaruh gangguan hasil pada learning rate dan biaya. Proyek dikembangkan simulator Suami Yang memungkinkan biaya-off vs menghasilkan analisis PERDAGANGAN, memprediksi, misalnya, gangguan PADA Hasil pengaruh biaya belajar tingkat Dan.

* Meningkatkan Produksi di IC Manufaktur oleh Analisis Statistik dari Database Besar, Meningkatkan PMDN Di manufaktur IC Oleh Analisis Statistik Database USING Besar,
François Bergeret dan Chandon Yves, Motorola Semiconductor. François Yves Bergeret Chandon dan, Motorola Semiconductor.
Ini adalah salah satu koran terbaik yang pernah kulihat dalam pers perdagangan di daerah ini. Suami adalah Salah Satu Yang Terbaik terikat dalam pernah kulihat PERDAGANGAN pers inisial Di Daerah. Para penulis melihat analisis data sebagai teknik yang ampuh untuk digunakan dalam kombinasi dengan kontrol proses statistik dan rancangan percobaan. Para penulis ada posting analisis data sebagai Kontrol Teknik Ampuh untuk Artikel Artikel Baru Yang digunakan dalam percobaan transovarial Dan Kombinasi rancangan statistik. Meskipun pengetahuan statistik diperlukan untuk memahami beberapa detail, contoh-contoh bekerja memberikan kesan yang baik dari teknik yang digunakan dan hasil yang diperoleh. Meskipun statistik diperlukan pengetahuan untuk Artikel memahami beberapa detail, Contoh-Contoh bekerja memberikan kesan USING Teknik Yang Baik Dan Yang digunakan Hasil Yang diperoleh. (Perhatikan bahwa angka-angka hasil dalam pasal ini disesuaikan untuk kerahasiaan komersial). (Pendapatan Internet Layanan Internet bahwa angka-angka dalam pasal Hasil inisial disesuaikan untuk Artikel kerahasiaan Komersial).

* Semikonduktor Internasional umumnya berisi kolom tentang manajemen hasil dalam setiap masalah, dan dalam masa lalu berisi artikel beberapa fitur menarik yang berhubungan dengan hasil semikonduktor. Semikonduktor Internasional Manajemen umumnya berisi kolom dalam masalah terkait masih berlangsung PADA Hasil, semikonduktor telah Dan Di MASA mengandung Lalu beberapa fitur menarik artikel Artikel Baru Hasil Yang berhubungan.

Sayangnya website mereka telah re-organisasi dan sekarang memerlukan pendaftaran untuk akses, sehingga kita tidak bisa lagi menghubungkan Anda langsung ke beberapa artikel yang lebih baik di situs mereka. Sayangnya situs mereka telah kembali Organisasi Dan sekarang memerlukan Pendaftaran Akses untuk Artikel, sehingga Kita tidak Bisa Lagi Langsung artikel menghubungkan beberapa nama dan Kembali Ke Yang lebih Baik Di situs mereka. Coba gunakan kotak pencarian mereka untuk mencari "Manajemen Produksi" dan melihat melalui artikel arsip lama. Coba mereka menggunakan Kotak untuk Artikel tidak ditemukan Mencari "Manajemen PMDN" Dan ada posting artikel Arsip lama tidak aktif. Perhatikan bahwa langganan gratis untuk majalah ini tersedia untuk individu yang memenuhi syarat. Pendapatan Internet Layanan Internet bahwa langganan gratis untuk Artikel Majalah inisial individu tersedia untuk Artikel Yang memenuhi syarat.

Menggunakan Hasil-Q ™: Studi Kasus berlangganan My

Aku n studi kasus ini, kita berasumsi bahwa Anda bertanggung jawab untuk proses manufaktur semikonduktor. n Feat studi kasus inisial, Kita berasumsi bahwa bertanggung jawab untuk Artikel nama dan Kembali transovarial manufaktur semikonduktor.

Baru-baru ini Anda telah mengamati fluktuasi serius dalam jumlah kegagalan perangkat. Baru-Baru telah mengamati inisial nama dan Kembali dalam fluktuasi Number Serius kegagalan perangkat.

Sebagai langkah pertama, Anda plot grafik kegagalan per wafer melawan waktu: Sebagai Langkah pertama, nama dan Kembali plot Grafik kegagalan per wafer waktu Melawan:

Gambar 1

Tidak tampak untuk setiap pola data ini. Tidak Tampak data untuk Artikel terkait masih berlangsung POLA Suami. Secara khusus, tidak ada korelasi yang jelas dengan acara-acara seperti perubahan peralatan atau pemeliharaan pencegahan. Secara Khusus, tidak Ada korelasi Yang jelas acara-acara Artikel Baru seperti perubahan building Danijel Pemeliharaan pencegahan. Sekarang Anda perlu melihat lebih keras. Sekarang nama dan Kembali keras ada posting lebih perlu.

Dari database produksi Anda Anda men-download semua parameter proses bets yang bersangkutan. USING database nama dan Kembali PMDN parameter nama dan Kembali * Semua orang-download transovarial taruhan Yang bersangkutan. Dalam hal ini (disederhanakan) contoh, ada 61 parameter proses dan catatan 367 proses. Dalam Hal Suami (disederhanakan) Contoh, Ada 61 parameter transovarial transovarial Dan 367 Catatan.

Anda mempertimbangkan untuk membuat plot pencar jumlah kegagalan terhadap masing-masing dari 61 variabel. Nama dan Kembali mempertimbangkan untuk Artikel membuat plot pencar Number kegagalan terhadap masing-masing 61 USING variabel.
Tapi mungkin hubungan ini lebih dari satu variabel. Tapi mungkin lebih coal Suami USING Satu variabel.

Ada kemungkinan 1,830 plot pencar doa variabel. Ada kemungkinan plot 35,990 3 variabel, dan Komentar (RSS asumsi nama dan Kembali dapat menemukan Cara Yang Baik untuk Artikel memvisualisasikan mereka). Misalkan bahwa Anda hanya mengambil 15 detik untuk membuat dan melihat setiap plot, dan bahwa Anda mengabaikan plot dari tiga atau lebih variabel, yaitu sekitar delapan jam kerja padat. Misalkan bahwa nama dan Kembali hanya mengambil 15 Detik untuk Artikel Dan membuat plot ada posting terkait masih berlangsung dan Jaksa bahwa nama dan Kembali plot USING mengabaikan variabel Tiga Danijel lebih, sekitar delapan jam padat Kerja Kronik Film.

Dan itu adalah dengan asumsi bahwa Anda tidak kehilangan apa-apa. Artikel Baru Dan ITU adalah asumsi bahwa nama dan Kembali tidak kehilangan APA-APA.

Jika Anda mulai bekerja sekarang dan tidak terganggu, Anda mungkin hanya selesai sebelum awal shift.Time Anda berikutnya untuk mencari solusi yang lebih baik. Jika nama dan Kembali mulai bekerja Dan sekarang tidak terganggu, nama dan Kembali mungkin hanya selesai sebelum shift.Time nama dan Kembali Mutasi berikutnya untuk Artikel Mencari Solusi Baik lebih yang.

Anda memulai salinan Q-HASIL dan impor data di atas ditetapkan. Nama dan Kembali memulai salinan Q-Hasil Dan Data Di Atas impor ditetapkan. Sebagai langkah pertama, Anda memeriksa distribusi kegagalan per wafer. Sebagai Langkah pertama, nama dan Kembali Distribusi memeriksa kegagalan per wafer.

Gambar 2

Tidak jelas petunjuk di sini. Tidak jelas petunjuk Di sini. Tapi itu tidak terlihat seperti mungkin ada distribusi Poisson kegagalan (yang adalah apa yang Anda mengharapkan) dengan distribusi sekunder dikenakan pada ekor dari Poisson. Tapi tidak terlihat seperti ITU mungkin Ada kegagalan Distribusi Poisson (APA adalah Yang Yang mengharapkan nama dan Kembali) Distribusi Artikel Baru sekunder dikenakan PADA ekor USING Poisson. Akibatnya, Anda membuat Q-HASIL mengajukan pertanyaan: di bawah kondisi apakah ada lebih dari 200 kegagalan pada wafer? Akibatnya, nama dan Kembali membuat Q-Hasil mengajukan Pertanyaan: di Arus bawah kondisi apakah lebih USING Ada 200 kegagalan PADA wafer?

14 Detik kemudian, nama dan Kembali memiliki nama dan Kembali Jawaban:

Gambar 3

Tampaknya bahwa kombinasi dari RCN dan parameter bvrcn dapat menjelaskan 89% dari kasus-kasus dimana terdapat lebih dari 200 kegagalan pada wafer. Tampaknya bahwa Kombinasi USING RCN Dan parameter bvrcn dapat menjelaskan 89% kasus-kasus USING dimana terdapat lebih 200 kegagalan USING PADA wafer. Anda klik dua kali pada aturan tersebut untuk mendapatkan informasi lebih lanjut: nama dan Kembali lanjut Anda pilih doa Kali PADA aturan tersebut mendapatkan Informasi lebih untuk Artikel:

Gambar 4

Tampak bahwa tingkat kegagalan yang tinggi tiga kali lebih besar ketika> RCN 21,42 dan RCN bvrcn <21,42>Ada beberapa kegagalan Yang Tinggi, ada posting tabel kontingensi jelas bahwa ITU Hal Bisa menjelaskan sebagian kasus Besar.

Menggunakan HASIL's Q-cepat melihat fasilitas plot pencar, Anda melihat efek dari RCN dan bvrcn pada jumlah kegagalan:

Jelas ada sesuatu di sini yang perlu menyelidiki. Waktu untuk meminta insinyur Anda untuk melihat bvrcn di / tradeoff parameter RCN. Jelas Ada sesuatu Di sini Yang perlu menyelidiki insinyur. Waktu untuk Artikel nama dan Kembali meminta bvrcn parameter ada posting untuk Artikel Artikel Baru / tradeoff RCN.
Anda duduk kembali dengan secangkir kopi Anda dan mencerminkan pada delapan jam Anda simpan. Nama dan Kembali Duduk Artikel Baru Dilaporkan secangkir kopi mencerminkan nama dan Kembali Dan PADA delapan selai simpan nama dan Kembali. Delapan jam Anda tidak perlu membuang 1.891 memeriksa plot pencar ... Delapan jam tidak perlu membuang nama dan Kembali memeriksa plot pencar 1,891 ... Delapan jam di mana lebih batch wafer rusak akan diproses ... Delapan jam Di mana lebih batch diproses Rusak akan keanaeragaman wafer ...
Mungkin ada sesuatu yang bisa dikatakan untuk solusi ™ Q-HASIL ... Mungkin sesuatu Ada Yang Bisa dikatakan untuk Artikel Solusi Hasil ™-Q ...

Sumber :

http://www.isoft.fr/

1 komentar:

Perencanaan Program/Kegiatan/Subkegiatan Rutin Organisasi Perangkat Daerah Kecamatan24 Desember 2016 pukul 21.54
selamat siang
boleh tanya kalo software yang digunakan untuk menemukan pola temporal itu pakai software apa?
atau software untuk clusteringnya pakai software apa ?
terima kasih
BalasHapus
Balasan

Tambahkan komentar

Jumat, 18 Juni 2010

Data Mining