Masalah yang dihadapi dalam Data Mining

Masalah yang dihadapi dalam Data Mining

Data mining bukanlah tugas yang mudah, karena algoritma yang digunakan bisa menjadi sangat kompleks dan data tidak selalu tersedia di satu tempat. Perlu diintegrasikan dari berbagai sumber heterogen data. Faktor-faktor ini juga membuatbeberapa masalah. 
sebelum lebih lanjut silahan baca postingan sebelumnya mengenai pengenalan dan tugas utama data mining. 
Postingan Terkait : Apa itu Data Mining? dan  Tugas Utama Data Mining
Di sini dalam postingan ini, kita akan membahas masalah - masalah utama mengenai data mining seperti dibawah ini −
  • Pertambangan metodologi dan interaksi pengguna
  • Masalah kinerja
  • Jenis masakah Data beragam 
Diagram berikut menjelaskan masalah besar.
Masalah yang dihadapi dalam Data Mining

*Penjelasan Dari gambar dibawah ini :

Metodologi Data Mining dan masalah pada interaksi pengguna

Ia merujuk kepada jenis berikut − masalah
  • Mining jenis pengetahuan dalam database / Mining different kinds of knowledge in databases − pengguna yang berbeda mungkin tertarik dalam berbagai jenis pengetahuan. Oleh karena itu sangatlah penting untuk data pertambangan untuk menutupi berbagai pengetahuan penemuan tugas.
  • Interaktif pengetahuan data mining di berbagai tingkat abstraksi / Interactive mining of knowledge at multiple levels of abstraction − proses data mining perlu interaktif karena hal itu memungkinkan pengguna untuk fokus mencari pola, menyediakan dan menyempurnakan permintaan pertambangan data berdasarkan hasil yang dikembalikan.
  • Proses penggabungan / Incorporation of background knowledge − pengetahuan latar belakang penemuan panduan dan untuk mengekspresikan pola ditemukan tidak hanya dalam istilah yang ringkas tetapi di beberapa tingkatan abstraksi.
  • Permintaan bahasa data mining dan ad hoc data mining / Data mining query languages and ad hoc data mining− Data mining Query language yang memungkinkan pengguna untuk menggambarkan tugas-tugas di Adhoc minging, harus diintegrasikan dengan data gudang bahasa query dan dioptimalkan untuk memening data sehingga efisien dan fleksibel.
  • Presentasi dan visualisasi hasil data minig  / Presentation and visualization of data mining results − setelah pola ditemukan perlu dinyatakan dalam bahasa tingkat tinggi, dan presentasi visual. Pernyataan ini harus mudah di mengerti.
  • Penanganan data bising atau tidak lengkap / Handling noisy or incomplete data − data cleaning metode diperlukan untuk menangani noisy dan benda-benda yang tidak lengkap sementara data mining akan keteraturan. Jika metode data cleaning tidak ada ketepatan pola ditemukan akan menjadi buruk.
  • Pattern evaluation -  Evaluasi pola menemukan harus menarik karena baik mereka mewakili kebaruan pengetahuan atau kekurangan yang umum.

Masalah kinerja

Ada beberaoa masalah yang berkaitan dengan kinerja seperti − berikut
  • Efisiensi dan skalabilitas data mining / Efficiency and scalability of data mining algorithms− algoritma untuk secara efektif mengekstrak informasi dari sejumlah besar data dalam database, data pertambangan algoritma harus efisien dan scalable.
  • Paralel, didistribusikan dan inkremental mining algoritma / Parallel, distributed, and incremental mining algorithms − faktor-faktor seperti ukuran besar database, distribusi data, dan kompleksitas dari metode pertambangan data memotivasi pengembangan data paralel dan didistribusikan mining algoritma. Algoritma ini membagi data ke partisi yang diproses lebih lanjut dalam mode paralel. Kemudian hasil dari partisi digabungkan. Algoritma inkremental, update database tanpa pertambangan data lagi dari awal.

Jenis Masalah Data beragam

  • Handling of relational and complex types of data / Penanganan relasional dan kompleks jenis data − database dapat berisi objek datayang kompleks, objek multimedia data, data spasial, temporal data dll. Hal ini tidakmungkin untuk satu sistem untuk mining semua jenis data ini.
  • Mining information from heterogeneous databases and global information systems / Pertambangan informasi dari database heterogen dan informasi global sistem − data tersedia di sumber data yang berbeda pada LAN atau WAN. Sumber data ini mungkin terstruktur, semi terstruktur atau tidak terstruktur. Oleh karena itu pengetahuan mining dari mereka menambah tantangan data mining.

source : Here 
Blogger
Disqus
Pilih Sistem Komentar Yang Anda Sukai

No comments