Minggu, 10 April 2011

Web pertambangan Web mining

pertambangan Web merupakan area penelitian yang cepat tumbuh. Ini terdiri dari pertambangan penggunaan Web, pertambangan struktur Web, dan pertambangan konten Web. pertambangan penggunaan Web mengacu pada penemuan pola akses pengguna dari penggunaan Web log. pertambangan struktur Web mencoba untuk menemukan pengetahuan yang berguna dari struktur hyperlink. pertambangan konten Web bertujuan untuk mengekstrak / informasi tambang yang berguna atau pengetahuan dari isi halaman web. Tutorial ini berfokus pada Pertambangan Konten Web.

pertambangan konten Web yang terkait tetapi berbeda dari data mining dan pertambangan teks. Hal ini terkait dengan pertambangan data karena banyak data teknik pertambangan dapat diterapkan di pertambangan konten Web. Hal ini terkait dengan pertambangan teks karena banyak isi web teks. Namun, juga cukup berbeda dari data mining karena data Web terutama semi-terstruktur dan / atau tidak terstruktur, sedangkan data mining terutama berkaitan dengan data terstruktur. pertambangan konten Web ini juga berbeda dari text mining karena sifat semi-struktur dari Web, sementara pertambangan teks berfokus pada teks tidak terstruktur. pertambangan konten Web sehingga memerlukan aplikasi kreatif dari data mining dan / atau teknik teks pertambangan dan juga pendekatan sendiri yang unik. Dalam beberapa tahun terakhir, ada ekspansi yang cepat dari kegiatan di wilayah pertambangan konten web. Hal ini tidak mengherankan karena pertumbuhan fenomenal dari isi Web dan manfaat ekonomi yang signifikan pertambangan tersebut. Namun, karena heterogenitas dan kurangnya struktur data Web, penemuan otomatis informasi pengetahuan yang ditargetkan atau tidak terduga masih ada banyak masalah penelitian yang menantang. Dalam tutorial ini, kita akan membahas masalah konten pertambangan sesudah penting Web dan mendiskusikan teknik yang sudah ada untuk menyelesaikan masalah ini. Beberapa persoalan yang muncul lain juga akan disurvei.

* Data / informasi ekstraksi: Fokus kita akan berada di ekstraksi data terstruktur dari halaman Web, seperti produk dan hasil pencarian. Mengekstrak data tersebut memungkinkan seseorang untuk menyediakan layanan. Dua jenis utama dari teknik, pembelajaran mesin dan ekstraksi otomatis tertutup.
* Informasi integrasi Web dan skema yang cocok: Meskipun Web berisi sejumlah besar data, setiap situs web (atau bahkan halaman) merupakan informasi yang sama berbeda. Bagaimana mengidentifikasi atau mencocokkan data semantik persis adalah masalah yang sangat penting dengan banyak aplikasi praktis. Beberapa teknik yang sudah ada dan masalah diperiksa.
* Opini ekstraksi dari sumber online: Ada banyak pendapat sumber online, misalnya, review pelanggan produk, forum, blog dan chat room. pendapat Pertambangan (terutama opini konsumen) sangat penting untuk intelijen pemasaran dan pembandingan produk. Kami akan memperkenalkan beberapa tugas dan teknik untuk sumber-sumber tambang tersebut.
* Sintesis Pengetahuan: Konsep hierarki atau ontologi berguna dalam banyak aplikasi. Namun, menghasilkan secara manual sangat memakan waktu. Sebuah metode yang sudah ada beberapa yang menggali redundansi informasi dari Web akan disajikan. Aplikasi utamanya adalah untuk mensintesis dan mengatur potongan-potongan informasi di Web untuk memberikan pengguna gambaran koheren dari domain topik ..
* Mengelompokkan halaman Web dan mendeteksi kebisingan: Dalam aplikasi Web banyak, satu hanya ingin isi utama dari halaman Web tanpa iklan, link navigasi, pernyataan hak cipta. Segmentasi secara otomatis halaman Web untuk mengekstrak isi utama dari halaman adalah masalah menarik. Sejumlah teknik yang menarik telah diusulkan dalam beberapa tahun terakhir.

Semua tugas ini tantangan riset besar dan solusi mereka juga memiliki aplikasi langsung kehidupan nyata. Tutorial akan mulai dengan motivasi singkat dari pertambangan konten Web. Kami kemudian mendiskusikan perbedaan antara pertambangan konten web dan pertambangan teks, dan antara konten Web pertambangan dan penggalian data. Hal ini diikuti dengan menghadirkan masalah-masalah di atas dan saat ini state-of-the-art-teknik. Berbagai contoh juga akan diberikan untuk membantu peserta untuk lebih memahami bagaimana teknologi ini dapat dikerahkan dan membantu bisnis. Seluruh bagian dari tutorial akan memiliki campuran rasa penelitian dan industri, menangani konsep penelitian seminalis dan melihat teknologi dari sudut industri.

Tidak ada komentar:

Posting Komentar