Semantic query transformation for the intelligent integration of information sources

IBRAHIM, Ismail Khalil

IBRAHIM, Ismail Khalil, Promotor Prof.Dr.Ir. Prayoto, M.Sc

2001 | Disertasi | S3 Teknik Mesin

Abstrak
File Pdf

Pada tahun-tahun terakhir, telah terjadi pertumbuhan dramatis jumlah basis data yang bisa diakses secara publik pada Internet dan semua indikator menunjukkan bahwa pertumbuhan ini akan berlanjut pada tahun-tahun yang akan datang. Sayangnya, pemanggilan informasi dari basis data ini tidak mudah karena beberapa alasan. Komplikasi pertama adalah distribusi. Tidak semua pertanyaan bisa dijawab oleh data di dalam sebuah basis data tunggal. Relasi-relasi yang bermanfaat bisa dirinci menjadi fragmen-fragmen yang terdistribusikan di antara basis data yang berbeda. Pada fragmentasi horisontal, baris-baris basis data dibelah pada seluruh basis data ganda. Pada fragmentasi vertikal, kolom-kolom dibelah. Basis data terdistribusi bisa menunjukkan campuran-campuran tipe-tipe fragmentasi ini. Komplikasi kedua di dalam integrasi basis data adalah heterogenitas. Heterogenitas ini bisa jadi bersifat notasional atau konseptual. Heterogenitas notasional berhubngan dengan bahasa dan protokol akses. Salah satu sumber bisa jadi SQL sementara sumber lain memerlukan penanganan melalui produk komersial (seperti Sybase OpenServer). Namun demikian, bahkan jika kita asumsikan bahwa semua basis data menggunakan bahasa dan protokok standar, masih juga terdapat heterogenitas konseptual, yakni peredaan pada skema dan kola kata relasional. Basis data yang berbeda bisa menggunakan kata-kata yang berbeda untuk merujuk pada konsep yang sama dari fragmen-fragmen terdistribusi sebuah basis data di dalam menghadapi heterogenitas menjadi dua kali lebih sulit. Mediasi merupakan sebuah teknologi yang menyisipkan modul-modul pemroses cerdas, yang disebut mediator, di antara server dan klien untuk menyediakan pemrosesan nilai tambah. Sejumlah kontraktor sekarang ini memiliki kemampuan untuk membantu interface aplikasi yang diperlukan dan terdapat beberapa pembicaraan tentang gaya, seperti lebih menyukai mediator gendut daripada kurus. Mereka berinteraksi dengan para pelanggan mereka untuk mendapatkan pengetahuan domain. Ketika lebih banyak implementasi memasuki praktik, infrastruktur mengalami pertumbuhan dan kami memperkirakan bahwa mediator-mediator ini bisa di-install dengan cepat dan dirawat oleh pemilik mereka sendiri. Tujuan utama penelitian ini adalah untuk mentransformasikan masalah menjawab pertanyaan menggunakan pandangan menjadi masalah optimasi pertanyaan semantis (yang kami sebut transformasi pertanyaan semantis karena transformasi ini menyelakan (interleaving) proses perencanaan pertanyaan dan eksekusi pertanyaan) dan untuk menunjukkan bahwa pengetahuan semantis tambahan di dalam bentuk keterbatasan-keterbatasan integritas bisa membantu menghasilkan rencana pertanyaan yang lebih efisien yang sesuai untuk sistem-sistem integrasi data tentang sumber-sumber data otonom dan terikat jaringan yang berada pada rentang dari basis data konfensional pada LAN atau internet sampai sumber berbasis Web (baik HTML maupun XML) pada seluruh Internet. Di dalam melakukannya, empat tujuan yang dihasilkan diidentifikasi: menyajikan sebuah bahasa untuk memodelkan kandungan-kandungan sumber-sumber informasi, mengajukan algoritma-algoritma, yang mentransformasikan masalah menjawab pertanyaan menggunakan pandangan menjadi masalah optimasi pertanyaan semantis, memperluas algoritma untuk menemukan rencana-rencana yang secara maksimal mengandung pertanyaan pada keberadaan dependensi fungsional di dalam skema dunia dan menguji kelengkapan dan kesempurnaan algoritma-algoritma tersebut.

In recent years, there has been a dramatic growth in the number of publicly accessible databases on the Internet and all indicators suggest that this growth should continue in the years to come. Unfortunately, retrieving information from these databases is not easy for several reasons. The first complication is distribution. Not every query can be answered by the data in a single database. Useful relations may be broken into fragments that are distributed among distinct databases. In horizontal fragmentation, the rows of a database are split across multiple databases. In vertical fragmentation, the columns are split. Distributed databases can exhibit mixtures of these types of fragmentation. A second complication in database integration is heterogeneity. This heterogeneity may be notational or conceptual. Notational heterogeneity concerns access languages and protocols. One source may require SQL while another requires OQL and a third uses an ad hoc notation. This sort of heterogeneity can usually be handled through commercial products (such as the Sybase OpenServer). However, even if we assume that all databases use a standard language and protocol, there can still be conceptual heterogeneity, i.e., differences in the relational schema and vocabulary. Distinct databases may use different words to refer to the same concept and/or they may use the same word to refer to different concepts. Reassembling the distributed fragments of a database in the face, of heterogeneity is doubly difficult. Mediation is a technology which inserts intelligent processing modules, called mediators, between servers and clients to provide valueâ€”added processing. A number of contractors have now the capability to build the required application interfaces and to implement the architecture. The number of platforms and languages varies and there is some discussion on style, as preferring fat versus thin mediators. They interact with their customers to acquire domain knowledge. As more implementations enter practice, the infrastructure grows and we expect that mediators can be installed rapidly and be maintained by their owners. The main goal of this research is to transform the problem of answering queries using views into a semantic query optimization problem (which we called semantic query transformation since it interleaves the query planning and query execution processes) and to show that additional semantic knowledge in the form of integrity constraints can help in generating more efficient query plans suitable for data integration systems over network-bound, autonomous data sources ranging from conventional databases on the LAN or intranet to Webâ€”based sources (both HTML and XML) across the Internet. In doing so, four derived goals were identified: to present a language for the modeling of the contents of the information sources, to propose algorithms, which transform answering queries using views problem into a semantic query optimization problem, to extend the algorithms to find the maximally contained query plans in the presence of functional dependencies in the world schema and to test the completeness and soundness of the algorithms.

Kata Kunci : Komputer, Integrasi Data, Basis Data

Tidak tersedia file untuk ditampilkan ke publik.

LAYANAN

E-Resources

Quick Access