Giáo trình Cơ sở dữ liệu
Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình Cơ sở dữ liệu", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- giao_trinh_co_so_du_lieu.doc
Nội dung text: Giáo trình Cơ sở dữ liệu
- BỘ LAO ĐỘNG - THƯƠNG BINH VÀ XÃ HỘI TỔNG CỤC DẠY NGHỀ o0o GIÁO TRÌNH Môn học: CƠ SỞ DỮ LIỆU NGHỀ QUẢN TRỊ MẠNG MÁY TÍNH TRÌNH ĐỘ: CAO ĐẲNG NGHỀ ( Ban hành kèm theo Quyết định số120/QĐ-TCDN ngày 25 tháng 02 năm 2013 của Tổng cục trưởng Tổng cục dạy nghề) Hà Nội, năm 2013
- 2 TUYÊN BỐ BẢN QUYỀN Tài liệu này thuộc loại sách giáo trình nên các nguồn thông tin có thể được phép dùng nguyên bản hoặc trích dùng cho các mục đích về đào tạo và tham khảo. Mọi mục đích khác mang tính lệch lạc hoặc sử dụng với mục đích kinh doanh thiếu lành mạnh sẽ bị nghiêm cấm. MÃ TÀI LIỆU: MH16
- 3 LỜI GIỚI THIỆU Cơ sở dữ liệu là môn học cơ sở chuyên ngành quan trọng của tin học. Mục đích của giáo trình Cơ sở dữ liệu này là nhằm chuẩn hóa tài liệu học tập cho sinh viên các hệ cao đẳng nghề chuyên ngành Quản trị mạng máy tính, đồng thời cũng là tài liệu tham khảo đối với các chuyên ngành khác trong lĩnh vực Tin học. Giáo trình giúp các học viên tiếp cận vấn đề cốt lõi nhất về mặt lý thuyết: các định nghĩa, khái niệm, hệ quả, định lý, giải thuật, từ đó có thể áp dụng vào bài toán thực tế thiết kế chuẩn hóa cơ sở dữ liệu nói riêng cũng như thiết kế hệ thống thông tin nói chung. Giáo trình không đi sâu vào việc chứng minh các định lý mà chú trọng đến việc giải thích ý nghĩa thực tế của các công thức lý thuyết để từ đó hướng dẫn học viên cách tiếp cận tư duy logic, nắm vững kỹ thuật tính toán cũng như các bước triển khai giải quyết các bài toán thực tế trên khía cạnh công nghệ. Nội dung giáo trình được chia làm 5 chương: Chương 1: Giới thiệu những khái niệm cơ bản nhất về mô hình cơ sở dữ liệu. Tìm hiểu về mô hình thực thể kết hợp. Chương II: Giới thiệu về mô hình dữ liệu quan hệ, các quy tắc chuyển đổi từ mô hình ER sang mô hình dữ liệu quan hệ. Ngoài ra chương 2 còn trình bày các quy tắc, phép toán của ngôn ngữ đại số quan hệ. Chương III : Trình bày về ngôn ngữ truy vấn dữ liệu quan hệ (SQL), chủ yếu là câu lệnh truy vấn Select và các mệnh đề kết hợp với câu lệnh. Chương IV: Khái lược về ràng buộc toàn vẹn. Chương V: Đi sâu vào một số khái niệm như: phụ thuộc hàm, khóa, bao đóng, các dạng chuẩn, Tìm hiểu giới thiệu một số thuật toán liên quan đến tìm khóa hay cách xác định các dạng chuẩn cho lược đồ quan hệ. Đây là chương
- 4 đóng vai trò quan trọng trong việc tư duy logic, giúp quá trình thiết kế chuẩn hóa cơ sở dữ liệu được rõ ràng và chính xác hơn. Ngoài ra, giáo trình còn trình bày thêm vấn đề thiết kế cơ sở dữ liệu bằng các kỹ thuật phân rã theo chuẩn 3 và chuẩn BC. Sau mỗi chương đều có bài tập hướng dẫn và bài tập tự làm. Hy vọng cuốn sách còn là tài liệu tham khảo hữu ích cho các đồng nghiệp trong giảng dạy, nghiên cứu trên các lĩnh vực có liên quan. Giáo trình này ngoài tài liệu tham khảo chính còn có sử dụng các tài liệu tham khảo nội bộ của các đồng nghiệp khác. Rất mong nhận được nhiều ý kiến đóng góp, trao đổi của bạn đọc. . Xin chân thành cảm ơn! Hà nội, ngày 25 tháng 02 năm 2013 Nhóm biên soạn 1. Chủ biên ThS. Võ Thị Vũ 2. ThS. Doãn Thị Ngọc Thi 3. Nguyễn thị Trường Giang
- 5 MỤC LỤC TUYÊN BỐ BẢN QUYỀN 2 LỜI GIỚI THIỆU 3 MỤC LỤC 5 MÔN HỌC CƠ SỞ DỮ LIỆU 8 Chương 1. TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU 9 1. Một số khái niệm cơ bản 9 1.1. Định nghĩa cơ sở dữ liệu 9 1.2. Ưu điểm của cơ sở dữ liệu 9 1.3. Các đặc trưng của phương pháp cơ sở dữ liệu 9 1.4. Các đối tượng sử dụng CSDL 10 1.5. Hệ Quản Trị Cơ Sở Dữ Liệu (Data Base Management System) 11 1.6. Các Ứng Dụng Của Cơ Sở Dữ Liệu 12 2. Các mô hình dữ liệu 12 3. Mô hình thực thể kết hợp 13 3.1. Thực Thể (entity) 13 3.2. Thuộc tính (attribute) 13 3.3.Loại thực thể (entity type) 13 3.4. Khoá (key) 14 3.5. Mối kết hợp (relationship) 15 Chương 2. MÔ HÌNH DỮ LIỆU QUAN HỆ 23 1. Một số khái niệm cơ bản 23 1.1. Thuộc tính 23 1.2 Lược Đồ Quan Hệ (relation schema) 24 1.3. Quan Hệ (relation) 25 1.4. Bộ (Tuple) 25 2. Chuyển mô hình thực thể kết hợp sang mô hình dữ liệu quan hệ 26 Quy tắc 1: 26 Quy tắc 2: 26 Quy tắc 3: 26 Quy tắc 4: 27 3. Ngôn ngữ đại số quan hệ 27 3.1. Phép Hợp 2 quan hệ(Union) 27 3.2. Phép Giao 2 quan hệ (Intersection) 28 3.3.Phép Trừ 2 quan hệ (Minus) 28 3.4.Tích Decac của 2 quan hệ (Cartesian Product) 29 3.5. Phép chia 2 quan hệ: 29 3.6. Phép Chiếu (projection) 30 3.7.Phép Chọn (Selection) 30 3.8. Phép - kết 31 3.9. Phép Kết Tự Nhiên (natural join) 32
- 6 Chương 3. NGÔN NGỮ TRUY VẤN DỮ LIỆU 35 1. Mở đầu 35 2. Tìm thông tin từ các cột của bảng – Mệnh đề Select 39 3. Chọn các dòng của bảng – Mệnh đề Where 40 4. Sắp xếp các dòng của bảng – Mệnh đề Order by 42 5. Câu lệnh truy vấn lồng nhau 43 6. Gom nhóm dữ liệu – mệnh đề Group by 47 Chương 4. RÀNG BUỘC TOÀN VẸN 55 1. Ràng buộc toàn vẹn 55 1.1. Khái niệm ràng buộc toàn vẹn 55 1.2. Các yếu tố của ràng buộc toàn vẹn: 55 2. Phân loại các ràng buộc toàn vẹn: 58 2.1. Ràng buộc toàn vẹn có bối cảnh là một quan hệ 60 2.2. Ràng buộc toàn vẹn có bối cảnh là nhiều quan hệ: 61 Chương 5. LÝ THUYẾT THIẾT KẾ CƠ SỞ DỮ LIỆU 66 1. Các vấn đề gặp phải khi tổ chức dữ liệu: 66 2. Phụ thuộc hàm 67 2.1. Định nghĩa phụ thuộc hàm 67 2.2. Cách xác định phụ thuộc hàm cho lược đồ quan hệ 67 2.3. Một số tính chất của phụ thuộc hàm – hệ luật dẫn Armstrong 68 3. Bao đóng của tập phụ thuộc hàm và bao đóng của tập thuộc tính 69 3.1. Bao đóng của tập phụ thuộc hàm F 69 3.2. Bao đóng của tập thuộc tính X 70 3.3. Bài toán thành viên 70 3.4. Thuật toán tìm bao đóng của một tập thuộc tính 71 4. Khóa của lược đồ quan hệ - một số thuật toán tìm khóa 72 4.1. Định nghĩa khóa của quan hệ 72 4.2. Thuật toán tìm một khóa của một lược đồ quan hệ 72 4.3. Thuật toán tìm tất cả các khóa của một lược đồ quan hệ 73 5. Phủ tối thiểu 74 5.1. Tập phụ thuộc hàm tương đương 74 5.2. Phủ tối thiểu 75 5.3. Thuật toán tìm phủ tối thiểu 76 6. Dạng chuẩn của lược đồ quan hệ 77 6.1. Một số khái niệm liên quan đến các dạng chuẩn 77 6.2. Dạng chuẩn 1 (First Normal Form) 77 6.3. Dạng chuẩn 2 (Second Normal Form) 78 6.4. Dạng chuẩn 3 (Third Normal Form) 79 6.5. Dạng chuẩn BC (Boyce Codd Normal Form) 80 TÀI LIỆU THAM KHẢO 87
- 7 DANH SÁCH BAN BIÊN SOẠN GIÁO TRÌNH DẠY NGHỀ TRÌNH ĐỘ CAO ĐẲNG 88 DANH SÁCH HỘI ĐỒNG NGHIỆM THU GIÁO TRÌNH DẠY NGHỀ TRÌNH ĐỘ CAO ĐẲNG 88
- 8 MÔN HỌC CƠ SỞ DỮ LIỆU Mã môn học: MH16 VỊ TRÍ, TÍNH CHẤT, Ý NGHĨA VÀ VAI TRÒ CỦA MÔN HỌC: - Vị trí: Môn học Cơ sở dữ liệu được bố trí sau khi học xong các môn Tin học đại cương, lập trình căn bản, toán ứng dụng. - Tính chất: Là môn học kỹ thuật cơ sở, thuộc các môn học, mô đun đào tạo nghề. - Ý nghĩa và vai trò: Cơ sở dữ liệu là môn học cơ sở chuyên ngành quan trọng của tin học, nhằm chuẩn hóa kiến thức nền tảng về tin học cho sinh viên các hệ cao đẳng nghề chuyên ngành Quản trị mạng máy tính. MỤC TIÊU CỦA MÔN HỌC: - Trình bày được các khái niệm, các thuật ngữ trong cơ sở dữ liệu; - Vận dụng được các mô hình dữ liệu của cơ sở dữ liệu quan hệ vào việc thiết kế cơ sở dữ liệu cho bài toán cụ thể; - Sử dụng ngôn ngữ truy vấn dữ liệu quan hệ thành thạo; - Mô tả được các dạng chuẩn và chuẩn hóa được bài toán cơ sở dữ liệu trước khi cài đặt; - Rèn luyện cho sinh viên khả năng tự nghiên cứu tài liệu và tự giác trong làm việc nhóm. NỘI DUNG MÔN HỌC: Thời gian Số Tên chương trong môn học Tổng Lý Thực Kiểm TT số thuyết hành tra* 1 Tổng quan về cơ sở dữ liệu 10 5 5 0 2 Mô hình dữ liệu quan hệ 15 8 6 1 3 Ngôn ngữ truy vấn dữ liệu 20 9 10 1 4 Ràng buộc toàn vẹn 7 4 3 0 5 Lý thuyết thiết kế cơ sở dữ liệu 38 19 17 2 Cộng 90 45 41 4
- 9 Chương 1. TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU Mã chương: MH16-01 Giới thiệu: Bài học này giới thiệu khái quát về các mô hình dữ liệu cơ bản, các thuật ngữ, khái niệm liên quan trong cơ sở dữ liệu. Thông qua bài học này người đọc sẽ hình dung được những vấn đề cần tiếp cận, khai thác trong môn học cơ sở dữ liệu. Mục tiêu: - Trình bày sơ lược các khái niệm về cơ sở dữ liệu, các mô hình dữ liệu. - Trình bày chi tiết mô hình thực thể kết hợp (ERD), có thể phân tích dữ liệu và thiết kế được mô hình thực thể kết hợp. - Thực hiện thao tác an toàn với máy tính. Nội dung: 1. Một số khái niệm cơ bản. Mục tiêu: Trình bày sơ lược các khái niệm về cơ sở dữ liệu. 1.1. Định nghĩa cơ sở dữ liệu Dữ liệu được lưu trữ trên các thiết bị lưu trữ theo một cấu trúc nào đó để phục vụ cho nhiều người dùng với nhiều mục đích khác nhau gọi là cơ sở dữ liệu. 1.2. Ưu điểm của cơ sở dữ liệu - Giảm sự trùng lắp thông tin xuống mức thấp nhất và do đó bảo đảm được tính nhất quán và toàn vẹn dữ liệu. - Đảm bảo dữ liệu có thể truy xuất theo nhiều cách khác nhau. - Khả năng chia sẻ thông tin cho nhiều người sử dụng. 1.3. Các đặc trưng của phương pháp cơ sở dữ liệu - Tính chia sẻ dữ liệu: dữ liệu được chia sẻ bởi nhiều người dùng hợp pháp. - Tính giảm thiểu dư thừa dữ liệu: Dữ liệu dùng chung cho nhiều bộ phận được lưu một nơi theo cấu trúc thống nhất.
- 10 - Tính tương thích: Việc loại bỏ dư thừa kéo theo hệ quả là sự tương thích. - Tính toàn vẹn dữ liệu: Đảm bảo một số ràng buộc toàn vẹn. Khi người dùng chèn, xoá, sửa thì ràng buộc phải được kiểm tra chặc chẽ. - Tính bảo mật dữ liệu: Đảm bảo an toàn dữ liệu và bảo mật thông tin là quan trọng. - Tính đồng bộ dữ liệu: Thông thường cơ sở dữ liệu được nhiều người dùng truy cập đồng thời. Cần có cơ chế bảo vệ chống sự không tương thích. - Tính độc lập dữ liệu: Sự tách biệt cấu trúc mô tả dữ liệu khỏi chương trình ứng dụng sử dụng dữ liệu gọi là độc lập dữ liệu. Điều này cho phép phát triển tổ chức dữ liệu mà không sửa đổi chương trình ứng dụng. 1.4. Các đối tượng sử dụng CSDL Đối tượng sử dụng là người khai thác cơ sở dữ liệu thông qua hệ quản trị CSDL. Có thể phân làm ba loại đối tượng: Người quản trị CSDL, người phát triển và lập trình ứng dụng, người dùng cuối cùng. Người quản trị CSDL: Là người hàng ngày chịu trách nhiệm quản lí và bảo trì CSDL như: + Sự chính xác, toàn vẹn và bảo mật của dữ liệu và ứng dụng trong CSDL. + Lưu trữ dự phòng và phục hồi CSDL. + Giữ liên lạc với người phát triển và lập trình ứng dụng, người dùng cuối. + Bảo đảm sự hoạt động hiệu quả của CSDL và hệ quản trị CSDL Người phát triển và lập trình ứng dụng: là những người chuyên nghiệp về lĩnh vực tin học có trách nhiệm thiết kế, tạo dựng và bảo trì thông tin cuối cùng cho người dùng. Người dùng cuối là những người không chuyên trong lĩnh vực tin học, họ là các chuyên gia trong các lĩnh vực khác có trách nhiệm cụ thể trong công việc. Họ khai thác CSDL thông qua chương trình (phần mềm ứng dụng) được xây dựng bởi người phát triển ứng dụng hay công cụ truy vấn của hệ quản trị CSDL.
- 11 1.5. Hệ Quản Trị Cơ Sở Dữ Liệu (Data Base Management System) Để giải quyết tốt những vấn đề mà cách tổ chức CSDL đặt ra như đã nói ở trên, cần thiết phải có những phần mềm chuyên dùng để khai thác chúng. Những phần mềm này được gọi là các hệ quản trị CSDL. Các hệ quản trị CSDL có nhiệm vụ hỗ trợ cho các nhà phân tích thiết kế CSDL cũng như những người khai thác CSDL. Hiện nay trên thị trường phần mềm đã có những hệ quản trị CSDL hỗ trợ được nhiều tiện ích như: MS Access, Visual Foxpro, SQL Server, Oracle, Mỗi hệ quản trị CSDL đều được cài đặt dựa trên một mô hình dữ liệu cụ thể. Dù là dựa trên mô hình dữ liệu nào, một hệ quản trị CSDL cũng phải hội đủ các yếu tố sau: - Ngôn ngữ giao tiếp giữa người sử dụng và CSDL, bao gồm: Ngôn ngữ mô tả dữ liệu: Để cho phép khai báo cấu trúc của CSDL, khai báo các mối liên hệ của dữ liệu và các quy tắc quản lý áp đặt lên các dữ liệu đó. Ngôn ngữ thao tác dữ liệu: Cho phép người sử dụng có thể cập nhật dữ liệu (thêm/sửa/xoá). Ngôn ngữ truy vấn dữ liệu: cho phép người khai thác sử dụng để truy vấn các thông tin cần thiết trong Cơ sở dữ liệu. Ngôn ngữ quản lý dữ liệu: cho phép những người quản trị hệ thống thay đổi cấu trúc của các bảng dữ liệu, khai báo bảo mật thông tin và cấp quyền hạn khai thác CSDL cho người sử dụng., -Từ điển dữ liệu: Dùng để mô tả các ánh xạ liên kết, ghi nhận các thành phần cấu trúc của CSDL, các chương trình ứng dụng, mật mã, quyền hạn sử dụng, - Cơ chế giải quyết vấn đề tranh chấp dữ liệu: Mỗi hệ quản trị CSDL cũng có thể cài đặt một cơ chế riêng để giải quyết các vấn đề này. Một số biện pháp sau đây thường được sử dụng: thứ nhất: cấp quyền ưu tiên cho từng người sử dụng; thứ hai: Đánh dấu yêu cầu truy xuất dữ liệu, phân chia thời gian, người nào có yêu cầu trước thì có quyền truy xuất dữ liệu trước, - Hệ quản trị CSDL cũng phải có cơ chế sao lưu (backup) và phục hồi
- 12 (restore) dữ liệu khi có sự cố xảy ra. Điều này có thể thực hiện sau một thời gian nhất định hệ quản trị CSDL sẽ tự động tạo ra một bản sao CSDL, cách này hơi tốn kém, nhất là đối với CSDL lớn. - Hệ quản trị CSDL phải cung cấp một giao diện thân thiện, dễ sử dụng. 1.6. Các Ứng Dụng Của Cơ Sở Dữ Liệu Hiện nay, hầu như CSDL gắn liền với mọi ứng dụng của tin học; chẳng hạn như việc quản lý hệ thống thông tin trong các cơ quan nhà nước, việc lưu trữ và xử lý thông tin trong các doanh nghiệp, trong các lĩnh vực nghiên cứu khoa học, trong công tác giảng dạy, cũng như trong việc tổ chức thông tin đa phương tiện, 2. Các mô hình dữ liệu Mục tiêu: Trình bày giới thiệu sơ lược các mô hình dữ liệu. Mô hình dữ liệu là sự trừu tượng hoá môi trường thực. Mỗi loại mô hình dữ liệu đặc trưng cho một cách tiếp cận dữ liệu khác nhau của những nhà phân tích thiết kế CSDL. Mỗi loại mô hình dữ liệu đều có những ưu điểm và những mặt hạn chế của nó, nhưng vẫn có những mô hình dữ liệu nổi trội và được nhiều người quan tâm nghiên cứu. Sau đây chúng ta sẽ điểm qua lịch sử phát triển của các mô hình dữ liệu. - Vào những năm sáu mươi, thế hệ đầu tiên của CSDL ra đời dưới dạng mô hình thực thể kết hợp, mô hình mạng và mô hình phân cấp. - Vào những năm bảy mươi, thế hệ thứ hai của CSDL ra đời. Đó là mô hình dữ liệu quan hệ do EF. Codd phát minh. Mô hình này có cấu trúc logic chặt chẽ. Đây là mô hình đã và đang được sử dụng rộng khắp trong công tác quản lý trên phạm vi toàn cầu. Việc nghiên cứu mô hình dữ liệu quan hệ nhằm vào lý thuyết chuẩn hoá các quan hệ và là một công cụ quan trọng trong việc phân tích thiết kế các hệ CSDL hiện nay. Mục đích của nghiên cứu này nhằm bỏ đi các phần tử không bình thường của quan hệ khi thực hiện các phép cập nhật, loại bỏ các phần tử dư thừa.
- 13 - Sang thập kỷ tám mươi, mô hình CSDL thứ ba ra đời, đó là mô hình cơ sở dữ liệu hướng đối tượng, mô hình cơ sở dữ liệu phân tán, mô hình cơ sở dữ liệu suy diễn, Trong phần tiếp theo sau đây, chúng tôi sẽ trình bày về mô hình dữ liệu tiêu biểu nhất để thiết kế (bước đầu) một ứng dụng tin học, đó là mô hình thực thể kết hợp. Trong các chương còn lại của giáo trình này chúng tôi sẽ trình bày về mô hình dữ liệu quan hệ. 3. Mô hình thực thể kết hợp Mục tiêu: Trình bày chi tiết mô hình thực thể kết hợp (ERD), có thể phân tích dữ liệu và thiết kế được mô hình thực thể kết hợp. Hiện nay mô hình dữ liệu quan hệ thường được dùng trong các hệ quản trị CSDL, đây là mô hình dữ liệu ở mức vật lý. Để thành lập được mô hình này, thường là phải dùng mô hình dữ liệu ở mức quan niệm để đặc tả, một trong những mô hình ở dạng đó là mô hình thực thể kết hợp (sau đó mới dùng một số quy tắc để chuyển hệ thống từ mô hình này về mô hình dữ liệu quan hệ – các quy tắc này sẽ được nói đến trong mục 2.2). Sau đây là các khái niệm của mô hình thực thể kết hợp. 3.1. Thực Thể (entity) Thực thể là một sự vật tồn tại và phân biệt được, chẳng hạn sinh viên Nguyễn Văn Thành, lớp Cao Đẳng Tin Học 2A, môn học Cơ Sở Dữ Liệu, xe máy có biển số đăng ký 52-0549, là các ví dụ về thực thể. 3.2. Thuộc tính (attribute) Các đặc điểm riêng của thực thể gọi là các thuộc tính. Chẳng hạn các thuộc tính của sinh viên Nguyễn Văn Thành là: mã số, sinh viên, giới tính, ngày sinh, hộ khẩu thường trú, lớp đang theo học, 3.3.Loại thực thể (entity type) Là tập hợp các thực thể có cùng thuộc tính. Mỗi loại thực thể đều phải được đặt tên sao cho có ý nghĩa. Một loại thực thể được biểu diễn bằng một hình chữ nhật.
- 14 Ví dụ các sinh viên có mã sinh viên là ““02CĐTH019”, “02CĐTH519”, “02TCTH465”, nhóm lại thành một loại thực thể, được đặt tên là Sinhvien chẳng hạn. Tương tự trong ứng dụng quản lý điểm của sinh viên (sẽ được trình bày ngay sau đây) ta có các loại thực thể như Monhoc, Lop, Khoa. 3.4. Khoá (key) Khoá của loại thực thể E là một hay một tập các thuộc tính của E có thể dùng để phân biệt hai thực thể bất kỳ của E. Ví dụ khoá của loại thực thể Sinhvien là MASV, của Lớp là MALOP, của Khoa là MAKHOA, của Monhoc là MAMH, Cần chú ý rằng khi biểu diễn một hệ thống bằng mô hình thực thể kết hợp thì tên của các loại thực thể phải khác nhau. Trong danh sách các thuộc tính của một loại thực thể thì tập thuộc tính khoá thường được gạch dưới liền nét. Nếu một hệ thống có nhiều loại thực thể, để đơn giản hoá mô hình, người ta có thể chỉ nêu tên các loại thực thể; còn các thuộc tính của loại thực thể được liệt kê riêng. Ví dụ 1.1: Bài toán quản lý điểm của sinh viên được phát biểu sơ bộ như sau: Mỗi sinh viên cần quản lý các thông tin như: họ và tên (HOTENSV), ngày tháng năm sinh(NGAYSINH), giới tính (NU), nơi sinh(NƠISINH), hộ khẩu thường trú (TINH). Mỗi sinh viên được cấp một mã số sinh viên duy nhất (MASV) để phân biệt với mọi sinh viên khác của trường, mỗi sinh viên chỉ thuộc về một lớp nào đó. Mỗi lớp học có một mã số lớp (MALOP) duy nhất để phân biệt với tất cả các lớp học khác trong trường: có một tên gọi (TENLOP) của lớp, mỗi lớp chỉ thuộc về một khoa. Mỗi khoa có một tên gọi (TENKHOA) và một
- 15 mã số duy nhất (MAKHOA) phân biệt với các khoa khác. Mỗi môn học có một tên gọi (TENMH) cụ thể, được học trong một số đơn vị học trình (DONVIHT) )và ứng với môn học là một mã số duy nhất (MAMH) để phân biệt với các môn học khác. Mỗi giảng viên cần quản lý các thông tin: họ và tên(HOTENGV), cấp học vị (HOCVI), thuộc một chuyên ngành (CHUYENNGANH) và được gán cho một mã số duy nhất gọi là mã giảng viên(MAGV) để phân biệt với các giảng viên khác. Mỗi giảng viên có thể dạy nhiều môn ở nhiều khoa, nhưng chỉ thuộc về sự quản lý hành chính của một khoa. Mỗi sinh viên với một môn học được phép thi tối đa 3 lần, mỗi lần thi (LANTHI), điểm thi (DIEMTHI). Mỗi môn học ở mỗi lớp học chỉ phân công cho một giảng viên dạy (tất nhiên là một giảng viên thì có thể dạy nhiều môn ở một lớp). Với bài toán trên thì các loại thực thể cần quản lý như: Sinhviên, Mônhọc, Khoa, Lớp, Giảngviên. Ví dụ với loại thực thể Sinhviên thì cần quản lý các thuộc tính như: MASV,HOTENSV, NGAYSINH, và ta có thể biểu diễn như sau: 3.5. Mối kết hợp (relationship) Mối kết hợp diễn tả sự liên hệ giữa các loại thực thể trong một ứng dụng tin học. Ví dụ mối kết hợp giữa hai loại thực thể Sinhviên và Lop, mối kết hợp giữa Sinhviên với Mônhọc, Mối kết hợp được biểu diễn bằng một hình elip và hai bên là hai nhánh gắn kết với các loại thực thể (hoặc mối kết hợp) liên quan, tên mối kết hợp thường là: thuộc, gồm, chứa,
- 16 Chẳng hạn giữa hai loại thực thể Lớp và Khoa có mối kết hợp “thuộc” như sau: Bản số của mối kết hợp: Bản số của một nhánh R trong mối kết hợp thể hiện số lượng các thực thể thuộc thực thể ở nhánh “bên kia” có liên hệ với một thực thể của nhánh R. Mỗi bản số là một cặp số (min,max), chỉ số lượng tối thiểu và số lượng tối đa của thực thể khi tham gia vào mối kết hợp đó. Ví dụ: Có nghĩa là: “mỗi sinh viên thuộc một và chỉ một lớp nên bản số bên nhánh Sinhviên là (1,1), mỗi lớp có 1 đến n sinh viên nên bản số bên nhánh Lop là (1,n)”. Trong một số trường hợp đặc biệt, mối kết hợp có thể có các thuộc tính đi kèm và do đó chúng thường được đặt tên ý với nghĩa đầy đủ hơn. Ví dụ giữa hai loại thực thể Monhoc và Sinhvien có mối kết hợp ketqua với ý nghĩa: “mỗi sinh viên ứng với mỗi lần thi của mỗi môn học có một kết quả điểm thi duy nhất”. Khoá của mối kết hợp: là hợp của các khoá của các loại thực thể liên quan. Chẳng hạn như thuộc tính MAGV là khoá của loại thực thể Giangvien, MALOP là thuộc tính khoá của loại thực thể Lop, MAMH là thuộc tính khoá của loại thực thể Monhoc, do đó mối kết hợp phancong (giữa các loại thực thể Giangvien,Lop,Monhoc) có khoá là {MAGV,MAMH,MALOP} - phancong là mối kết hợp 3 ngôi. Việc thành lập mô hình thực thể kết hợp cho một ứng dụng tin học có
- 17 thể tiến hành theo các bước sau: b1. Xác định danh sách các loại thực thể b2. Xác định các mối kết hợp giữa các loại thực thể để phác thảo mô hình. b3. Lập bản số của các mối kết hợp. Để kết thúc chương này, chúng tôi sẽ lập mô hình thực thể kết hợp cho bài toán quản lý điểm của sinh viên đã được nêu trong ví dụ 1.1 Ví dụ 1.2: BÀI TẬP THỰC HÀNH CỦA HỌC VIÊN Dựa vào các phân tích sơ bộ dưới đây, hãy lập mô hình thực thể kết hợp (gồm loại thực thể, mối kết hợp, bản số, thuộc tính của loại thực thể, khoá của loại thực thể ) cho bài toán quản lý sau: Bài 1.1. QUẢN LÝ ĐẶT BÁO CỦA KHÁCH HÀNG Tại một nơi phát hành báo cần phải quản lý thông tin đặt báo của khách hàng. Có nhiều thể loại báo (nhật báo, nguyệt sang, tạp chí, tham luận, ), mỗi thể loại cần lưu lại mã thể loại, tên thể loại. Mỗi tờ báo cần lưu lại mã báo là gì, tên báo (kiến thức ngày nay, tuổi trẻ ngày, tuổi trẻ tuần, Sài Gòn giải phóng, ) hình thức (quý, ngày, tuần), đơn giá kỳ. Mỗi một thể loại báo có nhiều tờ báo. Khách hàng đến đặt báo cần lưu lại thông tin: mã khách hàng, tên khách hàng,
- 18 ngày đặt. Một khách hàng có thể đặt nhiều tờ báo khác nhau. Cần lưu lại: tờ báo mà khách muốn đặt, số kỳ, thành tiền. GỢI Ý BÀI TẬP Bài 1.1: b1.Xác định danh sách các loại thực thể -Thực thể BÁO: có các thuộc tính: mã báo (mabao) là thuộc tính định danh; tên báo (tenbao), hình thức (hinhthuc), đơn giá kỳ (dongiaky). - Thực thể THỂ LOẠI: có các thuộc tính: mã thể loại (matheloai) là thuộc tính định danh, tên thể loại (tentheloai). - Thực thể KHÁCH HÀNG: có các thuộc tính: mã khách hàng (makhachhang), tên khách hàng (tenkhachhang). b2.Xác định các mối kết hợp giữa các loại thực thể để phác thảo mô hình. - BÁO thuộc THỂ LOẠI. - KHÁCH HÀNG đặt/mua BÁO: có các thuộc tính riêng phát sinh trong quá trình đặt.mua là: ngày đặt (ngaydat), số kỳ (soky), thành tiền (thanhtien). Phác thảo mô hình: b3.Lập bản số của các mối kết hợp: gắn các quan hệ sau lên mô hình phác thảo, ta có được mô hình thực thể mối quan hệ sơ bộ cuối cùng. - Quan hệ Đặt/mua giữa KHÁCH HÀNG và BÁO là quan hệ (1-n)-(1-n) - Quan hệ Thuộc giữa BÁO và THỂ LOẠI là quan hệ (1-1)-(1-n). (Các bài tập còn lại được phân tích và giải quyết tương tự bài 1).
- 19 BÀI TẬP THAM KHẢO Bài 1. 2. QUẢN LÝ VIỆC MƯỢN/TRẢ SÁCH Ở MỘT THƯ VIỆN Một thư viện tổ chức việc cho mượn sách như sau: Mỗi quyển sách được đánh một mã sách (MASH) dùng để phân biệt với các quyển sách khác (giả sử nếu một tác phẩm có nhiều bản giống nhau hoặc có nhiều tập thì cũng xem là có mã sách khác nhau), mỗi mã sách xác định các thông tin khác như: tên sách (TENSACH), tên tác giả (TACGIA), nhà xuất bản (NHAXB), năm xuất bản (NAMXB). Mỗi độc giả được thư viện cấp cho một thẻ thư viện, trong đó có ghi rõ mã độc giả (MAĐG), cùng với các thông tin khác như: họ tên (HOTEN), ngày sinh (NGAYSINH), địa chỉ (ĐIACHI), nghề nghiệp (NGHENGHIEP). Cứ mỗi lượt mượn sách, độc giả phải đăng ký các quyển sách cần mượn vào một phiếu mượn, mỗi phiếu mượn có một số phiếu mượn (SOPM) khác nhau, mỗi phiếu mượn xác định các thông tin như: ngày mượn sách (NGAYMUON), mã độc giả. Các các quyển sách trong cùng một phiếu mượn không nhất thiết phải trả trong một lần. Mỗi quyển sách có thể thuộc nhiều phiếu mượn khác nhau (tất nhiên là tại các thời điểm khác nhau). Bài 1.3. QUẢN LÝ LỊCH DẠY CỦA GIÁO VIÊN Để quản lý lịch dạy của các giáo viên và lịch học của các lớp, một trường tổ chức như sau: Mỗi giáo viên có một mã số giáo viên (MAGV) duy nhất, mỗi MAGV xác định các thông tin như: họ và tên giáo viên (HOTEN), số điện thoại (DTGV). Mỗi giáo viên có thể dạy nhiều môn cho nhiều khoa nhưng chỉ thuộc sự quản lý hành chánh của một khoa nào đó. Mỗi môn học có một mã số môn học (MAMH) duy nhất, mỗi môn học xác định tên môn học (TENMH). Ứng với mỗi lớp thì mỗi môn học chỉ được phân cho một giáo viên. Mỗi phòng học có một số phòng học (PHONG) duy nhất, mỗi phòng có một chức năng (CHUCNANG); chẳng hạn như phòng lý thuyết, phòng thực hành máy tính, phòng nghe nhìn, xưởng thực tập cơ khí, Mỗi khoa có một mã khoa
- 20 (MAKHOA) duy nhất, mỗi khoa xác định các thông tin như: tên khoa (TENKHOA), điện thoại khoa(DTKHOA). Mỗi lớp có một mã lớp (MALOP) duy nhất, mỗi lớp có một tên lớp (TENLOP), sĩ số lớp (SISO). Mỗi lớp có thể học nhiều môn của nhiều khoa nhưng chỉ thuộc sự quản lý hành chính của một khoa nào đó. Hàng tuần, mỗi giáo viên phải lập lịch báo giảng cho biết giáo viên đó sẽ dạy những lớp nào, ngày nào (NGAYDAY), môn gì?, tại phòng nào, từ tiết nào (TUTIET) đến tiết nào (ĐENTIET),tựa đề bài dạy (BAIDAY), những ghi chú (GHICHU) về các tiết dạy này, đây là giờ dạy lý thuyết (LYTHUYET) hay thực hành - giả sử nếu LYTHUYET=1 thì đó là giờ dạy thực hành và nếu LYTHUYET=2 thì đó là giờ lý thuyết, một ngày có 16 tiết, sáng từ tiết 1 đến tiết 6, chiều từ tiết 7 đến tiết 12, tối từ tiết 13 đến 16. Một số yêu cầu của hệ thống này như:: Lập lịch dạy trong tuần của các giáo viên. Tổng số dạy của các giáo viên theo từng môn cho từng lớp, . Bài 1.4. QUẢN LÝ HỌC VIÊN Ở MỘT TRUNG TÂM TIN HỌC Trung tâm tin học KTCT thường xuyên mở các lớp tin học ngắn hạn và dài hạn. Mỗi lớp ngắn hạn có một hoặc nhiều môn học (chẳng hạn như lớp Tin học văn phòng thì có các môn : Word, Power Point, Excel, còn lớp lập trình Pascal thì chỉ học một môn Pascal). Các lớp dài hạn (chẳng hạn như lớp kỹ thuật viên đồ hoạ đa truyền thông, lớp kỹ thuật viên lập trình, lớp kỹ thuật viên phần cứng và mạng,) thì có thể học nhiều học phần và mỗi học phần có thể có nhiều môn học. Mỗi học viên có một mã học viên(MAHV) duy nhất và chỉ thuộc về một lớp duy nhất (nếu học viên cùng lúc học nhiều lớp thì ứng với mỗi lớp, học viên đó có một MAHV khác nhau). Mỗi học viên xác định họ tên (HOTEN), ngày sinh (NGAYSINH),nơi sinh (NOISINH), phái nam hay nữ (PHAI), nghề nghiệp (NGHENGHIEP) - nghề nghiệp là SINH VIÊN, GIÁO VIÊN, KỸ SƯ, , BUÔN BÁN, Trung tâm KTCT có nhiều lớp, mỗi lớp có một mã lớp duy nhất (MALOP), mỗi lớp xác định các thông tin: tên lớp (TENLOP), thời khoá biểu, ngày khai giảng (NGAYKG), học phí (HOCPHI). Chú ý rằng tại một thời điểm, trung tâm có thể mở nhiều lớp cho cùng một
- 21 chương trình học. Với các lớp dài hạn thì ngày khai giảng được xem là ngày bắt đầu của mỗi học phần và HỌC PHÍ là học phí của mỗi học phần, với lớp ngắn hạn thì HỌC PHÍ là học phí của toàn khoá học đó. Trung tâm có nhiều môn học, mỗi môn học có mã môn học (MAMH) duy nhất, mỗi môn học xác định tên môn học(TENMH), số tiết lý thuyết (SOTIETLT), số tiết thực hành (SOTIETTH). Mỗi học viên ứng với mỗi môn học có một điểm thi(DIEMTHI) duy nhất. Mỗi lần đóng học phí, học viên sẽ được trung tâm giao cho một phiếu biên lai thu tiền, mỗi biên lai có một số biên lai duy nhất để quản lý. Một số yêu cầu của hệ thống này như: Lập danh sách những học viên khai giảng khoá ngày nào đó. Lập danh sách các học viên của một lớp ? Cho biết số lượng học viên của mỗi lớp khai giảng khoá ngày nào đó? Bài 1.5. QUẢN LÝ COI THI TUYỂN SINH Một hội đồng coi thi tuyển sinh có nhiều điểm thi, mỗi điểm thi được đặt tại một trường nào đó. Các điểm thi (DIEMTHISO) được đánh số là điểm thi số 1, điểm thi số 2, điểm thi số 3, Mỗi điểm thi xác định địa chỉ (DIACHIDIEMTHI). Ví dụ: điểm thi số 1, đặt tại trường PTTH Nguyễn Thị Minh Khai, điểm thi số 2 đặt tại trường PTTH Bùi Thị Xuân, Mỗi thí sinh có một số báo danh (SOBD) duy nhất, mỗi số báo danh xác định các thông tin: họ và tên (HOTEN), ngày sinh (NGAYSINH), phái (PHAI), hộ khẩu thường trú (TINH), đối tượng dự thi (DOITUONG), ngành đăng ký thi, khu vực của thí sinh (KHUVUC), số hiệu phòng thi. Ví dụ: thí sinh Vũ Mạnh Cường, có số báo danh là 02978, sinh ngày 12/12/1984, phái nam, hộ khẩu thường trú tại Chợ Gạo - Tiền Giang, thuộc khu vực 1, đối tượng là 5B, đăng ký dự thi vào ngành có mã ngành là 01, thi tại phòng thi 0178, điểm thi số 1. Mỗi ngành có một mã ngành (MANGANH) duy nhất, mỗi mã ngành xác định tên ngành (TENNGANH). Mỗi điểm thi có nhiều phòng thi – mỗi phòng thi (PHONGTHI) được đánh số khác nhau ở tất cả các điểm thi. Trong một phòng thi, danh sách các thí sinh được sắp xếp theo thứ tự alphabet (do đó trong một phòng thi có thể có thí sinh của nhiều ngành khác nhau). Mỗi phòng thi có thêm cột ghi chú (GHICHU) -
- 22 ghi thêm các thông tin cần thiết như phòng thi đó nằm tại dãy nhà nào. Ví dụ phòng thi 0060 nằm ở dãy nhà H lầu 2 - điểm thi số 1 - trường PTTH Bùi Thị Xuân. Mỗi môn thi có một mã môn thi duy nhất (MAMT), mỗi mã môn thi biết các thông tin như : tên môn thi (TENMT), ngày thi (NGAYTHI), buổi thi (BUOITHI), thời gian làm bài thi được tính bằng phút (PHUT). Thời gian làm bài thi của các môn tối thiểu là 90 phút và tối đa là 180 phút (tuỳ theo kỳ tuyển sinh công nhân, trung cấp, cao đẳng hay đại học). Mỗi ngành có một mã ngành, chẳng hạn ngành Công Nghệ Thông Tin có mã ngành là 1, ngành Công Nghệ Hoá Thực Phẩm có mã ngành là 10, Mỗi đơn vị có cán bộ tham gia vào kỳ thi có một mã đơn vị duy nhất (MADONVI), mã đơn vị xác định tên đơn vị (TENDONVI). Nếu là cán bộ, công nhân viên của trường thì đơn vị là khoa/phòng quản lý cán bộ đó, nếu là giáo viên từ các trường khác thì ghi rõ tên đơn vị đó. Chẳng hạn cán bộ Nguyễn Thanh Liêm đơn vị Khoa Công Nghệ Thông Tin, cán bộ coi thi Nguyễn Thị Tuyết Mai, đơn vị trường PTTH Ngôi Sao - Quận 1, Mỗi cán bộ coi thi chỉ làm việc tại một điểm thi nào đó. Mỗi cán bộ có một mã số duy nhất (MACANBO), mỗi MACANBO xác định các thông tin khác như : họ và tên (HOTENCB), đơn vị công tác, chức vụ (CHUCVU) được phân công tại điểm thi, chẳng hạn chức vụ là điểm trưởng, điểm phó, giám sát, thư ký, cán bộ coi thi, phục vụ, Ví dụ cán bộ Nguyen Van Thanh đơn vị Khoa Công Nghệ Thông Tin, làm nhiệm vụ thi tại điểm thi số 1, chức vụ là giám sát phòng thi.
- 23 Chương 2. MÔ HÌNH DỮ LIỆU QUAN HỆ Mã chương MH16-02 Giới thiệu: Mô hình dữ liệu quan hệ là dạng mô hình cơ sở dữ liệu cơ bản, được khai thác về mặt lý thuyết khá triệt để, triển khai về mặt ứng dụng hiệu quả nhất so với các mô hình dữ liệu khác. Trong chương này, chúng ta sẽ tìm hiểu sâu hơn một số khái niệm, thuật ngữ, các phép toán trên mô hình dữ liệu quan hệ. Đồng thời tìm hiểu một trong những phương pháp xây dựng (tạo mới) một mô hình dữ liệu quan hệ dựa trên các nguyên tắc chuyển đổi từ mô hình thực thể mối quan hệ đã được học ở chương một. Mục tiêu: - Trình bày cụ thể về mô hình dữ liệu quan hệ, các khái niệm, cơ sở lý thuyết của mô hình dữ liệu quan hệ (đại số quan hệ); - Áp dụng được các quy tắc chuyển đổi từ mô hình ERD sang mô hình dữ liệu quan hệ (ở dạng lược đồ). Nội dung: 1. Một số khái niệm cơ bản. Mục tiêu: trình bày cụ thể các khái niệm của mô hình dữ liệu quan hệ. 1.1. Thuộc tính Thuộc tính là các đặc điểm riêng của một đối tượng (đối tượng được hiểu như là một loại thực thể ở mô hình thực thể kết hợp), mỗi thuộc tính có một tên gọi và phải thuộc về một kiểu dữ liệu nhất định. Kiểu dữ liệu (data type): Các thuộc tính được phân biệt qua tên gọi và phải thuộc một kiểu dữ liệu nhất định (số, chuỗi, ngày tháng, logic, hình ảnh, ). Kiểu dữ liệu ở đây có thể là kiểu vô hướng hoặc là kiểu có cấu trúc. Nếu thuộc tính có kiểu dữ liệu là vô hướng thì nó được gọi là thuộc tính đơn hay thuộc tính nguyên tố, nếu thuộc tính có kiểu dữ liệu có cấu trúc thì ta nói rằng nó không phải là thuộc tính nguyên tố. Chẳng hạn với sinh viên Nguyễn Văn Thành thì các thuộc tính họ và tên,
- 24 mã số sinh viên thuộc kiểu chuỗi, thuộc tính ngày sinh thuộc kiểu ngày tháng, hộ khẩu thường trú kiểu chuỗi, thuộc tính hình ảnh kiểu hình ảnh, Miền giá trị (domain of values): Thông thường mỗi thuộc tính chỉ chọn lấy giá trị trong một tập con của kiểu dữ liệu và tập hợp con đó gọi là miền giá trị của thuộc tính đó. Chẳng hạn thuộc tính NỮ có miền giá trị là {nam,nữ}, thuộc tính màu da có miền giá trị là {da trắng, da vàng, da đen, da đỏ}, thuộc tính điểm thi là các số thuộc tập {0; 1; 2; ,10]. Lưu ý rằng nếu không lưu ý đến ngữ nghĩa thì tên của các thuộc tính thường được ký hiệu bằng các chữ cái in hoa đầu tiên trong bảng chữ cái la tinh: A,B,C,D, Những chữ cái in hoa X,Y,Z,W, thường dùng thay cho một nhóm nhiều thuộc tính. Đôi khi còn dùng các ký hiệu chữ cái với các chỉ số A1,A2, ,An để chỉ các thuộc tính trong trường hợp tổng quát hay muốn đề cập đến số lượng các thuộc tính. Tên thuộc tính phải được đặt một cách gợi nhớ, không nên đặt tên thuộc tính quá dài (vì như thế sẽ làm cho việc viết các câu lệnh truy vấn trở nên vất vả hơn), nhưng cũng không nên đặt tên thuộc tính quá ngắn (vì nó sẽ không cho thấy ngữ nghĩa của thuộc tính), đặc biệt không đặt trùng tên hai thuộc tính mang ngữ nghĩa khác nhau thuộc hai đối tượng khác nhau. Trong nhiều hệ quản trị cơ sở dữ liệu, người ta thường đưa thêm vào miền giá trị của các thuộc tính một giá trị đặc biệt gọi là giá trị rỗng (NULL). Tuỳ theo ngữ cảnh mà giá trị này có thể đặc trưng cho một giá trị không thể xác định được hoặc một giá trị chưa được xác định ở vào thời điểm nhập tin nhưng có thể được xác định vào một thời điểm khác. 1.2 Lược Đồ Quan Hệ (relation schema) Tập tất cả các thuộc tính cần quản lý của một đối tượng cùng với các mối liên hệ giữa chúng được gọi là lược đồ quan hệ. Lược đồ quan hệ Q với tập thuộc tính {A1,A2, ,An} được viết là Q(A1,A2, ,An), + ký hiệu: Q = { A1,A2, ,An }. Chẳng hạn lược đồ quan hệ Sinhviên với các thuộc tính như đã được
- 25 liệt kê trong ví dụ 1.1 được viết như sau: Sinhvien(MASV,HTENSV,NU,NGAYSINH,NOISINH,TINH,MALOP) Thường thì khi thành lập một lược đồ quan hệ, người thiết kế gắn cho nó một ý nghĩa nhất định, gọi là tân từ của lược đồ quan hệ. Chẳng hạn tân từ của lược đồ quan hệ Sinhvien là: “Mỗi sinh viên có mỗi MASV duy nhất. Mỗi MASV xác định các thuộc tính còn lại của sinh viên đó như HOTENSV, NU, NGAYSINH, NOISINH,TINH,MALOP”. Khi phát biểu tân từ cho một lược đồ quan hệ, người thiết kế cần phải mô tả đầy đủ ý nghĩa để người khác tránh hiểu nhầm. Dựa vào tân từ này, người ta xác định được tập khoá, siêu khoá của lược đồ quan hệ (sẽ được trình bày trong những mục kế tiếp). Nhiều lược đồ quan hệ cùng nằm trong một hệ thống thông tin được gọi là một lược đồ cơ sở dữ liệu. Khái niệm lược đồ quan hệ ứng với khái niệm loại thực thể ở mô hình thực thể kết hợp. 1.3. Quan Hệ (relation) Sự thể hiện của lược đồ quan hệ ở một thời điểm nào đó được gọi là quan hệ, rõ ràng là trên một lược đồ quan hệ có thể xác định nhiều quan hệ. Thường ta dùng các ký hiệu như R,S,Q để chỉ các lược đồ quan hệ, còn quan hệ thường được dùng bởi các ký hiệu là r, s,q, Về trực quan thì quan hệ (hay bảng quan hệ) như là một bảng hai chiều gồm các dòng và các cột. Một quan hệ có n thuộc tính được gọi là quan hệ n ngôi. Để chỉ quan hệ r xác định trên lược đồ quan hệ Q ta có thể viết r(Q). 1.4. Bộ (Tuple) Mỗi bộ là những thông tin về một đối tượng thuộc một quan hệ, bộ cũng còn được gọi là mẫu tin. Thường người ta dùng các chữ cái thường (như t, ) để biểu diễn bộ trong quan hệ.
- 26 2. Chuyển mô hình thực thể kết hợp sang mô hình dữ liệu quan hệ Mục tiêu: Áp dụng được các quy tắc chuyển đổi mô hình thực thể kết hợp ERD sang mô hình dữ liệu quan hệ (dạng lược đồ). Quy tắc 1: Chuyển đổi mỗi loại thực thể thành một lược đồ quan hệ, các thuộc tính của loại thực thể thành các thuộc tính của lược đồ quan hệ, thuộc tính khoá của loại thực thể là thuộc tính khoá của lược đồ quan hệ. Chẳng hạn loại thực thể Sinhvien ở ví dụ 1.2 khi áp dụng quy tắc 1 thì sẽ được chuyển thành lược đồ quan hệ Sinhvien như sau: Sinhvien(MASV, HOTENSV, NU, NGAYSINH, TINH, .) Quy tắc 2: Nếu mối kết hợp mà cả hai nhánh của nó đều có bản số max là n thì mối kết hợp này sẽ được chuyển thành một lược đồ quan hệ K’ gồm các thuộc tính của mối kết hợp K, cộng thêm các thuộc tính khoá của hai lược đồ quan hệ A, B tương ứng với hai thực thể tham gia vào mối kết hợp. Khoá của lược đồ quan hệ K’ gồm cả hai khoá của hai lược đồ quan hệ A và B. Chẳng hạn mối kết hợp Phancong giữa ba loại thực thể Giangvien, Monhoc và Lop được chuyển thành lược đồ quan hệ Phancong và có tập khoá là {MAGV,MAMH,MALOP} như sau: Phancong(MAGV,MAMH,MALOP) Quy tắc 3: Mối kết hợp mà một nhánh có bản số là n (nhánh B) và nhánh còn lại có bản số max là 1 (nhánh A) thì loại bỏ mối kết hợp này khỏi mô hình thực thể kết hợp và thêm các thuộc tính khoá của lược đồ tương ứng với loại thực thể ở nhánh B vào lược đồ tương ứng với loại thực thể ở nhánh A (khoá của B sẽ thành khoá ngoại của A). Nếu mối kết hợp có các thuộc tính thì những thuộc tính này cũng được thêm vào lược đồ quan hệ tương ứng với loại thực thể ở nhánh A. Chẳng hạn mối kết hợp thuộc giữa hai loại thực thể Sinhvien và Lop
- 27 nên lược đồ quan hệ Sinhvien được sửa thành như sau: Sinhvien(MASV,HOTENSV,NU,NGAYSINH, TINH,MALOP) Quy tắc 4: Nếu mối kết hợp mà cả hai nhánh đều có bản số max là 1 thì áp dụng quy tắc 3 cho một trong hai nhánh tuỳ chọn. Ví dụ 2.1: Sau đây là mô hình dữ liệu quan hệ được chuyển từ mô hình thực thể kết hợp ở ví dụ 1.2. Sinhvien(MASV, HOTENSV, NU, NGAYSINH, NOISINH,TINH, MALOP) Lop(MALOP,TENLOP,MAKHOA) Khoa(MAKHOA,TENKHOA) Monhoc(MAMH,TENMH,DONVIHT) Giangvien(MAGV,HOTENGV,HOCVI,CHUYENNGANH,MAKHOA) Ketqua(MASV, MAMH, LANTHI,DIEMTHI) Phancong(MALOP,MAMH,MAGV) 3. Ngôn ngữ đại số quan hệ Mục tiêu: Trình bày được cơ sở lý thuyết của mô hình dữ liệu quan hệ (các phép toán đại số áp dụng tính toán trên các quan hệ). Cho hai lược đồ quan hệ Q 1 và Q2 có cùng tập thuộc tính { A1,A2, ,An}. r1, r2 lần lượt là hai quan hệ trên Q1 và Q2, ta nói hai quan hệ tương thích nếu chúng được định nghĩa trên cùng một lược đồ quan hệ hoặc trên hai lược đồ quan hệ có cùng tập thuộc tính. Các phép toán sau đây chỉ được xét trên quan hệ tương thích, đó là: phép hợp, phép giao, phép trừ. 3.1. Phép Hợp 2 quan hệ(Union) Cho hai quan hệ tương thích r1 và r2 . Hợp của hai quan hệ r1 và r2 ký hiệu là r1 + r2 là một quan hệ trên lược đồ quan hệ Q gồm các phần tử thuộc r1 hoặc thuộc r2, tức là: r1 + r2 = {t / t r1 hoặc t r2}
- 28 Ví dụ 2.2 Khi đó, nội dung của quan hệ r1 + r2 là: Do thứ tự trước/sau của các bộ trong các quan hệ là không quan trọng nên ta có: r1 + r2 = r2 + r1 Và r + r = r Một cách tổng quát có thể lấy hợp của n quan hệ tương thích: cho n quan hệ tương thích r1,r2, ,rn Hợp của n quan hệ r1,r2, ,rn là một quan hệ r1 + r2+ + rn gồm các phần tử thuộc r1 hoặc thuộc r2 hoặc thuộc rn 3.2. Phép Giao 2 quan hệ (Intersection) Giao của hai quan hệ tương thích r1 và r2 ký hiệu là r1 * r2 là một quan hệ trên Q gồm các phần tử vừa thuộc r1 vừa thuộc r2. Vậy: r1 * r2 = { t / t r1 và t r2} Chẳng hạn với ví dụ 2.2 ở trên thì r1 * r2 là: 3.3.Phép Trừ 2 quan hệ (Minus) Hiệu của hai quan hệ tương thích r1 cho r2 ký hiệu là r1 – r2 là một quan hệ trên Q gồm các phần tử chỉ thuộc r1 mà không thuộc r2, nghĩa là r1 - r2 = {t r1 và t r2}. Chẳng hạn với ví dụ 2.2. thì r1 - r2 là:
- 29 3.4.Tích Decac của 2 quan hệ (Cartesian Product) Cho hai lược đồ quan hệ Q1(A1,A2, ,An), Q2(B1,B2, ,Bm). Giả sử r1, r2 là hai quan hệ trên Q1, Q2 tương ứng. Tích Descartes (decac) của r1 và r2 ký hiệu là r1 x r2 là quan hệ trên lược đồ quan hệ có tập thuộc tính Q = Q1 ∪ Q2. Vậy quan hệ r1 x r2 là quan hệ trên lược đồ: Q = Q1 ∪ Q2 = {A1,A2, ,An,B1,B2, ,Bm } với r1 x r2 = {(t1,t2) : t1 r1, t2 r2 } Ví dụ 2.3. cho r1 và r2 là Thì kết quả r1 x r2 như sau: 3.5. Phép chia 2 quan hệ: Cho 2 lược đồ quan Q1(A1,A2, ,An), Q2(B1,B2, ,Bm), r là quan hệ xác định trên Q1; s là quan hệ xác định trên Q2 (n>m và s khác rỗng), có m thuộc tính chung (giống nhau về mặt ngữ nghĩa, hoặc các thuộc tính có thể so sánh được) giữa r và s. Phép chia 2 quan hệ r và s ký hiệu r ÷ s , là một quan hệ q có n - m thuộc tính được định nghĩa như sau:
- 30 q= r ÷ s={t/ u s, (t,u) r} Ví dụ 2.4: 3.6. Phép Chiếu (projection) + Cho lược đồ quan hệ Q(A1,A2, ,An), r là quan hệ trên Q và X Q . Phép chiếu của r lên tập thuộc tính X, ký hiệu là r[X] (hoặc r.X) sẽ tạo thành lược đồ quan hệ r’, trong đó tập thuộc tính của r’ chính là X và quan hệ r’ được trích từ r bằng cách chỉ lấy các thuộc tính có trong X. Phép chiếu chính là phép rút trích dữ liệu theo cột. Chẳng hạn với r1 ở ví dụ 2.2 thì khi đó ta có quan hệ con của r1 chiếu lên X={A,C} là: 3.7.Phép Chọn (Selection) Cho lược đồ quan hệ Q(A1,A2, ,An), r là một quan hệ trên lược đồ quan hệ Q. X là một tập con của Q+ và E là một mệnh đề logic được phát biểu trên tập X. Phần tử t r thoả mãn điều kiện E ký hiệu là t(E). Phép chọn từ
- 31 quan hệ r theo điều kiện E (ký hiệu là r : E) sẽ tạo thành một quan hệ mới ký hiệu là r(E), trong đó r(E) = {t: t r và t(E)} Phép chọn chính là phép rút trích dữ liệu theo dòng. Chẳng hạn với r2 ở ví dụ 2.3 và điều kiện E là: “F >= 6” thì kết quả r2(E) hay r2: “F >= 6” có nội dung là 3.8. Phép - kết Cho hai lược đồ quan hệ Q1 và Q2 như sau: Q1(A1,A2, ,An), Q2(B1,B2, ,Bm); r và s lần lượt là hai quan hệ trên Q1 và Q2. Ai và Bj lần lượt là thuộc tính của Q1, Q2 sao cho MGT(AI)= MGT(BJ). là một trong các phép so sánh (=, , ≤ , ≥, ≠ ) trên MGT(AI). Phép kết giữa r và s theo điều kiện Ai Bj ký hiệu là r |> =”, điều kiện B>=F, ta được kết quả là quan hệ sau:
- 32 3.9. Phép Kết Tự Nhiên (natural join) Nếu được sử dụng trong phép kết trên là phép so sánh bằng (=) thì gọi là phép kết bằng. Hơn nữa nếu Ai ≡ Bj thì phép kết bằng này được gọi là phép kết tự nhiên. Phép kết tự nhiên là phép kết thường dùng nhất trong thực tế. Ngôn ngữ với các phép toán trên gọi là ngôn ngữ đại số quan hệ. Sau đây là một ví dụ về ngôn ngữ đại số quan hệ. Ví dụ 2.6 Cho lược đồ CSDL dùng để quản lý điểm sinh viên được mô tả như ở ví dụ 2.1. Hãy thực hiện các yêu cầu sau bằng ngôn ngữ đại số quan hệ: 1. Lập danh sách các sinh viên lớp có mã lớp là CDTH2A, danh sách cần MASV,HOTENSV 2. Lập danh sách sinh viên nữ và có mã khoa là “CNTT”, danh sách cần MASV, HOTENSV. 3. Lập bảng điểm thi lần 1 của tất cả các môn cho sinh viên lớp CDTH2A, danh sách cần MASV, HOTENSV, TENMH, DIEMTHI. 4. Lập phiếu điểm thi lần 1 các môn cho sinh viên có MASV=”00CDTH189”. danh sách cần MAMH,TENMH, DONVIHT, DIEMTHI. Giải:
- 33 BÀI TẬP THỰC HÀNH CỦA HỌC VIÊN Bài 2.1. Hãy lập mô hình dữ liệu quan hệ cho các bài toán quản lý 1.1, 1.2, 1.3, 1.4, 1.5. Hãy xác định khoá cho từng lược đồ cho mỗi bài toán trên. Bài 2.2. Cho lược đồ cơ sở dữ liệu Sinhvien(MASV,HTENSV,NU,NGAYSINH,NOISINH,TINH,MALOP) Lop(MALOP,TENLOP,MAKHOA) Khoa(MAKHOA,TENKHOA) Monhoc(MAMH,TENMH,DONVIHT) Giangvien(MAGV,HOTENGV,HOCVI,CHUYENNGANH,MAKHOA) Ketqua(MASV,MAMH,LANTHI,DIEMTHI) Phancong(MALOP,MAMH,MAGV) Thực hiện các yêu cầu sau bằng ngôn ngữ đại số quan hệ: a. Lập danh sách những sinh viên có hộ khẩu thường trú ở tỉnh “LONG AN”, danh sách cần các thông tin: MASV, HOTENSV, NGAYSINH, TENLOP b. Lập danh sách các sinh viên của lớp có MALOP là CDTH2A, danh sách cần các thông tin: MASV, HOTENSV, NGAYSINH, TINH. c. Lập danh sách các giảng viên có cấp học vị là THAC SY của khoa có MAKHOA là “CNTT”, danh sách cần: MAGV, HOTENGV, CHUYENNGANH. d. Lập bảng điểm thi lần 1 môn học “869” cho tất cả sinh viên thuộc hai lớp có MALOP là “CĐTH2A” và “CĐTH2B”, danh sách cần: MASV, HOTENSV, DIEMTHI. e. Lập danh sách các giảng viên đã dạy lớp CĐTH2A, danh sách cần các thông tin: MAGV, HOTENGV,TENKHOA,HOCVI,TENMH. f. Lập danh sách các môn mà lớp CDTH2A đã học, danh sách cần các thông tin: MAMH,TENMH,DONVIHT,HOTENGV. g. Lập danh sách những giảng viên đã dạy sinh viên có MASV là “00CDTH189“, danh sách cần MAGV, HOTENGV, HOCVI, CHUYENNGANH, TENKHOA,TENMH
- 34 h. Lập danh sách các sinh viên có mã khoa “CNTT” có điểm thi lần 1 môn học “869” lớn hơn hoặc bằng 8, danh sách cần MASV, HOTENSV, DIEMTHI, TENLOP. GỢI Ý BÀI TẬP Bài 2.1: gợi ý sau đây dựa trên mô hình E-R của bài tập 1.1 Áp dụng các quy tắc chuyển đổi từ E-R sang mô hình dữ liệu quan hệ, ta có: - Chuyển đổi mỗi loại thực thể thành một lược đồ quan hệ (quy tắc 1). Ta có các lược đồ quan hệ sau: R1: KHÁCH HÀNG (makhachhang, tenkhachhang) R2: BÁO (mabao, tenbao, dongiaky, hinhthuc) R3: THỂ LOẠI (matheloai, tentheloai) - Chuyển các quan hệ và bản số quan hệ: + Quan hệ Đặt/mua là quan hệ nhiều-nhiều có thuộc tính riêng, áp dụng quy tắc 2, ta có được lược đồ quan hệ sau: R4: ĐẶT BÁO (makhachhang, mabao, ngaydat, soky, thanhtien) + Quan hệ Thuộc là quan hệ một – nhiều (một cho nhánh THỂ LOẠI), áp dụng quy tắc 3, ta có lược đồ quan hệ sau: R5: BÁO (mabao, tenbao, dongiaky, hinhthuc, matheloai) - Loại bỏ các lược đồ có tên trùng lặp (giữ lại lược đồ đã bổ sung thuộc tính), các lược đồ sau khi đã loại bỏ sẽ tạo nên mô hình dữ liệu quan hệ cơ bản cần tìm Q, Q(R1, R3, R4, R5). Bài 2.2: tham khảo ví dụ 2.6 để thực hiện.
- 35 Chương 3. NGÔN NGỮ TRUY VẤN DỮ LIỆU Mã chương MH16-03 Giới thiệu: SQL( STRUCTURE QUERY LANGUAGE) là ngôn ngữ truy vấn dựa trên đại số quan hệ. Ngôn ngữ truy vấn SQL có tập lệnh khá phong phú dùng để thao tác trên cơ sở dữ liệu. Chẳng hạn lệnh create để tạo các bảng quan hệ, lệnh update để cập nhật dữ liệu, lệnh delete để xoá dữ liệu, lệnh insert để thêm dữ liệu. Trong chương này, chúng ta chỉ nghiên cứu về câu lệnh quan trọng nhất của SQL đó là câu lệnh truy vấn dữ liệu SELECT. Kết quả của lệnh select là một quan hệ, quan hệ kết quả này có thể kết xuất ra màn hình, máy in, hoặc là trên các thiết bị lưu trữ thông tin khác. Mục tiêu: - Hiểu được cách thức truy vấn của dữ liệu quan hệ, điển hình là ngôn ngữ truy vấn SQL chuẩn, thực hiện truy vấn được trên các dữ liệu đã cài đặt. - Thực hiện các thao tác an toàn với máy tính. Nội dung: 1. Mở đầu Mục tiêu: - Giới thiệu về lịch sử ngôn ngữ SQL, mục đích, lợi ích của ngôn ngữ SQL. - Trình bày tóm tắc các kiểu dữ liệu cơ bản, các hàm xử lý dữ liệu cơ bản của SQL. - Trình bày cú pháp tổng quát của câu lệnh Select – câu lệnh truy vấn dữ liệu chuẩn của SQL. Vào những năm 1970, SQL(Structure Query Language) lần đầu được hãng IBM phát triển như một bộ phận của hệ quản trị CSDL mô hình quan hệ có tên là SYSTEM R. Sau đó vào các năm 1980 IBM tiếp tục phát triển SQL cho các hệ quản trị cơ sở dữ liệu nổi tiếng là SQL/DS trên nền hệ điều hành VM, DB2 trên nền hệ điều hành MVS, Hệ quản trị cơ sở dữ liệu mở rộng trên nền hệ điều
- 36 hành IBM OS/2, Hệ quản trị cơ sở dữ liệu cho hệ thống IBM AS/400. Năm 1986, Viện tiêu chuẩn quốc gia Hoa kỳ (ANSI – American National Standards Institute) và Tổ chức Tiêu chuẩn Quốc tế (ISO – International Standards Organization) đã thừa nhận SQL như là ngôn ngữ chuẩn xử lý dữ liệu. Ngôn ngữ chuẩn ANSI SQL tiếp tục được cập nhật vào những năm 1989 và 1992 cho đến hôm nay. SQL được cài đặt cho hệ thống máy tính lớn (mainframe) cũng như máy tính cá nhân. Bên cạnh các sản phẩm của hãng IBM, cũng cần phải kể đến các hệ quản trị cơ sở dữ liệu nổi tiếng khác như ORACLE của Công ty Oracle, SQL Server của hãng Microsoft, SQLBase của hãng Sybase, Ingres của hãng Relational Technologies, Mục đích của chuẩn SQL là - Xác định cú pháp và ngữ nghĩa của ngôn ngữ SQL định nghĩa và thao tác dữ liệu. - Định nghĩa các cấu trúc dữ liệu và phép toán cơ bản để thiết kế, truy cập, lưu trữ, kiểm soát và bảo vệ cơ sở dữ liệu SQL. - Cung cấp công cụ đảm bảo tính tương thích của cấu trúc dữ liệu và các modul ứng dụng giữa các hệ quản trị cơ sở dữ liệu. - Xác định chuẩn tối thiểu và chuẩn hoàn chỉnh, cho phép các cấp độ sử dụng SQL khác nhau trong các sản phẩm. - Cung cấp chuẩn ban đầu, có thể chưa hoàn chỉnh, cho phép mở rộng các chức năng xử lý những vấn đề như sự toàn vẹn tham chiếu, giao thức chuyển đổi, các hàm người dùng, các toán tử nối ngoài phép đẳng nối, và các hệ thống ký tự quốc gia, Một ngôn ngữ quan hệ chuẩn như SQL sẽ mang lại các lợi ích sau đây: - Giảm thiểu chi phí đào tạo. Các hệ quản trị cơ sở dữ liệu có chung ngôn ngữ chuẩn SQL sẽ làm giảm chi phí chuyển đổi từ hệ này sang hệ khác. - Nâng cao hiệu năng công việc. Các chuyên gia hệ thống thông tin với kiến thức sâu sắc về SQL sẽ nhanh chóng nắm bắt các chương trình ứng dụng
- 37 của các hệ quản trị cơ sở dữ liệu, vì họ đã quen thuộc với ngôn ngữ của các chương trình này. - Tính khả chuyển của các ứng dụng. Các ứng dụng có thể dễ dàng sử dụng trên các hệ thống khác nhau, nhưng cùng sử dụng SQL. - Tăng tuổi thọ của các ứng dụng. Một ngôn ngữ chuẩn có xu hướng tồn tại thời gian dài, điều đó làm giảm áp lực viết lại chương trình. - Làm giảm sự phụ thuộc vào nhà cung cấp. Vì SQL là ngôn ngữ chung nên người dùng dễ dàng sử dụng nhiều sản phẩm của các nhà cung ứng khác nhau, với giá cả cạnh tranh. - Khả năng giao tiếp giữa các hệ thống chéo. Các hệ quản trị cơ sở dữ liệu quan hệ và các chương trình ứng dụng khác nhau có thể dễ dàng giao tiếp và hợp tác để xử lý dữ liệu và thực hiện chương trình người dùng. SQL là ngôn ngữ có cấu trúc Trong câu lệnh của SQL có một số mệnh đề tuân theo những cú pháp riêng của nó. Có 4 loại lệnh trong SQL: - Các lệnh truy vấn dữ liệu. - Các lệnh định nghĩa dữ liệu (DDL) . - Các lệnh xử lý cập nhật dữ liệu (DML) . - Các lệnh kiểm soát dữ liệu . Kiểu dữ liệu SQL có các kiểu dữ liệu sau: INTEGER : Kiểu số nguyên 2 byte -2 147 483 648 2 147 483 647 . SMALLINT : Kiểu số nguyên 1 byte - 32 768 32 767. DECIMAL(n,d) : Kiểu số thực độ dài n (kể cả dấu), số chữ số thập phân d FLOAT(n,d): Kiểu số thực khoa học độ dài n, số chữ số thập phân d CHAR(n) : Kiểu chuỗi ký tự độ dài n DATE : Kiểu ngày tháng (ngày/tháng/năm) LOGICAL : Kiểu lôgic, nhận giá trị true hoặc false VARCHAR(n) : Kiểu chuỗi ký tự độ dài thay đổi, tối đa n ký tự
- 38 LONGVARCHAR: Kiểu chuỗi ký tự độ dài thay đổi (chứa dữ liệu như ghi chú, ) Và các kiểu khác như: Kiểu tiền tệ, Kiểu hình ảnh, Kiểu âm thanh Cú pháp tổng quát: SELECT [DISTINCT] [AS ] [, ] | * FROM [ ] [, ] [INTO ] [WHERE [AND | OR ]] [GROUP BY [, ] [HAVING ]] [ORDER BY [ASC | DESC] [, ]] [UNION | INTERSECT | MINUS ] Các thành phần cơ bản của câu lệnh: - Biểu thức sau SELECT có thể bao gồm: + Danh sách các cột, kể cả các biểu thức chứa các cột, của các bảng hoặc khung nhìn khai báo sau FROM. Các biểu thức ngăn cách nhau bằng dấu phẩy (,) và có thể đổi tên bằng tuỳ chọn AS . + * là ký tự đại diện tất cả các thuộc tính của bảng sau FROM + Các hàm tính toán : COUNT, SUM, AVG, MIN, MAX - Biểu thức sau FROM gồm một hoặc danh sách các bảng quan hệ (có thể đặt bí danh). - INTO : Lưu bảng kết quả vào đĩa. - Biểu thức sau WHERE bao gồm : + Các thuộc tính của các bảng quan hệ sau FROM + Các toán tử số học : +, - , * , / + Các toán tử so sánh, có thể so sánh với ANY (giá trị nào đó trong 1 tập hợp) hoặc ALL (tất cả giá trị trong 1 tập hợp) + Các toán tử Boolean : AND, OR, NOT
- 39 + Các toán tử tập hợp : UNION (hợp), INTERSECT (giao), MINUS (hiệu). + Các quan hệ bao hàm : IN ( ), NOT IN ( ), CONTAINS (chứa), DOES NOT CONTAIN (không chứa) + Điều kiện tồn tại : EXISTS (tồn tại), NOT EXIST (không tồn tại) + Câu vấn tin con kiểu SELECT FROM WHERE 2. Tìm thông tin từ các cột của bảng – Mệnh đề Select Mục tiêu: Trình bày cú pháp, chức năng của mệnh đề Select Cú pháp: SELECT [DISTINCT] [AS ] [, ] | * FROM Công dụng: Xác định nội dung kết quả gồm các cột liệt kê sau SELECT hoặc tất cả các cột lấy từ . Từ khoá DISTINCT dùng liệt kê những giá trị duy nhất tránh trùng lặp. Từ khoá AS dùng đặt bí danh Ví dụ Cho lược đồ cơ sở dữ liệu khách hàng KHACH(TenKH, DiaChi, SoDu) HOPDONG(SoHD, TenKH, Hang, SoLuong) CUNGUNG(Ten, DiaChi, Hang, DonGia) - Trả về các bản ghi gồm tất cả các cột của bảng CUNGUNG. SELECT * FROM CUNGUNG - Trả về các bản ghi gồm 2 cột Hang, DonGia của bảng CUNGUNG. SELECT Hang, DonGia FROM CUNGUNG hoặc SELECT DISTINCT Hang, DonGia
- 40 FROM CUNGUNG - Trả về các bản ghi gồm 1 cột Hang với giá trị duy nhất của bảng CUNGUNG. SELECT DISTINCT Hang FROM CUNGUNG - Có thể cho hiển thị giá trị hằng, chẳng hạn SELECT “Mặt hàng”, Hang, “có đơn giá là”, DonGia FROM CUNGUNG 3. Chọn các dòng của bảng – Mệnh đề Where Mục tiêu: Trình bày cú pháp, chức năng của mệnh đề Where trong câu lệnh truy vấn Select. Cú pháp: SELECT [DISTINCT] [AS ] [, ] | * FROM WHERE Công dụng: Trả về các bản ghi gồm các cột liệt kê sau SELECT hoặc tất cả các cột lấy từ gồm các bộ thoả mãn . Ghi chú : Sau WHERE có thể dùng các mệnh đề : - BETWEEN AND : biểu diễn điều kiện - NOT BETWEEN AND : biểu diễn điều kiện hoặc > - IN ( , , ) : biểu diễn điều kiện bằng một trong các giá trị , , - NOT IN ( , , ) : biểu diễn điều kiện khác các giá trị , , - [NOT] LIKE : biểu diễn điều kiện [không] giống
- 41 Trong có thể dùng dấu % (dấu phần trăm) đại diện cho chuỗi ký tự bất kỳ -_ (dấu nối) đại diện cho một ký tự bất kỳ - IS [NOT] NULL: biểu diễn điều kiện. giá trị là [khác] NULL Ví dụ - Trả về các bản ghi gồm các cột Ten, DiaChi có giá trị duy nhất từ bảng CUNGUNG của các nhà cung ứng hoặc Đường hoặc Sữa. SELECT DISTINCT Ten, DiaChi FROM CUNGUNG WHERE (Hang = ‘Đường’) OR (Hang = ‘Sữa’) hoặc SELECT DISTINCT Ten, DiaChi FROM CUNGUNG WHERE Hang IN (‘Đường’, ‘Sữa’ ) - Trả về các bản ghi gồm các Ten, DiaChi của các khách hàng có SoDu không âm từ bảng KHACH SELECT Ten, DiaChi FROM KHACH WHERE SoDu >= 0 - Trả về các bản ghi gồm các hợp đồng có SoLuong từ 100 đến 200 từ bảng HOPDONG SELECT * FROM HOPDONG WHERE SoLuong BETWEEN 100 AND 200 - Trả về các bản ghi gồm các nhà cung ứng có tên bắt đầu bằng ‘Cty’ từ bảng CUNGUNG SELECT * FROM CUNGUNG
- 42 WHERE Ten LIKE ‘Cty %’ - Trả về các bản ghi gồm các nhà cung ứng có mặt hàng ‘Bia’ từ bảng CUNGUNG SELECT * FROM CUNGUNG WHERE Hang LIKE ‘Bia %’ - Chọn những khách hàng chưa có địa chỉ SELECT * FROM KHACH WHERE DiaChi IS NULL - Chọn những khách hàng có số dư xác định : SELECT * FROM KHACH WHERE SoDu IS NOT NULL 4. Sắp xếp các dòng của bảng – Mệnh đề Order by Mục tiêu: Trình bày cú pháp, chức năng của mệnh đề Order by trong câu lệnh truy vấn Select Cú pháp: SELECT [DISTINCT] [AS ] [, ] | * FROM ORDER BY [ASC | DESC] [, ] Công dụng: Trả về các bản ghi gồm các cột liệt kê sau SELECT hoặc tất cả các cột lấy từ gồm các bộ được sắp xếp theo các biểu thức sau ORDER BY. Ý nghĩa các tham số : ASC : tăng dần (ngầm định) DESC: giảm dần . Ví dụ :
- 43 - Cho biết danh sách khách hàng sắp xếp theo TEN tăng dần : SELECT * FROM KHACH ORDER BY Ten - Cho biết danh sách các nhà cung ứng ‘Sữa’ sắp xếp theo thứ tự DonGia giảm dần: SELECT * FROM CUNGUNG WHERE Hang = ‘Sữa’ ORDER BY DonGia DESC - Cho biết danh sách các nhà cung ứng sắp xếp theo thứ tự Ten và Hang : SELECT * FROM CUNGUNG ORDER BY Ten, Hang 5. Câu lệnh truy vấn lồng nhau Mục tiêu: Trình bày cú pháp, chức năng của câu lệnh truy vấn Select lồng nhau. Cú pháp: SELECT [DISTINCT] [AS ] [, ] / * FROM [ ] [, ] [WHERE ] [ORDER BY [ASC / DESC] [, ]] Công dụng: Cho phép tạo ra các điều kiện chứa quan hệ tập hợp và số liệu tổng hợp. Trong quan hệ tập hợp, câu truy vấn con đặt trong ngoặc đơn . Sử dụng các toán tử so sánh : , >=, <> - Liệt kê các khách hàng có số dư lớn nhất: SELECT Ten FROM KHACH WHERE Sodu =
- 44 (SELECT MAX(Sodu) FROM KHACH) - Liệt kê hãng cung ứng gạo có DonGia , >=, a.Manv) - Liệt kê nhân viên từ bảng NHANVIEN có NgaySinh không trùng với người khác SELECT a.Manv, a.HoLot, a.Ten FROM NHANVIEN a WHERE a.NgaySinh a.Manv) Sử dụng toán tử IN (NOT IN) biểu diễn quan hệ
- 45 - Liệt kê Ten, Hang và DonGia của các hãng cung ứng có ít nhất 1 mặt hàng trong HOPDONG : SELECT DISTINCT Ten, Hang, DonGia FROM CUNGUNG WHERE Hang IN (SELECT Hang FROM HOPDONG ) - Liệt kê Ten, Hang và DonGia của các hãng cung ứng có ít nhất 1 mặt hàng mà khách hàng ‘KS. Bạch Đằng’ đặt hàng : SELECT DISTINCT Ten, Hang, DonGia FROM CUNGUNG WHERE Hang IN (SELECT Hang FROM HOPDONG WHERE TenKh = ‘KS. Bạch Đằng’ ) - Liệt kê Ten, DiaChi các hãng cung ứng không bán Gạo : SELECT DISTINCT Ten, DiaChi FROM CUNGUNG WHERE Ten NOT IN (SELECT Ten FROM CUNGUNG WHERE Hang = ‘Gạo’) - Liệt kê hãng có ít nhất 1 mặt hàng giống Cty Lương thực : SELECT DISTINCT a.Ten, a.DiaChi FROM CUNGUNG a WHERE a.Hang IN (SELECT b.Hang FROM CUNGUNG b WHERE b.Ten = ‘Cty lương thực’)
- 46 - Liệt kê hợp đồng có TenKh và Hang giống hợp đồng số 3 : SELECT * FROM HOPDONG a WHERE (a.TenKh, a.Hang) IN (SELECT b.TenKh, b.Hang FROM HOPDONG WHERE b.SoHd = 3) - Liệt kê Hãng không có mặt hàng trong HOPDONG : SELECT DISTINCT Ten FROM CUNGUNG MINUS SELECT DISTINCT Ten FROM CUNGUNG WHERE Hang IN (SELECT Hang FROM HOPDONG ) - Liệt kê Hãng có mặt hàng không có trong HOPDONG : SELECT DISTINCT Ten FROM CUNGUNG WHERE Hang NOT IN (SELECT Hang FROM HOPDONG ) - Liệt kê Hãng, mà tất cả mặt hàng của nó đều có trong HOPDONG : SELECT DISTINCT Ten FROM CUNGUNG GROUP BY Ten HAVING SET(Hang) IN (SELECT Hang FROM HOPDONG )
- 47 Sử dụng [NOT] EXISTS biểu diễn sự tồn tại - Liệt kê Ten, DiaChi khách hàng đã đặt hàng : SELECT Ten, DiaChi FROM KHACH WHERE EXISTS (SELECT Hang FROM HOPDONG WHERE TenKh = Ten) - Liệt kê Ten, DiaChi khách hàng chưa có hợp đồng: SELECT Ten, DiaChi FROM KHACH WHERE NOT EXISTS (SELECT Hang FROM HOPDONG WHERE TenKh = Ten) 6. Gom nhóm dữ liệu – mệnh đề Group by Mục tiêu: Trình bày cú pháp, chức năng của mệnh đề Group by trong câu lệnh truy vấn Select. Cú pháp: SELECT [DISTINCT] [AS ] [, ] | * FROM [ ] [, ] [WHERE [AND / OR ]] GROUP BY [, ] [HAVING ] Công dụng: Nhóm các bản ghi (thoả mãn hoặc , nếu có) theo danh sách thuộc tính sau GROUP BY , sau đó kết xuất kết quả tổng hợp (thoả ).
- 48 Các thuộc tính sau GROUP BY phải có trong danh sách thuộc tính sau SELECT. Ghi chú : - Hàm tập hợp SET( ) (tập hợp các phần tử) chỉ sử dụng trong điều kiện nhóm. - Các hàm tính toán có thể sử dụng sau SELECT hoặc trong điều kiện nhóm. Ví dụ - Liệt kê các hãng cùng tổng số mặt hàng mà nó cung ứng : SELECT Ten, COUNT(Hang) AS SoHang FROM CUNGUNG GROUP BY Ten - Liệt kê các mặt hàng cùng tổng SoLuong trong HOPDONG SELECT Hang, SUM(SoLuong) AS TongCong FROM HOPDONG GROUP BY Hang - Liệt kê các mặt hàng cùng giá bình quân trong CUNGUNG : SELECT Hang, AVG(DonGia) AS DonGiaBQ FROM CUNGUNG GROUP BY Hang - Liệt kê các mặt hàng cùng tổng số hãng cung ứng mặt hàng đó : SELECT Hang, COUNT(Ten) AS SoCty FROM CUNGUNG GROUP BY Hang - Liệt kê các mặt hàng có nhiều hãng cung ứng mặt hàng đó : SELECT Hang, COUNT(Ten) AS SoCty FROM CUNGUNG GROUP BY Hang HAVING COUNT(Ten) > 1
- 49 - Liệt kê các hãng cung ứng cả Đường và Sữa : SELECT DISTINCT Ten FROM CUNGUNG GROUP BY Ten HAVING SET(Hang) CONTAINS (‘Đường’, ‘Sữa’)
- 50 BÀI TẬP THỰC HÀNH CỦA HỌC VIÊN Bài 1: Câu 1: SQL là gì? So sánh sự khác nhau giữa ngôn ngữ định nghĩa dữ liệu (DDL: Data Danifition Language) và ngôn ngữ thao tác dữ liệu (DML: Data Manipulation Language)? Cho ví dụ? Câu 2: Trình bày a) Các kiểu dữ liệu của SQL? b) Các toán tử lôgic của SQL? c) Hàm tập hợp của SQL? Câu 3: Trình bày cú pháp và giải thích các thành phần cơ bản của lệnh SELECT? Câu 4: Cho Lược đồ cơ sở dữ liệu quản lý nhân viên của một công ty như sau: Nhanvien(MANV,HOTEN, NU,NGAYSINH,LUONG,MAPB, MACV) Mỗi nhân viên có một mã nhân viên (MANV) duy nhất, mỗi mã nhân viên xác định họ và tên nhân viên (HOTEN), giới tính (NU), lương (LUONG), mã phòng ban (MAPB), mã chức vụ (MACV). Phongban(MAPB,TENPB,TRUSO,MANVPHUTRACH,KINHPHI,DOA NHTHU) Mỗi phòng ban có tên gọi phòng ban(TENPB), địa điểm đặt trụ sở (TRUSO), mã nhân viên phụ trách(MANVPHUTRACH), kinh phí hoạt động (KINHPHI), và doanhthu(DOANHTHU) Chucvu(MACV,TENCV,LUONGTHAPNHAT,LUONGCAONHAT) Mỗi chức vụ có tên gọi chức vụ (TENCV), mức lương tối thiểu(LUONGTHAPNHAT), mức lương tối đa (LUONGCAONHAT). Hãy biểu diễn các câu hỏi sau bằng SQL 1. Lập danh sách gồm các thông tin về các phòng ban trong công ty như: mã số phòng ban, tên phòng ban, địa điểm trụ sở, mã số người phụ trách, kinh phí hoạt động, doanh thu.
- 51 2. Lập danh sách những nhân viên sinh nhật trong tháng 10 3. Lập danh sách gồm các thông tin mã số nhân viên, họ và tên và lương cả năm của các nhân viên (giả sử rằng luơng cả năm =12*lương) 4. Lập những phòng ban có kinh phí hoạt động cao nhất. 5. Lập danh sách nhân viên của phòng ban có mã số phòng ban là 40. 6. Lập danh sách nhân viên của phòng có mã số phòng ban 10,30,50. 7. Lập danh sách các nhân viên có lương tháng từ 2.500.000 đến 4.000.000 8. Tìm những nhân viên có tuổi cao nhất thuộc phòng ban có MAPB là 10 9. Lập danh sách các nhân viên của phòng 10,30,50. kết quả in ra theo thứ tự tăng dần của mã phòng nếu trùng mã phòng thì sắp xếp giảm dần theo mức lương. 10. Lập danh sách các nhân viên phòng 10,30,50, chỉ in ra những người là lãnh đạo của mỗi phòng ban này. 11. Lập danh sách gồm mã phòng mà người có mức lương cao nhất của phòng lớn hơn hoặc bằng 4.000.000 12. Lập mã phòng ban, tên phòng ban, họ và tên của lãnh đạo phòng tương ứng. 13. Lập danh sách những người làm việc cùng phòng với ông Nguyen Van Thanh 14. Lập biết mã số nhân viên, họ và tên, mức lương của người lãnh đạo ông Nguyen Van Thanh. 15. Lập danh sách nhân viên có mức lương lớn hơn hay bằng mức lương cao nhất của phòng ông Nguyen Van Thanh. 16. Cho biết mã số nhân viên, họ và tên , tổng số nhân viên, mức lương cao nhất, mức lưong thấp nhất, mức lương trung bình của từng phòng ban. 17. Cho biết các nhân viên có mức lương cao nhất của các phòng ban.
- 52 Bài 2: Câu 1: Trình bày cú pháp và công dụng câu lệnh truy vấn lồng nhau Câu 2: Trình bày cú pháp và công dụng câu lệnh gom nhóm Câu 3: Trình bày a) Các toán tử tập hợp của SQL? b) Các hàm tính toán của SQL? Câu 4: Cho một lược đồ cơ sở dữ liệu của 1 thư viện như sau: ThẻĐộcGiả(MãThẻDg, HọTênDg, Địachỉ) Sách(Mãsách, Tênsách, NămXb, NhàXb, TênTácGiả) Phiếumượn(MãPhiếu, NgàyMượn, MãSách, MãThẻDg, NgàyTrả, Trả) Dùng SQL trả lời các câu hỏi sau đây: 1. Liệt kê các phiếu mượn trong ngày 20/11/2009 2. Liệt kê họ tên độc giả mượn sách trong tháng 3 năm 2009 3. Liệt kê các tên sách thuộc nhà xuất bản “Giáo Dục” hiện có trong thư viện 4. Liệt kê tên các độc giả hiện đang còn giữ sách có tên “Đồ Hoạ Máy Tính” chưa trả cho thư viện 5. Liệt kê tên và địa chỉ liên lạc của các độc giả hiện đang còn nợ sách của thư viện 6. Liệt kê tên các độc giả và tên sách mà các độc giả này đang giữ đã đến kỳ hạng trả cho thư viện. Biết rằng qui định là sau khi mượn 10 ngày thì phải trả sách lại cho thư viện 7. Thống kê xem mỗi thẻ độc giả đã mượn được bao nhiêu cuốn sách trong tháng 11/2009 8. Liệt kê các cuốn sách chưa được ai mượn lần nào 9. Liệt kê tất cả các cuốn sách được mượn nhiều nhất trong tháng 11/2009 10.Liệt kê các độc giả quen thuộc của thư viện. Biết rằng các độc giả quen thuộc là các độc giả đến mượn sách ít nhất là 3 lần
- 53 BÀI TẬP THAM KHẢO Bài 1: Dựa vào lược đồ CSDL Congtrinh(MACT, TENCT, ĐIAĐIEM, NGAYCAPGP, NGAYKC, NGAYT) Nhanvien(MANV, HOTEN, NGAYSINH, PHAI, ĐIACHI, MAPB) Phongban(MAPB, TENPB) Phancong(MACT, MANV, SLNGAYCONG) Hãy thực hiện các câu hỏi sau bằng SQL a. Danh sách những nhân viên có tham gia vào công trình có mã công trình(MACT) là X.Yêu cầu các thông tin: MANV,HOTEN, SLNGAYCONG, trong đó MANV được sắp tăng dần b. Đếm số lượng ngày công của mỗi công trình. Yêu cầu các thông tin: MACT, TENCT, TONGNGAYCONG (là thuộc tính tự đặt) c. Danh sách những nhân viên có sinh nhật trong tháng 08. Yêu cầu các thông tin: MANV, TENNV, NGAYSINH, ĐIACHI,TENPB, sắp xếp quan hệ kết quả theo thứ tự tuổi giảm dần. d.Đếm số lượng nhân viên của mỗi phòng ban. Yêu cầu các thông tin: MAPB, TENPB, SOLUONG. (SOLUONG là thuộc tính tự đặt.) Bài 2: Dựa vào lược đồ cơ sở dữ liệu Giaovien(MAGV, HOTEN, MAKHOA) Monhoc(MAMH, TENMH) Phonghoc(PHONG,CHUCNANG) Khoa(MAKHOA, TENKHOA) Lop(MALOP, TENLOP, MAKHOA) Lichday(MAGV, MAMH, PHONG, MALOP, NGAYDAY, TUTIET, ĐENTIET, BAIDAY, LYTHUYET, GHICHU) Hãy thực hiện các câu hỏi sau bằng SQL a. Xem lịch báo giảng tuần từ ngày 08/09/2003 đến ngày 14/09/2003 của giáo viên có MAGV (mã giáo viên) là TH3A040. Yêu cầu: MAGV,HOTEN, TENLOP,TENMH,PHONG, NGAYDAY, TUTIET, ĐENTIET, BAIDAY, GHICHU)
- 54 b. Xem lịch báo giảng ngày 08/09/2003 của các giáo viên có mã khoa là CNTT. Yêu cầu:MAGV,HOTEN,TENLOP,TENMH,PHONG, NGAYDAY, TUTIET, ĐENTIET,BAIDAY, GHICHU) c. Cho biết số lượng giáo viên (SOLUONGGV) của mỗi khoa, kết quả cần sắp xếp tăng dần theo cột tên khoa. yêu cầu: TENKHOA ,SOLUONGGV (SOLUONGGV là thuộc tính tự đặt). Bài 3: Hàng năm, Trường X tổ chức kỳ thi giỏi nghề cho các - sinh viên của trường, mỗi thí sinh sẽ thi hai môn (chẳng hạn các thi sinh thi giỏi nghề công nghệ thông tin thi hai môn là Visual Basic và Cơ Sở Dữ Liệu). Giả sử lược đồ cơ sở dữ liệu của bài toán quản lý các kỳ thi trên được cho như sau: THISINH (MASV, HOTEN, NGAYSINH, MALOP) LOP(MALOP,TENLOP,MAKHOA) KHOA(MAKHOA,TENKHOA,ĐIENTHOAI) MONTHI(MAMT,TENMONTHI) KETQUA(MASV,MAMT,ĐIEMTHI) (Phần giải thích các thuộc tính: HOTEN (họ tên thí sinh), NGAYSINH (ngày sinh), MALOP (mã lớp), MASV(mã sinh viên), TENLOP(tên lớp), MAKHOA(mã khoa), TENKHOA (tên khoa), ĐIENTHOAI(số điện thoại khoa), MAMT (mã môn thi), TENMONTHI (tên môn thi), ĐIEMTHI (điểm thi)). Dựa vào lược đồ cơ sở dữ liệu trên, hãy thực hiện các yêu cầu sau bằng ngôn ngữ SQL: a. Hãy cho biết số lượng thí sinh của mỗi khoa đăng ký thi giỏi nghề, cần sắp xếp kết quả theo chiều tăng dần của cột TENKHOA. b. Lập danh sách những thí sinh đạt danh hiệu giỏi nghề (Thí sinh đạt danh hiệu giỏi nghề nếu thí sinh không có môn thi nào điểm dưới 8). c. Lập danh sách những thí sinh nhỏ tuổi nhất có mã khoa là “CNTT” dự thi giỏi nghề.
- 55 Chương 4. RÀNG BUỘC TOÀN VẸN Mã chương MH16-04 Giới thiệu: Ràng buộc toàn vẹn là các quy định, điều kiện từ ứng dụng thực tế. Các điều kiện này là bất biến. Vì vậy, luôn phải đảm bảo cơ sở dữ liệu thỏa ràng buộc toàn vẹn sau mỗi thao tác làm thay đổi tình trạng của cơ sở dữ liệu. Mục tiêu: Trình bày được các thuật ngữ ràng buộc, ràng buộc toàn vẹn, hiểu được các khái niệm về ràng buộc toàn vẹn. Nội dung: 1. Ràng buộc toàn vẹn Mục tiêu: Trình bày khái niệm về ràng buộc toàn vẹn. 1.1. Khái niệm ràng buộc toàn vẹn Trong mỗi CSDL luôn tồn tại nhiều mối liên hệ giữa các thuộc tính, giữa các bộ; sự liên hệ này có thể xảy ra trong cùng một quan hệ hoặc trong các quan hệ của một lược đồ CSDL. Các mối liên hệ này là những điều kiện bất biến mà tất cả các bộ của những quan hệ có liên quan trong CSDL đều phải thoả mãn ở mọi thời điểm. Những điều kiện bất biến đó được gọi là ràng buộc toàn vẹn. Trong thực tế ràng buộc toàn vẹn là các quy tắc quản lý được áp đặt trên các đối tượng của thế giới thực. Chẳng hạn mỗi sinh viên phải có một mã sinh viên duy nhất, hai thí sinh dự thi vào một trường phải có số báo danh khác nhau, một sinh viên dự thi một môn học không quá 3 lần, Ràng buộc toàn vẹn là một điều kiện bất biến không được vi phạm trong một CSDL. 1.2. Các yếu tố của ràng buộc toàn vẹn: Mỗi ràng buộc toàn vẹn có bốn yếu tố: điều kiện, bối cảnh, bảng tầm ảnh hưởng và hành động phải cần thực hiện khi phát hiện có ràng buộc toàn vẹn bị vi phạm:
- 56 1.2.1. Điều kiện: Điều kiện của ràng buộc toàn vẹn là sự mô tả, và biểu diễn hình thức nội dung của nó. Điều kiện của một ràng buộc toàn vẹn R có thể được biểu diễn bằng ngôn ngữ tự nhiên, ngôn ngữ đại số quan hệ, ngôn ngữ mã giả, ngôn ngữ truy vấn SQL, ngoài ra điều kiện của ràng buộc toàn vẹn cũng có thể được biểu diễn bằng phụ thuộc hàm. Ví dụ sau đây chỉ ra một số ràng buộc toàn vẹn trên lược đồ CSDL quản lý sinh viên. - Mỗi lớp học phải có một mã số duy nhất để phân biệt với các lớp học khác trong trường. - Mỗi lớp học phải thuộc về một khoa của trường. - Mỗi sinh viên có một mã số sinh viên duy nhất, không trùng với bất cứ sinh viên nào trong trường. - Mỗi học viên phải đăng ký vào một lớp học trong trường. Mỗi học viên chỉ được thi tối đa 3 lần cho mỗi môn học. - Tổng số học viên của một lớp phải lớn hơn hoặc bằng số lượng đếm được của một lớp tại một thời điểm nào đó. 1.2.2. Bối cảnh: Bối cảnh của ràng buộc toàn vẹn là những quan hệ mà ràng buộc đó có hiệu lực hay nói một cách khác, đó là những quan hệ cần phải được kiểm tra khi tiến hành cập nhật dữ liệu. Bối cảnh của một ràng buộc toàn vẹn có thể là một hoặc nhiều quan hệ. Chẳng hạn với ràng buộc toàn vẹn R trên thì bối cảnh của nó là quan hệ Sinhvien 1.2.3. Bảng tầm ảnh hưởng Trong quá trình phân tích thiết kế một CSDL, người phân tích cần lập bảng tầm ảnh hưởng cho một ràng buộc toàn vẹn nhằm xác định thời điểm cần phải tiến hành kiểm tra khi tiến hành cập nhật dữ liệu.
- 57 Thời điểm cần phải kiểm tra ràng buộc toàn vẹn chính là thời điểm cập nhật dữ liệu. Một bảng tầm ảnh hưởng của một ràng buộc toàn vẹn có dạng sau: Bảng này chứa toàn các ký hiệu + , – hoặc -(*). - Dấu + tại (dòng r 1, cột Thêm) thì có nghĩa là khi thêm một bộ vào quan hệ r1 thì RBTV bị vi phạm. - Dấu - tại ô (dòng r2, cột Sửa) thì có nghĩa là khi sửa một bộ trên quan hệ r2 thì RBTV không bị vi phạm. Quy ước: - Không được sửa thuộc tính khoá. - Nếu không bị vi phạm do không được phép sửa đổi thì ký hiệu là -(*). 1.2.4. Hành động cần phải có khi phát hiện có RBTV bị vi phạm: Khi một ràng buộc toàn vẹn bị vi phạm, cần có những hành động thích hợp. Thông thường có 2 giải pháp: - Thứ nhất: Đưa ra thông báo và yêu cầu sửa chữa dữ liệu của các thuộc tính cho phù hợp với quy tắc đảm bảo tính nhất quán dữ liệu. Thông báo phải đầy đủ và phải thân thiện với người sử dụng. Giải pháp này là phù hợp cho việc xử lý thời gian thực. - Thứ hai:Từ chối thao tác cập nhật. Giải pháp này là phù hợp đối với việc xử lý theo lô. Việc từ chối cũng phải được lưu lại bằng những thông báo đầy đủ, rõ ràng vì sao thao tác bị từ chối và cần phải sửa lại những dữ liệu nào?
- 58 Khóa nội, khoá ngoại, giá trị NOT NULL là những ràng buộc toàn vẹn miền giá trị của các thuộc tính. Những ràng buộc toàn vẹn này là những ràng buộc toàn vẹn đơn giản trong CSDL. Các hệ quản trị cơ sở dữ liệu thường có các cơ chế tự động kiểm tra các ràng buộc toàn vẹn về miền giá trị của khóa nội, khoá ngoại, giá trị NOT NULL. Việc kiểm tra ràng buộc toàn vẹn có thể tiến hành vào những thời điểm sau đây: - Thứ nhất: Kiểm tra ngay sau khi thực hiện một thao tác cặp nhật CSDL. Thao tác cặp nhật chỉ được xem là hợp lệ nếu như nó không vi phạm bất cứ một ràng buộc toàn vẹn nào, nghĩa là nó không làm mất tính toàn vẹn của CSDL. Nếu vi phạm ràng buộc toàn vẹn, thao tác cặp nhật bị coi là không hợp lệ và sẽ bị hệ thống huỷ bỏ (hoặc có một xử lý thích hợp nào đó). - Thứ hai: Kiểm tra định kỳ hay đột xuất, nghĩa là việc kiểm tra ràng buộc toàn vẹn được tiến hành độc lập với thao tác cặp nhật dữ liệu. Đối với những trường hợp vi phạm ràng buộc toàn vẹn, hệ thống có những xử lý ngầm định hoặc yêu cầu người sử dụng xử lý những sai sót một cách tường minh. 2. Phân loại các ràng buộc toàn vẹn: Mục tiêu: phân loại các ràng buộc toàn vẹn dựa trên bối cảnh của một quan hệ hay bối cảnh nhiều quan hệ, Xét ví dụ sau đây: Cho một CSDL C dùng để quản lý việc đặt hàng và giao hàng của một công ty. Lược đồ CSDL C gồm các lược đồ quan hệ như sau: Q1: Khach (MAKH, TENKH, DIACHIKH, DIENTHOAI) Tân từ: Mỗi khách hàng có một mã khách hàng (MAKH) duy nhất, mỗi MAKH xác định tên khách hàng (TENKH), địa chỉ (DIACHIKH), số điện thoại (DIENTHOAI). Q2: Hang (MAHANG,TENHANG,QUYCACH, DVTINH) Tân từ:
- 59 Mỗi mặt hàng có một mã hàng (MAHANG) duy nhất, mỗi MAHANG xác định tên hàng (TENHANG), quy cách hàng (QUYCACH), đơn vị tính (DVTINH). Q3: Dathang (SODH,MAHANG, SLDAT, NGAYDH, MAKH) Tân từ: Mỗi mã số đặt hàng (SODH) xác định một ngày đặt hàng (NGAYDH) và mã khách hàng tương ứng (MAKH). Biết mã số đặt hàng và mã mặt hàng thì biết được số lượng đặt hàng(SLDAT). Mỗi khách hàng trong một ngày có thể có nhiều lần đặt hàng. Q4: Hoadon (SOHD, NGAYLAP, SODH, TRIGIAHD, NGAYXUAT) Tân từ: Mỗi hoá đơn tổng hợp có một mã số duy nhất là SOHD, mỗi hoá đơn bán hàng có thể gồm nhiều mặt hàng. Mỗi hoá đơn xác định ngày lập hoá đơn (NGAYLAP), ứng với số đặt hàng nào (SODH). Giả sử rằng hoá đơn bán hàng theo yêu cầu của chỉ một đơn đặt hàng có mã số là SỌDH và ngược lại, mỗi đơn đặt hàng chỉ được giải quyết chỉ trong một hoá đơn. Do điều kiện khách quan có thể công ty không giao đầy đủ các mặt hàng cũng như số lượng từng mặt hàng như yêu cầu trong đơn đặt hàng nhưng không bao giờ giao vượt ngoài yêu cầu. Mỗi hóa đơn xác định một trị giá của nhưng các mặt hàng trong hoá đơn (TRIGIAHD) và một ngày xuất kho giao hàng cho khách (NGAYXUAT) Q5: Chitiethd (SOHD, MAHANG, GIABAN, SLBAN) Tân từ: Mỗi SOHD, MAHANG xác định giá bán (GIABAN) và số lượng bán (SLBAN) của một mặt hàng trong một hoá đơn. Q6: Phieuthu(SOPT, NGAYTHU, MAKH, SOTIEN) Tân từ: Mỗi phiếu thu có một số phiếu thu (SOPT) duy nhất, mỗi SOPT xác định một ngày thu (NGAYTHU) của một khách hàng có mã khách hàng là MAKH và
- 60 số tiền thu là SOTIEN. Mỗi khách hàng trong một ngày có thể có nhiều số phiếu thu. 2.1. Ràng buộc toàn vẹn có bối cảnh là một quan hệ 2.1.1. Ràng buộc toàn vẹn liên bộ: Ràng buộc toàn vẹn về khoá chính: Đây là một trường hợp đặc biệt của Ràng Buộc toàn Vẹn liên bộ, RBTV này rất phổ biến và thường được các hệ quản trị CSDL tự động kiểm tra. Ví dụ: Với r là một quan hệ trên lược đồ quan hệ Khach ta có RBTV sau: Ràng buộc toàn vẹn về tính duy nhất Ví dụ: Mỗi phòng ban phải có một tên gọi duy nhất. Ngoài ra nhiều khi ta còn gặp những RBTV khác chẳng hạn như các RBTV trong quan hệ sau đây. Ví dụ: KETQUA(MASV,MAMH,LANTHI,DIEM) Mỗi sinh viên chỉ được đăng thi mỗi môn tối đa là 3 lần. 2.1.2. Ràng buộc toàn vẹn về miền giá trị: Ràng buộc toàn vẹn có liên quan đến miền giá trị của các thuộc tính trong một quan hệ. Ràng buộc này thường gặp. Thông thường các hệ quản trị CSDL đã tự động kiểm tra (một số) ràng buộc loại này. Ví dụ: Với r là một quan hệ của Hoadon ta có ràng buộc toàn vẹn sau 2.1.3. Ràng buộc toàn vẹn liên thuộc tính:
- 61 Ràng buộc toàn vẹn liên thuộc tính (một quan hệ) là mối liên hệ giữa các thuộc tính trong một lược đồ quan hệ. Ví dụ: Với r là một quan hệ của Hoadon ta có ràng buộc toàn vẹn sau: 2.2. Ràng buộc toàn vẹn có bối cảnh là nhiều quan hệ: 2.2.1. Ràng buộc toàn vẹn về khóa ngoại: Ràng buộc toàn vẹn về khoá ngoại còn được gọi là ràng buộc toàn vẹn phụ thuộc tồn tại. Cũng giống như ràng buộc toàn vẹn về khoá nội, loại ràng buộc toàn vẹn này rất phổ biến trong các CSDL. Ví dụ: 2.2.2. Ràng buộc toàn vẹn liên thuộc tính liên quan hệ: Ràng buộc loại này là mối liên hệ giữa các thuộc tính trong nhiều lược đồ quan hệ. Ví dụ: Với r, s lần lượt là quan hệ của Dathang và Hoadon. Ta có RBTV R 5 như sau:
- 62 2.2.3. Ràng buộc toàn vẹn liên bộ liên quan hệ: Ràng buộc loại này là mối liên hệ giữa các bộ trong một lược đồ cơ sở dữ liệu. Chẳng hạn như tổng số tiền phải trả trong mỗi hoá đơn (chitiethd) phải bằng TRỊ GIÁ HOÁ ĐƠN của hoá đơn đó trong quan hệ Hoadon. Hoặc số lượng học viên trong một lớp phải bằng SOHOCVIEN của lớp đó. Ngoài ra còn có một số loại RBTV khác như: RBTV về thuộc tính tổng hợp, RBTV do tồn tại chu trình , RBTV về giá trị thuộc tính theo thời gian.
- 63 BÀI TẬP THỰC HÀNH CỦA HỌC VIÊN: Bài 1: Câu 1: Ràng buộc toàn vẹn là gì? Các yếu tố của ràng buộc toàn vẹn? Câu 2: Phân loại và cho ví dụ minh họa các ràng buộc toàn vẹn? Bài 2: Việc tổ chức kỳ thi tốt nghiệp của một khoa như sau: Mỗi thí sinh có một Mã số sinh viên duy nhất (MASV), mỗi MASV xác định được các thông tin: họ và tên (HOTEN), ngày sinh (NGAYSINH), nơi sinh, phái, dân tộc. Mỗi lớp có một mã lớp (MALOP) duy nhất, mỗi mã lớp xác định các thông tin: tên lớp (TENLOP), mỗi lớp chỉ thuộc sự quản lý của một khoa nào đó. Mỗi khoa có một mã khoa duy nhất (MAKHOA), mỗi mã khoa xác định tên khoa (TENKHOA). Mỗi thí sinh đều phải dự thi tốt nghiệp ba môn. Mỗi môn thi có một mã môn thi (MAMT) duy nhất, mỗi mã môn thi xác định các thông tin: tên môn thi (TENMT), thời gian làm bài – được tính bằng phút (PHUT), ngày thi (NGAYTHI), buổi thi (BUOITHI), môn thi này là môn lý thuyết hay thực hành (LYTHUYET). Chú ý rằng, nếu một môn học được cho thi ở nhiều hệ thì được đặt MAMT khác nhau (chẳng hạn cả trung cấp và cao đẳng ngành công nghệ thông tin đều thi môn Cơ Sở Dữ Liệu), để diễn tả điều này, mỗi mã môn học cần phải được ghi chú (GHICHU) để cho biết môn thi đó dành cho khối nào trung cấp, hay cao đẳng). Mỗi thí sinh ứng với một môn thi có một điểm thi (DIEMTHI) duy nhất, điểm thi được chấm theo thang điểm 10 và có lấy điểm lẻ đến 0.5. Một thí sinh được coi là đậu tốt nghiệp nếu điểm thi của tất cả các môn của thí sinh đó đều lớn hơn hoặc bằng 5. Trong một phòng thi có thể có thí sinh của nhiều lớp. Trong một kỳ thi, mỗi thí sinh có thể thi tại những phòng thi (PHONGTHI) khác nhau, chẳng hạn một thí sinh thi tốt nghiệp ba môn là Cơ sở dữ liệu, Lập trình C và Visual Basic thì môn Cơ Sở Dữ Liệu và Lập Trình C thi tại phòng A3.4, còn môn thực hành Visual Basic thi tại phòng máy H6.1
- 64 Qua phân tích sơ bộ trên, ta có thể lập một lược đồ cơ sở dữ liệu như sau: THISINH (MASV, HOTEN, NGAYSINH, MALOP) LOP (MALOP, TENLOP) MONTHI (MAMT, TENMT, LYTHUYET, PHUT, NGAYTHI, BUOITHI, GHICHU) KETQUA (MASV, MAMT, DIEMTHI) a. Tìm khoá cho mỗi lược đồ quan hệ trên. b. Hãy phát biểu các ràng buộc toàn có trong cơ sở dữ liệu trên. BÀI TẬP THAM KHẢO: Bài 1: Quản lý đăng ký chuyên đề Phòng giáo vụ tại một trường đại học muốn tin học hóa việc quản lý học các chuyên đề của sinh viên. Sau đây là kết quả của việc phân tích thiết kế ứng dụng trên. Mỗi sinh viên có một mã số duy nhất, một họ tên, thuộc một phái, có một ngày sinh, một địa chỉ và học một ngành duy nhất. Mỗi ngành có một mã ngành duy nhất, có một tên ngành duy nhất. Ngoài ra cũng cần lưu lại một con số cho biết số chuyên đề mà một sinh viên theo học một ngành cụ thể phải học, và cũng cần lưu lại tổng số sinh viên đã từng theo học ngành này. Sinh viên phải học các chuyên đề khác nhau. Mỗi chuyên đề có một mã duy nhất và có một tên duy nhất. Cần lưu lại tên về số sinh viên tối đa có thể chấp nhận được mỗi khi có một lớp mở cho chuyên đề cụ thể. Mỗi chuyên đề có thể được học bởi sinh viên thuộc nhiều ngành và sinh viên thuộc mỗi ngành phải học nhiều chuyên đề. Mỗi ngành học tối đa là 8 chuyên đề. Vào mỗi học kỳ của mỗi năm học, ta cần lưu lại các chuyên đề nào được mở ra cho học kỳ của năm đó để sinh viên có thể đăng ký. Sinh viên chỉ được đăng ký những chuyên đề có mở.
- 65 Khi sinh viên đăng ký học, lưu lại việc đăng ký học một chuyên đề của một sinh viên vào một năm của một học kỳ nào đó. Một sinh viên chỉ được đăng ký vào các chuyên đề thuộc ngành học của sinh viên đó mà thôi. Mỗi năm có 2 học kỳ. Sinh viên chỉ được đăng ký tối đa là 3 chuyên đề trong một học kỳ mà thôi. 1. Hãy thiết kế mô hình ER cho ứng dụng trên. 2. Chuyển mô hình ER sang mô hình quan hệ. Xác định khóa chính, khóa ngoại và liệt kê có phân loại tất cả ràng buộc toàn vẹn nhận diện được.
- 66 Chương 5. LÝ THUYẾT THIẾT KẾ CƠ SỞ DỮ LIỆU Mã chương MH16-05 Giới thiệu: Trong chương này trình bày những khái niệm cơ bản nhất về mô hình dữ liệu quan hệ của E.F.Codd, gồm các khái niệm về quan hệ, phụ thuộc hàm, hệ tiên đề Armstrong, bao đóng, khoá, các dạng chuẩn của quan hệ, chúng đóng vai trò rất quan trọng trong mô hình dữ liệu quan hệ và được dùng nhiều trong việc thiết kế các hệ quản trị cơ sở dữ liệu (CSDL) hiện nay. Mục tiêu: - Mô tả được khái niệm cơ bản của lý thuyết cơ sở dữ liệu như khóa, phụ thuộc hàm, bao đóng, các dạng chuẩn, - Trình bày và thiết kế được dữ liệu ở mức tốt nhất (có thể ứng dụng được) bằng các phép tách, giải thuật chuẩn hóa lược đồ. Nội dung: 1. Các vấn đề gặp phải khi tổ chức dữ liệu: Mục tiêu: Trình bày được các vấn đề dị thường dữ liệu mắc phải khi thực hiện tổ chức và thiết kế cơ sở dữ liệu. Khi thiết kế, tổ chức cơ sở dữ liệu quan hệ ta thường đứng trước vấn đề lựa chọn các lược đồ quan hệ: lược đồ nào tốt hơn? Tại sao? Mục này sẽ nghiên cứu một số tiêu chuẩn đánh giá lược đồ quan hệ và các thuật toán giúp chúng ta xây dựng được lược đồ cơ sở dữ liệu quan hệ có cấu trúc tốt. Có thể nói tổng quảt, một lược đồ quan hệ có cấu trúc tốt là lược đồ không chứa sự dư thừa dữ liệu và các dị thường dữ liệu. - Dư thừa dữ liệu là sự trùng lặp thông tin trong cơ sở dữ liệu. - Dị thường dữ liệu là các sự cố xảy ra khi cập nhật dữ liệu (lặp, dị thường chèn bộ, dị thường xóa bộ, dị thường sửa bộ) làm cho dữ liệu không tương thích, bất định hoặc mất mát. + Dị thường do dữ liệu lặp: một số thông tin có thể bị lặp lại một cách vô ích.
- 67 + Dị thường chèn bộ: không thể chèn bộ mới vào quan hệ, nếu không có đầy đủ dữ liệu. + Dị thường xóa bộ: ngược lại với dị thường chèn bộ, việc xóa bộ có thể dẫn đến mất thông tin. + Dị thường sửa bộ: việc sửa đổi dữ liệu dư thừa có thể dẫn đến sự không tương thích dữ liệu. Cơ sở lý thuyết của việc thiết kế lược đồ cơ sở dữ liệu quan hệ tốt là khái niệm phụ thuộc dữ liệu. Phụ thuộc dữ liệu biểu diễn các quan hệ nhân quả giữa các thuộc tính trong quan hệ. Cũng dựa trên khái niệm phụ thuộc dữ liệu người ta định nghĩa các dạng chuẩn của lược đồ quan hệ. Còn quá trình biến đổi lược đồ thành lược đồ tương đương thỏa mãn dạng chuẩn gọi là quá trình chuẩn hóa lược đồ quan hệ. 2. Phụ thuộc hàm Mục tiêu: Trình bày được định nghĩa về phụ thuộc hàm, các tính chất của phụ thuộc hàm (hệ tiên đề Amstrong). 2.1. Định nghĩa phụ thuộc hàm + Cho lược đồ quan hệ R=(A 1, A2, , An) và X, Y là các tập con của R = {A1, A2, , An}. Ta nói rằng X xác định hàm Y hay Y phụ thuộc hàm X, ký hiệu X Y, nếu mọi quan hệ bất kỳ r của lược đồ R thoả mãn: u, v r : u(X) = v(X) u(Y) = v(Y) Phụ thuộc hàm X Y gọi là phụ thuộc hàm tầm thường nếu YX (hiển nhiên là nếu YX thì theo định nghĩa ta có X Y). Phụ thuộc hàm X Y gọi là phụ thuộc hàm nguyên tố nếu không có tập con thực sự ZX thoả Z Y. Tập thuộc tính K R gọi là khoá nếu nó xác định hàm tất cả các thuộc tính và K R là phụ thuộc hàm nguyên tố. 2.2. Cách xác định phụ thuộc hàm cho lược đồ quan hệ Cách duy nhất để xác định đúng các phụ thuộc thích hợp cho một lược đồ quan hệ là xem xét nội dung tân từ của lược đồ quan hệ đó.
- 68 Ví dụ một số phụ thuộc hàm ứng với từng lược đồ quan hệ được xác định như sau: MASV → HOTENSV, NGAYSINH, MALOP, GIOITINH MALOP → TENLOP, MAKHOA 2.3. Một số tính chất của phụ thuộc hàm – hệ luật dẫn Armstrong Để có thể xác định được các phụ thuộc hàm khác từ tập phụ thuộc hàm đã có, ta sử dụng các quy tắc suy diễn đơn giản để kiểm tra xem một phụ thuộc hàm có được suy diễn logic từ F hay không. Một trong các quy tắc suy diễn đó gọi là hệ tiên đề Armstrong(1974), gồm các luật sau: 1. Luật phản xạ (reflexivity) X → X 2. Luật tăng trưởng(augmentation) X → Y => XZ → YZ 3. Luật bắc cầu(transitivity) X →Y, Y → Z => X → Z Các quy tắc suy rộng: 4. Luật hợp (the union rule) Cho X → Y, X → Z => X → YZ 5. Luật bắc cầu giả (the pseudotransitivity rule) Cho X → Y,WY→ Z => XW → Z 6. Luật phân rã (the decomposition rule) Cho X → YZ => X → Z Với X, Y, Z, W R+ Ví dụ: Cho lược đồ R(ABC) và F={AB C, C A}. Dùng các quy tắc Armstrong ta chứng minh rằng (B,C) (A,B,C). Thật vậy, ta có C A (theo giả thiết) BC AB (theo luật tăng trưởng) C C (theo luật phản xạ) => BC ABC (đccm) (theo luật hợp)
- 69 3. Bao đóng của tập phụ thuộc hàm và bao đóng của tập thuộc tính Mục tiêu: Trình bày khái niệm về bao đóng của tập phụ thuộc hàm và bao đóng tập thuộc tính, các giải thuật xác định bao đóng tương ứng với tập phụ thuộc hàm và tập thuộc tính đã được xác định. 3.1. Bao đóng của tập phụ thuộc hàm F Bao đóng của tập phụ thuộc hàm F, ký hiệu là F +, là tập hợp tất cả các phụ thuộc hàm suy diễn lôgic từ F: F+ = {X Y F╞═ X Y} Hay nói cách khác: Bao đóng (closure) của tập phụ thuộc hàm F (ký hiệu là F+) là tập hợp tất cả các phụ thuộc hàm có thể suy ra từ F dựa vào các tiên đề Armstrong. Rõ ràng F F+ Ví dụ: Cho R=(A,B,C) và F = {A B, B C}. Khi đó bao đóng F + gồm các phụ thuộc hàm X Y thoả (i) X chứa A, Y bất kỳ: A,B,C A,B,C; A,B,C A,B; A,B,C A,C; A,B,C B,C; A,B,C A; A,B,C B; A,B,C B; A,B,C C; A,B A,B,C; A,B A,B; A,B A,C; A,B B,C; A,B A; A,B B; A,B B; A,B C; A,C A,B,C; A,C A,B; A,C A,C; A,C B,C; A,C A; A,C B; A,C B; A,C C; A A,B,C; A A,B; A A,C; A B,C; A A; A B; A B; A C; (ii) X chứa B nhưng không chứa A, Y không chứa A: BC BC; BC B; BC C B BC; B B; B C (iii) C C
- 70 Về mặt lý thuyết ta hoàn toàn có thể xây dựng thủ tục tính bao đóng F + của tập phụ thuộc hàm F, nhưng trên thực tế bài toán xác định F + là không khả thi vì với số thuộc tính và phụ thuộc hàm lớn sẽ dẫn đến bùng nổ tổ hợp. Thay vào đó chúng ta sẽ xem xét một bài toán khác: "Kiểm tra xem một phụ thuộc hàm có thuộc bao đóng F + hay không ?". Bài toán này gọi là bài toán thành viên. Bài toán thành viên thiết thực hơn bài toán tính bao đóng vì trong thực tế rất hiếm khi phải tìm tất cả các phụ thuộc hàm suy diễn lô-gic từ F. Bài toán thành viên liên quan mật thiết với khái niệm bao đóng của tập thuộc tính. 3.2. Bao đóng của tập thuộc tính X Bao đóng của tập thuộc tính XR (đối với tập phụ thuộc hàm F), ký hiệu + + là XF (X ), là tập hợp tất cả các thuộc tính phụ thuộc hàm vào X: X+ = {A X A F+} Từ định nghĩa dễ dàng suy ra: XX+ và X Y YX+. Nghĩa là X+ là tập thuộc tính lớn nhất phụ thuộc hàm vào X. Ví dụ: Cho R(ABC) và F = {A B, B C}. Khi đó ta dễ dàng thấy bao đóng của thuộc tính B là B+ = {B,C} vì B {B,C} và B không xác định A. 3.3. Bài toán thành viên Qua phần trên ta nhận thấy X+ được định nghĩa thông qua F+. Vấn đề nảy sinh khi nghiên cứu lý thuyết CSDL là: Cho trước tập các phụ thuộc hàm F và một phụ thuộc hàm f, bài toán kiểm tra có hay không f F+ gọi là bài toán thành viên. Để giải quyết bài toán bài toán thành viên thật sự không đơn giản; vì mặc dù F là rất nhỏ nhưng F+ thì có thể rất lớn. Tuy nhiên ta có thể giải bằng cách tính X+ và so sánh X+ với tập Y. Dựa vào tính chất X → Y F+ Y X+ , ta có ngay câu trả lời X → Y F+ hay không ? Như vậy thay vì giải bài toán thành viên ta đưa về giải bài toán tìm bao đóng của tập thuộc tính.
- 71 3.4. Thuật toán tìm bao đóng của một tập thuộc tính Thuật toán tìm bao đóng với độ phức tạp O(N2), với N là số lượng thuộc tính của lược đồ quan hệ Q. Dữ Liệu Vào Q, F, X Q+ Dữ Liệu Ra X+ Ví dụ: Cho lược đồ quan hệ Q(ABCDEGH) và tập phụ thuộc hàm F = {B → A, DA → CE, D → H, GH → C, AC → D}. Tìm bao đóng của các tập X = {AC} dựa trên F. Giải: - X+ = AC - Đặt Temp = X+ + Xét AC → D, có AC X+: X+ = X+ D = ACD. Loại AC → D khỏi F. Lặp bước 2 + Xét DA → CE, có DA X+: X+ = X+ CE = ACDE. Loại DA → CE khỏi F. Lặp bước 2 + Xét D → H, có D X+: X+ = X+ H = ACDEH. Loại D → H khỏi F Lặp bước 2 Vì các phụ thuộc hàm U→V còn lại không thỏa điều kiện U X+ nên X+ =
- 72 Temp. Thuật toán dừng. Vậy X+ = {ACDEH} 4. Khóa của lược đồ quan hệ - một số thuật toán tìm khóa Mục tiêu: Trình bày được định nghĩa khóa của một lược đồ quan hệ và giải thuật xác định một khóa, xác định tập tất cả các khóa của một lược đồ quan hệ đã cho. 4.1. Định nghĩa khóa của quan hệ + Cho quan hệ R(A1,A2, ,An) được xác định bởi tập thuộc tính R và tập phụ thuộc hàm F định nghĩa trên R, cho K R+. K là một khoá của R nếu thoả đồng thời cả hai điều kiện sau: + + + + 1. K R F (hay K F = R ) (K chỉ thoả điều kiện 1 thì được gọi là siêu khoá) 2. Không tồn tại K' K sao cho K'+ = R + Tập S{A1, ,An} là siêu khoá của R nếu S chứa khoá. Một lược đồ quan hệ có thể có nhiều siêu khoá, nhiều khoá. 4.2. Thuật toán tìm một khóa của một lược đồ quan hệ K = Q+; While A K do if (K - A)+ = Q+ then K = K - A K còn lại chính là một khoá cần tìm. Nếu muốn tìm các khoá khác (nếu có) của lược đồ quan hệ, ta có thể thay đổi thứ tự loại bỏ các phần tử của K. Ví dụ: Cho lược đồ quan hệ R(ABC) và tập phụ thuộc hàm F={ A → B; A → C; B → A} Hãy tìm một khóa của R. Giải: K={A,B,C}
- 73 Loại thuộc tính A, do (K-A)+ = R+ nên K={B,C} thuộc tính B không loại được do (K - B)+ ≠ R+ nên K={B,C} Loại thuộc tính C, do (K-C)+ = R+ nên K={B}. Vậy một khóa của R là B. 4.3. Thuật toán tìm tất cả các khóa của một lược đồ quan hệ Một số khái niệm hỗ trợ cho thuật toán tìm tất cả các khóa sau đây: - Tập nguồn (TN): chứa tất cả thuộc tính chỉ xuất hiện ở vế trái mà không xuất hiện ở vế phải của tập phụ thuộc hàm và tập các thuộc tính không tham gia vào tập phụ thuộc hàm F. - Tập đích (TD): chứa tất cả các thuộc tính chỉ xuất hiện ở vế phải mà không xuất hiện ở vế trái của tập phụ thuộc hàm. - Tập trung gian (TG): chứa tất cả các thuộc tính tham gia vào cả 2 vế của tập phụ thuộc hàm. Dữ liệu vào: Lược đồ quan hệ R và tập phụ thuộc hàm F. Dữ liệu ra: Tất cả các khóa K của quan hệ. Thuật toán: Bước 0: Tìm tập thuộc tính nguồn (TN), tập thuộc tính trung gian (TG). Tìm tất cả các tập con của tập trung gian gọi là Xi (bằng phương pháp duyệt nhị phân) if TG = then K = TN ; kết thúc. Ngược lại Qua bước 1 Bước 1 Tìm tất cả các tập con của TG: Xi S= Xi TG + + if (TN Xi) = R then S = S {TN Xi} {S là tập các siêu khoá cần tìm}
- 74 Bước 2: Tính TN Xi + Bước 3: Tính (TN Xi) + + Bước 4: Nếu Xi = R thì Xi là siêu khoá + Nếu một tập con TN Xi có bao đóng đúng bằng R thì TN Xi là một siêu khoá của R. Giả sử sau bước này có m siêu khoá: S = {S1,S2, ,Sm} Bước 5 : Xây dựng tập chứa tất cả các khoá của R từ tập S Xét mọi Si,Sj con của S (i j), nếu Si Sj thì ta loại Sj (i, j = 1 m), kết quả còn lại chính là tập tất cả các khoá cần tìm. Ví dụ: Cho lược đồ quan hệ R(ABC) và tập phụ thuộc hàm F={ A → B; A → C; B → A} Hãy tìm tất cả các khóa của R. Giải: Áp dụng thuật tìm tất cả các khóa đã cho ở trên ta có: TN = { } ; TG = {A, B} Gọi Xi là tập con của tập trung gian. Ta lập bảng như sau: + Xi TN Xi (TN Xi) Siêu khóa Khóa - - A A ABC A A B B ABC B B AB AB ABC AB - Vậy lược đồ quan hệ R có hai khóa K1 = {A}, K2 = {B} 5. Phủ tối thiểu Mục tiêu: Trình bày giải thuật xác định một phủ tối thiểu của tập phụ thuộc hàm đã có sẵn, qua đó trình bày các khái niệm và cách xác định tập phụ thuộc hàm có vế phải một thuộc tính, tập phụ thuộc hàm có vế trái không dư thừa và tập phụ hàm đầy đủ. 5.1. Tập phụ thuộc hàm tương đương Cho F và G là hai tập phụ thuộc hàm, ta nói F và G tương đương (hay F phủ G hoặc G phủ F) và ký hiệu là F+ = G+ nếu và chỉ nếu mỗi phụ thuộc hàm thuộc F đều thuộc G + và mỗi phụ thuộc hàm thuộc G đều thuộc F + .
- 75 Ta nói F phủ G nếu G+ F+ Chẳng hạn cho lược đồ quan hệ Q(ABCDEGH), thì hai tập phụ thuộc hàm F và G (xác định trên Q) là tương đương. F = {B → A; DA→ CE; D → H; GH→ C; AC→ D; DG → C} G={B→ A; DA→ CE; D → H; GH→ C; AC→ D ;BC → AC; BC → D; DA → AH; AC → DEH} (Việc kiểm tra các phụ thuộc hàm trong G có được suy diễn từ F và ngược lại xem như bài tập dành cho bạn đọc). 5.2. Phủ tối thiểu Ftt được gọi là tập phụ thuộc hàm tối thiểu (hay phủ tối thiểu) nếu F thỏa đổng thời ba điều kiện sau: 1. F là tập phụ thuộc hàm có vế trái không dư thừa. 2. F là tập phụ thuộc hàm có vế phải một thuộc tính. 3. F là tập phụ thuộc hàm không dư thừa. 5.2.1. Phụ thuộc hàm có vế trái dư thừa: F là tập phụ thuộc hàm trên lược đồ quan hệ Q, Z là tập thuộc tính, Z→Y∈F. Nói rằng phụ thuộc hàm Z → Y có vế trái dư thừa (phụ thuộc không đầy đủ) nếu có một A∈Z sao cho: F ≡ F-{Z → Y}∪{(Z-A) → Y} Ngược lại Z → Y là phụ thộc hàm có vế trái không dư thừa hay Y phụ thuộc hàm đầy đủ vào Z (phụ thuộc hàm đầy đủ). Ta nói F là tập phụ thuộc hàm có vế trái không dư thừa nếu F không chứa phụ thuộc hàm có vế trái dư thừa. Thuật toán loại khỏi F các phụ thuộc hàm có vế trái dư thừa: Bước 1: - Xét lần lượt các phụ thuộc hàm X→Y của F. Bước 2: - Với mọi tập con thực sự X’≠ ∅ của X. - Nếu X'→Y∈ F+ thì thay X→Y trong F bằng X'→Y. - Lặp lại bước 2. 5.2.2.Tập phụ thuộc hàm có vế phải một thuộc tính:
- 76 Mỗi tập phụ thuộc hàm F đều tương đương với tập phụ thuộc hàm G mà vế phải của các phụ thuộc hàm trong G chỉ gồm một thuộc tính. G được gọi là tập phụ thuộc hàm có vế phải một thuộc tính. Ví dụ: F = {A → BC,B → C,AB → D} ta suy ra F ≡ {A → B, A → C ,B → C,AB → D} = G 5.2.3. Tập phụ thuộc hàm không dư thừa: Nói rằng F là tập phụ thuộc hàm không dư thừa nếu không tồn tại F’⊂ F sao cho F’≡ F. Ngược lại F là tập phụ thuộc hàm dư thừa. Thuật toán loại khỏi F các phụ thuộc hàm dư thừa: Bước 1: - Lần lược xét các phụ thuộc hàm X → Y của F Bước 2: - Nếu X → Y là thành viên của F - {X → Y} thì loại X → Y khỏi F. Bước 3: - Lặp lại bước 2 cho các phụ thuộc hàm tiếp theo của F. 5.3. Thuật toán tìm phủ tối thiểu Từ điều kiện xác định phủ tối thiểu, ta có thuật toán tìm phủ tối thiểu như sau: Thuật toán: Bước 1: - Loại khỏi F các phụ thuộc hàm có vế trái dư thừa. Bước 2: - Tách các phụ thuộc hàm có vế phải trên một thuộc tính thành các phụ thuộc hàm có vế phải một thuộc tính. Bước 3: - Loại khỏi F các phụ thuộc hàm dư thừa. Chú ý: Theo thuật toán trên, có thể tìm được nhiều hơn một phủ tối thiểu F tt để F≡Ftt và nếu thứ tự loại các phụ thuộc hàm khác nhau sẽ thu được các phủ tối thiểu khác nhau. Ví dụ: cho R(MSCD,MSSV,CD,HG) và tập phụ thuộc hàm F: F = {MSCD → CD; CD → MSCD; CD,MSSV → HG; MSCD,HG → MSSV; CD,HG → MSSV; MSCD,MSSV → HG} Hãy tìm một Ftt của F?
- 77 Kết quả ta có được một phủ tối thiểu sau: Ftt = {MSCD → CD; CD → MSCD; CD,HG → MSSV; MSCD,MSSV → HG} 6. Dạng chuẩn của lược đồ quan hệ Mục tiêu: Trình bày được định nghĩa liên quan đến dạng chuẩn của một lược đồ quan hệ, cách kiểm tra dạng chuẩn cao nhất của một lược đồ quan hệ. 6.1. Một số khái niệm liên quan đến các dạng chuẩn Thuộc tính khóa/thuộc tính không khóa: A là thuộc tính khóa nếu A có tham gia vào bất kỳ một khóa nào đó của quan hệ. Ngược lại A gọi là thuộc tính không khóa. Thuộc tính phụ thuộc đầy đủ/ Phụ thuộc hàm đầy đủ: A là một thuộc tính phụ thuộc đầy đủ vào tập thuộc tính X nếu X → A là một phụ thuộc hàm đầy đủ (tức là không tồn tại X' X sao cho X → A F+) Chú ý rằng một phụ thuộc hàm mà vế trái chỉ có một thuộc tính là phụ thuộc hàm đầy đủ. 6.2. Dạng chuẩn 1 (First Normal Form) Định nghĩa: Lược đồ quan hệ R đạt dạng chuẩn 1 (1NF) nếu và chỉ nếu toàn bộ các thuộc tính của mọi bộ trên R đều mang giá trị đơn. Ví dụ: Xét quan hệ KETQUA sau: MASV HOVATEN KHOA TENMONHOC DIEMTHI Cơ sở dữ liệu 6 01234 Nguyễn Văn An CNTT Toán rời rạc 8 Lập trình web 7 02345 Lê Văn Thịnh CNTT Cơ sở dữ liệu 7 Quan hệ này không đạt chuẩn 1NF vì các thuộc tính TENMONHOC, DIEMTHI của bộ thứ nhất không mang giá trị đơn. Ta có thể đưa quan hệ trên về quan hệ KETQUA1 đạt chuẩn 1 như sau: MASV HOVATEN KHOA TENMONHOC DIEMTHI 01234 Nguyễn Văn An CNTT Cơ sở dữ liệu 6 01234 Nguyễn Văn An CNTT Toán rời rạc 8 01234 Nguyễn Văn An CNTT Lập trình web 7
- 78 02345 Lê Văn Thịnh CNTT Cơ sở dữ liệu 7 Chú ý rằng khi xét các dạng chuẩn, nếu không xét gì thêm thì mặc định quan hệ đang xét ít nhất đạt dạng chuẩn 1. 6.3. Dạng chuẩn 2 (Second Normal Form) Định nghĩa: Một lược đồ quan hệ R ở dạng chuẩn 2 (2NF) nếu R đạt dạng chuẩn 1 và mọi thuộc tính không khóa của R đều phụ thuộc đầy đủ vào khóa. Hệ quả: 1. Nếu R đạt dạng chuẩn 1 và tập thuộc tính không khóa của R bằng rỗng thì R đạt chuẩn 2. 2. Nếu tất cả các khóa quan hệ chỉ gồm một thuộc tính thì quan hệ đó ít nhất đạt chuẩn 2. Thuật toán kiểm tra dạng chuẩn 2: Vào: lược đồ quan hệ R, tập phụ thuộc hàm F Ra: Khẳng định R đạt hoặc không đạt chuẩn 2. Bước 1: Tìm tất cả các khóa của R. Bước 2: Với mỗi khóa K, tìm bao đóng của tất cả tập con thực sự của K. Bước 3: Nếu có bao đóng S+ chứa thuộc tính không khóa thì R không đạt chuẩn 2. Ngược lại thì đạt chuẩn 2. Ví dụ: Cho lược đồ quan hệ R(ABCD) và tập phụ thuộc hàm F={AB→C; B→D; BC→A}. Hỏi R có đạt chuẩn 2 hay không? Giải: - Tìm tất cả các khóa của R: TN = {B}, TG = {AC} + Xi TN Xi (TN Xi) Siêu khóa Khóa B BD - - A BA BACD BA BA C BC BCAD BC BC AC BAC BACD BAC -
- 79 Tất cả các khóa của R là K1 = {BA}, K2 = {BC}. Gọi Z là tập thuộc tính khóa, X là tập thuộc tính không khóa, ta có: Z = K1 K 2 = {BAC} X = R+ \ Z = {ABCD} \ {BAC} = {D} Ta thấy B⊂K1, B→D, mà D là thuộc tính không khóa. Vì thuộc tính không khóa D không phụ thuộc đầy đủ vào khóa nên R không đạt chuẩn 2. 6.4. Dạng chuẩn 3 (Third Normal Form) Định nghĩa: Một lược đồ quan hệ R đạt chuẩn 3 (3NF) nếu mọi phụ thuộc hàm X→A ∈ F+ với A ∉ X đều có. - Hoặc X là siêu khóa. - Hoặc A là thuộc tính khóa Hệ quả: 1. Nếu R đạt chuẩn 3 thì R đạt chuẩn 2. 2. Nếu R không có thuộc tính không khóa thì R đạt chuẩn 3. Định lý: R là một lược đồ quan hệ. F là tập các phụ thuộc hàm có vế phải một thuộc tính. R đạt chuẩn 3 nếu và chỉ nếu mọi phụ thuộc hàm X→A ∈ F + với A ∉ X đều có. - Hoặc X là siêu khóa. - Hoặc A là thuộc tính khóa (Việc chứng minh định lý xem như là một bài tập nâng cao) Thuật toán kiểm tra dạng chuẩn 3: Vào: lược đồ quan hệ R, tập phụ thuộc hàm F. Ra: Khẳng định R đạt hoặc không đạt chuẩn 3. Bước 1: Tìm tất cả các khóa của R. Bước 2: Từ F tạo tập phụ thuộc hàm tương đương Ftt có vế phải một thuộc tính.
- 80 Bước 3: Nếu mọi phụ thuộc hàm X→A ∈ F tt với A ∉ X đều có X là siêu khóa hoặc A là thuộc tính khóa thì R đạt chuẩn 3. Ngược lại R không đạt chuẩn 3. Ví dụ: Cho lược đồ quan hệ R(ABCD), F = {AB→C; D→B; C→ABD}. Hỏi R có đạt chuẩn 3 hay không? Giải: - Tìm tất cả các khóa của R: TN={∅} TG={ABCD} + Xi TN Xi (TN Xi) Siêu khóa Khóa - - A A A - - B B B - - C C CABD C C D D DB - - AB AB ABCD AB AB AC AC ACBD AC - AD AD ADBC AD AD BC BC BCAD BC - BD BD BD - - CD CD CDAB CD - ABC ABC ABCD ABC - ABD ABD ABDC ABD - ACD ACD ACDB ACD - BCD BCD BCDA BCD - ABCD ABCD ABCD ABCD - Tất cả các khóa của R là K1 = {C}, K2 = {AB}, K3 = {AD}. Gọi Z là tập thuộc tính khóa, X là tập thuộc tính không khóa, ta có: Z = K1 K 2 K 3 = {CABD} X = R+ \ Z = {ABCD} \ { CABD } = { } Vì tập thuộc tính không khóa X = { } nên R đạt chuẩn 3 (theo hệ quả 2). 6.5. Dạng chuẩn BC (Boyce Codd Normal Form) Định nghĩa: Một lược đồ quan hệ R đạt dạng chuẩn BC nếu mọi phụ thuộc hàm X→A ∈ F+ với A∉X đều có X là siêu khóa. Hệ quả: 1. Nếu R đạt chuẩn BC thì R đạt chuẩn 3 (hiển nhiên do định nghĩa).