Bài giảng Thư viện số - Chương 5: Các chuẩn sử dụng trong DL - Đỗ Quang Vinh
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Thư viện số - Chương 5: Các chuẩn sử dụng trong DL - Đỗ Quang Vinh", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- bai_giang_thu_vien_so_chuong_5_cac_chuan_su_dung_trong_dl_do.ppt
Nội dung text: Bài giảng Thư viện số - Chương 5: Các chuẩn sử dụng trong DL - Đỗ Quang Vinh
- BÀI GIẢNG THƯ VIỆN SỐ CHƯƠNG 5: CÁC CHUẨN SỬ DỤNG TRONG DL TS. ĐỖ QUANG VINH HÀ NỘI - 2013 1
- NỘI DUNG I. TỔNG QUAN VỀ THƯ VIỆN SỐ DL II. MÔ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DL III. CHỈ MỤC TÀI LIỆU IV. TÌM KIẾM THÔNG TIN V. CÁC CHUẨN SỬ DỤNG TRONG THƯ VIỆN SỐ VI. THỰC HÀNH HỆ PHẦN MỀM THƯ VIỆN SỐ GREENSTONE 2
- V. CÁC CHUẨN SỬ DỤNG TRONG DL 5.1. Chuẩn trình bày ASCII, Unicode, SGML, HTML, XML, GIF, JPG, TIF, PNP a. ASCII − American Standard Code for Information Exchange − Tiêu chuẩn Việt Nam: TCVN 5712-1993 − Văn bản chỉ có ký tự, không có lệnh trình bày (plain text file). Văn bản bằng ký tự ASCII không có khả năng trình bày các công thức toán học và hoá học. − Thường phải được nhập thủ công vào CSDL 3
- − Ưu điểm: + Tìm kiếm được theo toàn văn + Tìm kiếm nhanh + Dữ liệu có kích thước tệp nhỏ, dễ truyền trên mạng − Nhược điểm: + Hình thức đơn giản + Không bảo toàn được nguyên dạng của trang. + Không hỗ trợ đa ngôn ngữ (255 ký tự) 4
- b. UNICODE − Dùng cho văn bản − Tiêu chuẩn Việt Nam: TCVN 6909-2001 − Hỗ trợ đa ngôn ngữ: 16 triệu mã ký tự − Vẫn còn ít chương trình hỗ trợ UNICODE 5
- c. NGÔN NGỮ ĐÁNH DẤU ▪ Tài liệu số – Ngày càng nhiều – Chuẩn đa dạng: ✓ Chuẩn độc quyền: DOC của MS; PDF của Adobe ✓ Chuẩn mở: SGML ▪ Chuẩn độc quyền – Phụ thuộc phần mềm – Phụ thuộc sự phát triển của công ty – Đòi hỏi bản quyền ▪ Sự phát triển tài liệu số dẫn đến nhu cầu về chuẩn mở 6
- ▪ Sự phát triển của tài liệu số đã đặt ra yêu cầu mới: chuẩn dữ liệu không độc quyền ▪ Có tính mở ▪ Không phụ thuộc phần mềm, nền tảng máy tính (Platform independent) Ngôn ngữ đánh dấu (Markup Language) ▪ Sử dụng các cặp thẻ đánh dấu: bao gồm thẻ mở và thẻ đóng: – và ▪ Hiện nay: SGML, HTML và XML 7
- ❑ Ngôn ngữ đánh dấu tổng quát chuẩn SGML Standard Generalized Markup Language ▪ SGML là cách thức trình bày tài liệu số bằng các mã đánh dấu ▪ Là tiêu chuẩn ISO 8879 (Information processing Text and office systems - Standard Generalized Markup Language) ▪ Là một chuẩn không độc quyền để soạn thảo tài liệu số có cấu trúc ▪ Sử dụng các nhãn (thẻ) để đánh dấu và gán ý nghĩa cho dữ liệu. Thí dụ: ▪ Đây là nhan đề tài liệu ▪ Có thể tự phát triển khổ mẫu riêng, chỉ cần tuân thủ nguyên tắc. 8
- ▪ Cấu trúc tài liệu SGML Gồm 3 phần – Phần 1: Phần thông báo (Statement) – Phần 2: Định nghĩa phần tử tài liệu – DTD - Document Type Definition Thông báo mô hình logic của tài liệu (có các kiểu yếu tố nào, thẻ mô tả là gì, ) – Phần 3: Nội dung tài liệu ▪ Định nghĩa phần tử dữ liệu (DTD) DTD Document Type Definition ✓ DTD xác định các khối thông tin hợp lệ của một tài liệu SGML ✓ DTD xác định cấu trúc của tài liệu thông qua một danh mục các yếu tố và thuộc tính 9
- ▪ Ví dụ DTD Có 4 yếu tố: to, from, heading, body Những yếu tố này đều dạng dữ liệu Character (ký tự) ]> Tove Jani Nội dung của văn bản Reminder Don't forget me this weekend 10
- ▪ #PCDATA − CDATA: cho biết đây là dữ liệu dạng ký tự (character data), sử dụng trong ngôn ngữ đánh dấu SGML and XML. − Dùng để phân biệt với dữ liệu không phải ký tự dùng cho các chức năng cấu trúc đặc thù 11
- ▪ Ngôn ngữ SGML mạnh cho xây dựng tài liệu có cấu trúc ▪ Phức tạp, phát triển ứng dụng tốn kém ▪ Phải có trình duyệt riêng để đọc ▪ Điều quan trọng để ứng dụng SGML là xây dựng DTD ▪ Ví dụ về ứng dụng: TEI – Text Encoding Initiative 12
- ❑ HTML HyperText Mark-up Language − Là một ứng dụng của SGML dùng cho tài liệu WEB − Đơn giản hoá SGML − Thẻ HTML là một kiểu DTD nhưng được chấp nhận bởi cộng đồng sử dụng Web − Các thẻ HTML được thống nhất toàn cầu (W3C – WWW Consortium) 13
- ▪ Ưu nhược điểm của HTML ✓ Ưu điểm – Đơn giản – Có định hướng đến trình bày – Được đọc bằng những trình duyệt (Browser) – Được các công ty hỗ trợ phát triển trình duyệt: Internet Explorer, Netscape Navigator, Mosaic, ✓ Nhược điểm – Phải chờ thông qua cho thẻ mới – Số thẻ hạn chế 14
- ▪ Cấu trúc của tài liệu HTML Dữ liệu Nhan đề trang Web không hiển thị Dữ liệu hiển thị Dữ liệu hiển thị trên màn hình 15
- ▪ Thẻ trợ giúp mô tả tài liệu HTML ✓ Thẻ trợ giúp mô tả (còn gọi là thẻ siêu dữ liệu) nằm trong phần của tài liệu ✓ Hai loại thẻ chính: – – ✓ Ví dụ: ✓ Thẻ HTML phải được quy định thống nhất trên toàn mạng 16
- ▪ Ví dụ đánh dấu HTML Giống lúa lai Trung Quốc và kỹ thuật gieo trồng 17
- ❑ Ngôn ngữ đánh dấu mở rộng XML XML eXtensible Markup Language − Là một dạng của SGML và được World Wide Web Consortium (W3C) đề xuất − Đơn giản hơn SGML − Linh hoạt hơn HTML − Hiện được coi là một dạng ngôn ngữ được coi là chủ đạo trong tạo lập các tài nguyên điện tử 18
- ▪ Đặc điểm của XML − XML là ngôn ngữ đánh dấu tương tự HTML − Được thiết kế để chứa/trao đổi dữ liệu nhưng không để trình bày dữ liệu − Các thẻ XML không được xác định trước. Người dùng tự xác định các thẻ của mình − XML được thiết kế để tự mô tả (self-descriptive) − Tổ chức 3WC gọi XML là: "một cú pháp thông dụng cho việc biểu thị cấu trúc trong dữ liệu" 19
- ▪ Sự khác biệt giữa XML và HTML ✓ XML không thay thế HTML ✓ XML và HTML được thiết kế cho 2 mục đích khác nhau: – XML dùng để chứa và chuyển tải dữ liệu. XML định hướng dữ liệu – HTML được thiết kế để trình bày dữ liệu ✓ XML không xử lý thông tin; chỉ chứa các thẻ và dữ liệu. Phải có phần mềm để xử lý. ✓ XML là tệp văn bản không mã hóa ✓ Người dùng tự quy định thẻ cho tài liệu (thí dụ and ). ✓ Không có thẻ XML mặc định 20
- ✓ XML được sử dụng để tạo ra nhiều ngôn ngữ mới cho Internet ✓ XHTML: phiên bản mới nhất của HTML ✓ RDF and OWL for describing resources and ontology RDF = Resource Description Format OWL = Ontology Web Language ▪ Cấu trúc tài liệu XML ✓ Tương tự như SGML ✓ Gồm 3 phần – Phần 1: Phần thông báo – Phần 2: Định nghĩa phần tử tài liệu DTD - Document Type Definition Thông báo mô hình logic của tài liệu (có các kiểu yếu tố nào, thẻ mô tả là gì, ) – Phần 3: Nội dung tài liệu 21
- ▪ Ví dụ về tài liệu XML Chào các bạn hoặc Tove Jani Reminder Don't forget me this weekend! 22
- ▪ Định nghĩa phần tử dữ liệu XML DTD ✓ Mục tiêu của DTD là xác định cấu trúc của một tài liệu XML ✓ Thông báo các yếu tố hợp lệ trong tài liệu – – – ]> 23
- ▪ Giải thích thí dụ XML DTD !DOCTYPE note: xác định yếu tố gốc của tài liệu là note. !ELEMENT note Xác định yếu tố Gốc có 4 thành phần "to,from,heading,body" !ELEMENT to: Xác định yếu tố to là dạng dữ liệu ký tự "#PCDATA". !ELEMENT from: Xác định yếu tố From là dạng dữ liệu ký tự "#PCDATA". !ELEMENT heading: Xác định yếu tố Heading là dạng dữ liệu ký tự "#PCDATA". !ELEMENT body: Xác định yếu tố body là dạng dữ liệu ký tự "#PCDATA". 24
- ▪ Tại sao cần DTD ✓ Dùng để tự xác định các thành phần của tài liệu XML. ✓ Với DTD, những nhóm người sử dụng khác có thể hiểu và xử lý được tài liệu XML và trao đổi được DL ✓ Dùng làm chuẩn để kiểm định tài liệu XML, kiểm định dữ liệu ▪ Các khối chính của XML − Yếu tố: Elements − Thuộc tính: Attributes − Ký hiệu đặc biệt: Entities − PCDATA − CDATA 25
- ▪ Ký hiệu đặc biệt - Entities Một số ký tự có nghĩa với XML được định nghĩa sẵn trong XML Thực thể Ký tự < & & " “ ' ’ ▪ Tài liệu XML có cấu trúc hình cây 26
- ▪ Cú pháp XML ✓ Mọi yếu tố XML phải có thẻ đóng (Closing Tag) ✓ Thẻ XML phân biện chữ hoa-chữ thường (Case Sensitive) – Thẻ khác với . – Thẻ mở và thẻ đóng phải có cùng kiểu viết hoa/viết thường ✓ Yếu tố XML phải được lồng ghép chính xác ✓ Tài liệu XML phải có một yếu tố gốc (Root Element) Tài liệu XML phải chứa 1 yếu tố làm cao nhất cho mọi yếu tố khác ✓ Các giá trị thuộc tính XML phải được đặt trong ngoặc kép Tove Jani 27
- ▪ Yếu tố và thuộc tính ✓ Sử dụng thuộc tính – Anna Smith – ✓ Sử dụng yếu tố – – female – Anna – Smith – 28
- ▪ Thẩm định XML XML Validation ✓ Khái niệm Định dạng đúng "Well formed" XML có cú pháp đúng được gọi là "Well Formed" XML. ✓ Khái niệm Hợp lệ "Valid XML" XML được thẩm định so với DTD là XML "Valid" (Hợp lệ) ▪ Định dạng đúng (Well Formed XML) − Có cú pháp đúng − Có yếu tố gốc (root element) − Mọi yếu tố phải có thẻ đóng − Thẻ XML phân biệt chữ hoa/thường − Yếu tố được lồng ghép chính xác − Giá trị thuộc tính thẻ XML phải được đặt trong dấu ngoặc kép 29
- ▪ MARC và XML ✓ MARC – là ứng dụng cụ thể của ISO 2709 (tiêu chuẩn trao đổi dữ liệu thư mục) – Cụ thể hoá các nhãn trường (3 chữ số) ✓ XML – tiêu chuẩn ISO 8879 (SGML): – để sử dụng được phải phát triển các DTD ✓ Không phải XML thay thế MARC mà một sơ đồ siêu dữ liệu nào đó sử dụng XML sẽ được chấp nhận dùng chung cho thư viện 30
- ▪ Ví dụ về lược đồ XML đơn giản 31
- ▪ Một số loại siêu dữ liệu ứng dụng với XML ✓ MARC với XML: MARCXML ✓ METS - Metadata Encoding and Transformation Standards ✓ MODS – Metadata Object Description Schema ✓ Dublin Core Metadata Element ✓ TEI – Text Encoding Initiatives ✓ EAD – Encoded Archival Description ✓ OAI – Open Archive Initiative 32
- ▪ Mô hình truy vấn dữ liệu có hỗ trợ XML Kết quả trả về cho NSD NSD truy vấn Database 33
- d. Dữ liệu Ảnh ▪ Tệp TIFF ▪ Tệp JPEG ▪ Tệp GIF ▪ Tệp PNG ❑ Tệp ảnh TIFF TIFF - Tagged Image File Format − Phần mở rộng: *.TIF − Là tệp đồ hoạ do Công ty Aldus và Microsoft phát triển để lưu trữ ảnh. − Được chương trình máy quét sử dụng − Mức độ nén thấp 34
- ❑ Tệp ảnh GIF GIF: Graphic Interchange Format − Phần mở rộng tên tệp: *.GIF − Mầu sắc có thể đạt đến 256 màu (8 bit) − Chuẩn riêng, là sở hữu trí tuệ của Công ty Compuserve − Thường dùng cho biểu đồ, biểu tượng (icons) ❑ Tệp ảnh PNG Portable Network Graphic − Phần mở rộng: *.PNG − là định đạng được phát triển năm 1995 và là sở hữu của Công ty Compuserve − PNG được dự kiến sử dụng thay cho định dạng GIF. 35
- ❑ Tệp ảnh JPEG Joint Photographic Experts Group − Phần mở rộng tên tệp: *.JPEG, *.JPG − Mầu sắc đẹp, đạt đến 24 bit, 16 triệu mầu − Chuẩn mở 36
- 5.2. Chuẩn biên mục tự động 5.2.1. Khổ mẫu ▪ MARC ▪ UNIMARC ▪ CCF ▪ MARC XML 5.2.2 Siêu dữ liệu Metadata ▪ TEI – Text Encoding Initiative ▪ EAD – Encoded Archival Description ▪ OAI – Open Archive Initiative ▪ Dublin Core 37
- 5.2.1. Khổ mẫu MARC, UNIMARC, CCF ▪ ISO 2709 chỉ đưa ra cấu trúc tổng quát ▪ Không quy định cụ thể nhãn của trường (có thể là ký tự, là số) ▪ Không quy định mã trường con. ▪ Các nước và một số tổ chức quốc tế áp dụng ISO 2709 để đưa ra những khổ mẫu chuẩn ▪ Một số khổ mẫu nổi tiếng: – USMARC MARC21 – UNIMARC – CCF = Common Communication Format 38
- a. Khổ mẫu MARC Machine Readable Cataloguing − Từ năm 1964, do Thư viện Quốc hội Mỹ xây dựng − Nhiều hệ thống thư viện trên thế giới áp dụng => trở thành chuẩn De facto − Theo MARC => UKMARC, CANMARC, AUSMARC, SINGMARC, THAIMARC − MARC trở thành thuật ngữ chung, − MARC của Mỹ được gọi là USMARC 39
- ▪ MARC21 − TVQH Mỹ và TVQG Canada phối hợp phát triển MARC 21. − Hai nhóm chịu trách nhiệm chính về MARC 21: + Uỷ ban Thông tin thư mục đọc máy MARBI (Machine Readable Bibliographic Information Committee), của ALA + Uỷ ban Tư vấn về MARC: gồm các đại diện của các thư viện quốc gia, các tổ chức thư mục, các nhóm cung cấp dịch vụ sản phẩm (bán hàng) 40
- ▪ Năm 1997, TVQH Mỹ ban hành tài liệu "MARC 21 - Những đặc tả cho cấu trúc biểu ghi, bộ mã kỹ tự, và phương tiện trao đổi" (MARC 21 - Specifications for Record Structure, Character sets, and Exchange Media) ▪ Mục đích của MARC21 − Khổ mẫu MARC 21 là chuẩn để trình bày và trao đổi thông tin thư mục và những thông tin liên quan dưới dạng máy tính đọc được (machine-readable). − Được sử dụng để làm khổ mẫu biên mục cho các nước 41
- ▪ Cấu trúc − 3 thành phần: + cấu trúc biểu ghi (record structure); + định danh nội dung (content designation); + nội dung dữ liệu. − Cấu trúc biểu ghi MARC 21 là một triển khai ứng dụng của chuẩn Mỹ ANSI Z39.2 (Information Exchange Format) − Chuẩn ANSI39.2 tương đồng với chuẩn ISO 2709 42
- − Biểu ghi MARC21 là tập hợp các mã và định danh nội dung được quy định thống nhất để mã hoá các biểu ghi trao đổi máy tính đọc được. − Mọi thông tin lưu trữ trong biểu ghi MARC được lưu dưới dạng ký tự. Biểu ghi trao đổi được mã hoá theo ký tự trong Bảng mã ASCII mở rộng (extended ASCII). ▪ Sử dụng khổ mẫu − Là khổ mẫu trao đổi; không áp đặt những chuẩn lưu trữ dữ liệu bên trong hệ thống và chuẩn trình bày dữ liệu (display format) của từng hệ thống riêng biệt. − Khổ mẫu MARC 21 cố gắng tạo ra sự tương hợp với một số khổ quốc gia (như UKMARC) và quốc tế (như UNIMARC). 43
- ▪ Cấu trúc biểu ghi − Đầu biểu ghi (Leader): 24 ký tự − Danh mục (Directory): danh mục về các trường có trong biểu ghi. Kết thúc bằng dấu kết thú trường − Các trường dữ liệu (gồm hai nhóm là trường kiểm soát và trường dữ liệu): − Mã kết thúc trường − Mã kết thúc biểu ghi. 44
- ▪ Cấu trúc tổng quát LEADER DIRECTORY KT T Trường KS1 KT Trường KS2 KT T T Trường BĐ1 KT Trường BĐ KT T T Trường BĐn KT KTBG T KTT = Mã Kết thúc trường KTBG = Mã kết thúc biểu ghi 45
- ▪ Đầu biểu ghi (LEADER) 24 ký tự − Độ dài biểu ghi 00-04 − Trạng thái biểu ghi 05 − Loại biểu ghi 06 − Cấp thư mục 07 − Thông tin tự xác định 08 − Bộ Mã ký tự 09 − Số lượng chỉ thị 10 − Độ dài mã trường con 11 − Địa chỉ dữ liệu 12-16 − Thông tin áp dụng 17-19 − ánh xạ mục 20-23 46
- ▪ vị trí 06 - Loại biểu ghi Chứa 1 ký tự ASCII – a - Văn bản (bao gồm cả tài liệu in, vi phim, vi phiếu, điện tử đọc được ở dạng chữ chữ viết). – c- Bản nhạc in – d - Bản nhạc viết tay, bản thảo âm nhạc – e-Tư liệu bản đồ in – f - Tư liệu bản đồ vẽ tay – g - Tư liệu chiếu hình hay video (phim, hình ảnh động, phim cuộn, phim máy chiếu (slide), giấy chiếu trong, băng hoặc đĩa ghi hình, 47
- – i - Băng hoặc đĩa ghi âm không phải nhạc (như ghi âm bài phát biểu, tiếng nói, ) – j - Băng hoặc đĩa ghi âm là nhạc – k - Tư liệu đồ hoạ hai chiều (ảnh, bản vễ thiết kế, ) – l - Tư liệu điện tử, tư liệu trên nguồn điện tử – m - Tư liệu đa phương tiện (multimedia) – o - Bộ tư liệu (kit), chứa tập hợp chứa nhiều thành phần trên các dạng khác nhau – p - Tư liệu hỗn hợp – 48
- ▪ Sơ đồ mục Thông tin ghi vào Vị trí Giá trị − Độ dài của độ dài trường 20 4 − Vị trí ký tự bắt đầu 21 5 − Thông tin tự xác định 22 0 − Dự trữ (không xác định) 23 0 Như vậy, nội dung sơ đồ mục có giá trị 4500. 49
- ▪ Danh mục − Danh mục bao gồm nhiều mục (entries) về các trường trong biểu ghi MARC 21 − Mỗi mục này trong vùng danh mục của biểu ghi bao gồm một tập hợp 3 thành phần như sau: + Nhãn trường + Độ dài của trường + Vị trí bắt đầu của trường. − Vùng danh mục bắt đầu ở vị trí 24 của mỗi biểu ghi và kết thúc bằng một mã kết thúc trường. − Mỗi mục có độ dài cố định là 12 ký tự. Thông tin Vị trí Nhãn trường (3 ký tự) 00-02 Độ dài trường (4 ký tự) 03-06 Vị trí ký tự bắt đầu (5 ký tự) 07-11 50
- ▪ Các trường dữ liệu − Các trường dữ liệu được đưa ra ngay sau phần Danh mục. Các trường này chia thành 2 nhóm: − Trường kiểm soát không có chỉ thị; − Trường dữ liệu có chỉ thị (có độ dài biến động) − Chỉ chứa Dữ liệu và mã kết thức trường mà không có nhãn trường ▪ Cấu trúc TRường có chỉ thị Bao gồm 4 phần: 1. Các chỉ thị; 2. Các mã trường con (gồm 2 thành phần: dấu phân cách và ký tự trường con); 3. Dữ liệu thực của trường con đó; 4. Mã kết thúc trường (KTT) 51
- ▪ Cấu trúc tổng quát của trường Chỉ_thị_1 Chỉ_thị_2 Dấu_phân_cách Ký_tự_trường_con_1 Dữ_liệu_trường_con_1 Dấu_phân_cách Ký_tự_trường_con_n dữ_liệu_trường_con_n KTT 52
- ▪ Các trường dữ liệu − Nhãn trường MARC 21 là số có 3 chữ số (001, 010, 245, đến 999) − Các trường mà MARC 21 quy định sử dụng chia thành các khối: + 0XX. Khối trường kiểm soát, số và mã + 1XX. Khối trường về tiêu đề chính + 2XX. Khối trường Nhan đề và thông tin liên quan đến nhan đề 53
- ▪ Khối trường − 4XX. Khối trường về tùng thư – 5XX. Khối trường phụ chú – 6XX. Khối trường điểm truy cập chủ đề – 7XX. Khối trường Tiêu đề bổ sung – 8XX. Khối trường tiêu đề tùng thư bổ sung – 9XX. Khối trường thông tin cục bộ 54
- ▪ Hướng dẫn MARC21 − Phiên bản đầy đủ (update 1): hơn 210 trường − Phiên bản tóm tắt (Concise Version): trên Web − Phiên bản MARC Lite: trên Web và trên giấy) 55
- ▪ Nguyên tắc phát triển trường cục bộ − MARC21 có thể áp dụng cho các nước hoặc thư viện − Các nước hoặc thư viện có thể thêm vào các trường đặc thù (LOCAL FIELDS) − Những trường này không dùng trao đổi − Cập nhật vào các nhóm trường sau: + Khối 9XX: trường cục bộ + Nhóm trường X9X của từng khối. 56
- Số trường Nhãm tr•êng MARC 21 MARC Lite MARC ®Çy ®ñ ViÖt Nam 00X - Tr•êng kiÓm so¸t 6 4 4 01X-09X - Tr•ìng m·, sè 45 20 14 1XX - Tiªu ®Ò chÝnh 4 3 3 20X-24X - Nhan ®Ò 8 6 6 25X-29X - LÇn XB, §C XB 8 2 2 3XX - §Æc tr•ng vËt lý 13 3 4 4XX - Tïng th• 2 1 1 5XX - Phô chó 48 10 7 6XX - Truy cËp Chñ ®Ò 13 8 7 70X-75X - Tiªu ®Ò bæ sung 9 7 8 76X-78X - Tr•êng liªn kÕt 15 14 11 80X-8XX - Tïng th•, th«ng tin 9 6 6 kh¸c Tæng sè 201 84 73 57
- ▪ UNIMARC − 1977, IFLA phát triển UNIMARC (UNIversal Marc format) − Tổ chức duy trì phát triển UNIMARRC: + Uỷ ban thường trực UNIMARC của IFLA (Permanent UNIMARC Committee (PUC)), + Ban thư ký của Uỷ ban này là: Chương trình Kiểm soát thư mục toàn cầu và MARC cốt lõi quốc tế của IFLA (IFLA Universal Bibliographic Control and International MARC Core Programme (UBCIM) + UNIMARC không được thay đổi để bao quát biên mục không tuân thủ ISBD hoặc mâu thuẫn với chuẩn này − Phiên bản mới nhất: 1994 (trên Website IFLA) 58
- ▪ Mục đích và phạm vi của Unimarc ✓ Mục đích: – Mục đích chính: hỗ trợ trao đổi thông tin thư mục quốc tế dưới dạng máy tính đọc được giữa các cơ quan biên mục quốc gia – UNIMARC sử dụng là mô hình để phát triển các khổ mẫu thư mục đọc máy mới ✓ Phạm vi: – xác định các định danh nội dung (nhãn trường, chỉ thị và mã trường con) cho các biểu ghi thư mục máy tính đọc được – Xác định cấu trúc lôgic và vật lý của biểu ghi – Sử dụng cho: chuyên khảo, xuất bản phẩm nhiều kỳ, tài liệu bản đồ, âm nhạc, ghi âm, đồ hoạ, tài liệu chiếu hình, sách hiếm, nguồn tin điện tử 59
- ▪ Cấu trúc UNIMARC − Không khác biệt về nguyên tắc với MARC 21 − ứng dụng tiêu chuẩn ISO 2709 về cấu trúc biểu ghi trao đổi thông tin − Chỉ khác nhau về quy định nhãn trường, trường con ▪ Đặc trưng của UNIMARC − Tuân thủ nguyên tắc mô tả của ISBD − Không chú trọng đến tiêu đề mô tả mà chỉ chú trọng điểm truy cập − Có sự liên kết giữ các trường (Linking Fields) − Cách sắp xếp trường không theo trình tự xuất hiện trên phiếu thư mục (MARC - theo trình tự xuất hiện trên phiếu thư mục) 60
- ▪ Các trường của UNIMARC Chia thành các khối sau: 1. 0XX- Khối nhận dạng (Identification block) - 7 trường 2. 1XX- Khối thông tin mã hoá (Coded Information block) - 9 trường 3. 2XX - Khối thông tin mô tả (Descriptive Block) - 8 trường 4. 3XX - Khối phụ chú (Notes) 5. 4XX - Khối trường liên kết (Linking Entry block): 29 trường 6. 5XX- Khối Nhan đề liên quan (Related title block): 16 trường 7. 6XX - Khối phân tích chủ đề (Subject analysis block): 12 trường 8. 7XX - Khối trách nhiệm trí tuệ (Intellectial responsibility block) - 9 trường 9. 8XX - Khối trường sử dụng quốc tế 10. 9XX - Khối trường quốc gia 61
- ▪ Các trường bắt buộc có trong biểu ghi unimarc 001* Mã số biểu ghi (RECORD IDENTIFIER) 100* Dữ liệu xử lý chung (GENERAL PROCESSING DATA) 101 Ngôn ngữ (LANGUAGE OF THE WORK (when applicable)) 120 Dữ liệu mã hoá - Tài liệu bản đồ CODED DATA FIELD: CARTOGRAPHIC MATERIALS GENERAL (Chỉ đối với tài liệu bản đồ) 123 Dữ liệu mã hoá Tỷ lệ và toạ độ bản đồ (chỉ đối với tài liệu bản đò) 200* Nhan đề và thông tin trách nhiệm (TITLE AND STATEMENT OF RESPONSIBILITY (Trường con A) 206 Vùng dữ liệu toán học của bản đồ (CARTOGRAPHIC MATERIALS MATHEMATICAL DATA) 801* Nguồn tin gốc Những trường có dấu (*) ohải có mặt trong tất cả các biểu ghi 62
- c. CCF - Common Communication Format − Do UNESCO phát triển năm 1984. − Đơn giản hơn − Có hai khổ mẫu: + Cho dữ liệu thư mục - CCF/B + Cho dữ kiện - CCF/F 63
- ▪ Mục đích của CCF − Cho phép trao đổi biểu ghi giữa các cơ quan thông tin, kể cả thư viện − Cho phép sử dụng một bộ phần mềm để xử lý biểu ghi nhận được từ các tổ chức khác nhau không phụ cthuộc vào các quy định riêng cảu từng tổ chức − Sử dụng làm cơ sở để có thể phát triển CSDL riêng cho từng cơ quan 64
- ▪ Đặc điểm sử dụng CCF − Chỉ có một tập hợp tối thiểu trươngf bắt buộc có để đảm bảo cung cấp thông tin về tài liệu thư mục − Cung cấp cấp một số yếu tố bắt buộc và lựa chọn một cách mềm dẻo để thích hợp với các thực tiễn biên mục khác nhau − Cho phép cơ quan sử dung CCF có thể đưa vào những yếu tố chưa chuẩn hoá − Đưa thêm thông tin liên kết (linking) để có thể liên kết một nhóm biểu ghi mà không băt buộc cơ quan biên mục phải thực hiện những xử lý phức tạp 65
- ▪ Các trường của CCF − Khoảng 73 trường − Không chia thành các khối − Có một số trường bắt buộc − Những trường còn lại là tuỳ chọn ▪ Nguyên tắc của CCF − Cấu trúc biểu ghi tuân thủ ISO 2709 − Biểu ghi cốt lõi chỉ chứa một số không nhiều trường bắt buộc. − Có nhiều trường bổ sung để hỗ trợ các trường bắt buộc − Sử dụng kỹ thuật chuẩn đề tạo sự liên kết giữa các biểu ghi 66
- d. MARC XML ▪ Yêu cầu thiết kế 1. Đơn giản và linh hoạt 2. Chuyển đổi không mất dữ liệu giữa MARC21 sang XML 3. Chuyển đổi được từ XML sang MARC 4. Trình bày được dữ liệu 5. Chỉnh sửa dữ liệu theo MARC 6. Chuyển đổi dữ liệu 7. Duyệt dữ liệu MARC (Validation of MARC data) 8. Có khả năng mở rộng 67
- ▪ Kiến trúc MARC XML Chuyển đổi được MARC 21 (2709) sang/từ các khổ mẫu MARC 21 (XML) và XML khác 68
- 5.2.2 Siêu dữ liệu Metadata Hiện nay có một số sơ đồ siêu dữ liệu đang được sử dụng ▪ TEI – Text Encoding Initiative ▪ EAD – Encoded Archival Description ▪ OAI – Open Archive Initiative ▪ Dublin Core 69
- a. Sáng kiến Mã hoá văn bản (TEI) TEI Text Encoding Initiative − Bắt đầu từ năm 1987 − Năm 1994: Hướng dẫn TEI với hơn 1400 trang. − Mỗi đoạn văn bản TEI được bắt đầu bằng một tiêu đề TEI (TEI Header) ▪ TEI Headers − Là các Phần tử xác định cấu trúc tài liệu (DTD hay Document Type Definition) của SGML − là tập hợp các nhãn và các quy tắc của SGML và cú pháp mô tả cấu trúc của tài liệu và các thành phần của tài liệu − giúp cho các chương trình xử lý tự động nhận biết đâu là các yếu tố của văn bản, cách thức trình bày, v.v − TEI tương hợp với tiêu chuẩn SGML quốc tế là chuẩn ISO 8897-1986. 70
- b. Mô tả Lưu trữ Mã hoá EAD EAD Encoded Archival Description − Thư viện quốc hội Mỹ − 1995: Hội Lưu trữ Mỹ tham gia phát triển − 8/1998: phiên bản DTD EAD version 1.0 tương thích tốt hơn với XML 71
- c. Sáng kiến lưu trữ mở OAI OAI Open Archives Initiatives − Công cụ để hỗ trợ những sưu tập lưu trữ tài liệu số với tính liên tác − Giao thức OAI cho thu thập siêu dữ liệu (OAI-PMH, Open Archive Initiative Protocol for Metadata Harvesting) hoàn toàn độc lập với kiểu dữ liệu (nội dung) bên trong. 72
- d. KHỔ MẪU SIÊU DỮ LIỆU DUBLIN CORE − Bộ yếu tố siêu dữ liệu Dublin Core − Bao gồm 15 yếu tố ▪ 15 yếu tố dựa trên "Bộ yếu tố siêu dữ liệu Dublin Core“ ▪ Phạm vi − Là một tiêu chuẩn mô tả tài nguyên thông tin. − Tài nguyên thông tin được định nghĩa trong tiêu chuẩn này là bất cứ thực thể thể nào có định danh (có Uniform Resource Identifier - URI) 73
- ▪ Lý do chọn Dublin Core − Dublin Core là tiêu chuẩn quốc gia ANSI/NISO Z39.85-2001 − Dublin Core đã được áp dụng trên 20 ngôn ngữ. − Được Uỷ ban Châu Âu về tiêu chuẩn hoá/Hệ thống tiêu chuẩn hoá Xã hội thông tin (CEN/ISSS - European Committee for Standardization/Information Society Standardization System) công nhận làm tiêu chuẩn. − Ôxtralia cũng đã sử dụng Dublin Core làm nền tảng cơ bản để xây dựng tiêu chuẩn siêu dữ liệu cho Dịch vụ thông tin chính phủ (AGLS - Australian Government Information Locator Service) AS-5044. − Dublin Core đýợc đề xuất là một trong cơ sở để xây dựng RDA 74
- ▪ Bộ yếu tố − Mỗi yếu tố được đặt xác định bằng Mã yếu tố bằng một từ tiếng Anh (Creator, Subject, ) − Định nghĩa cụ thể để làm rõ ngữ nghĩa, phạm vi giá trị của từng yếu tố − Một số yếu tố có thêm những từ bổ ngữ để làm rõ hơn giá trị của yếu tố. − Thông tin làm rõ mức độ bắt buộc hoặc lựa chọn của yếu tố. − Thông tin bổ sung để làm rõ hơn ý nghĩa của yếu tố và/hoặc từ bổ ngữ, sơ đồ sử dụng cho thông tin bổ nghĩa. 75
- ▪ Yếu tố bắt buộc ✓ Creator (Tác giả); ✓ Title (Nhan đề); ✓ Date (Thời gian); ✓ Subject (Chủ đề) hoặc Function (chức năng); ✓ Identifier (Định danh) hoặc Availability (khả năng cung cấp) ▪ Từ bổ ngữ - Qualifier − Là những thông tin nhằm mở rộng hoặc làm chính xác hoá giá trị của yếu tố siêu dữ liệu. Nó cung cấp thông tin thêm về ngữ nghĩa (ý nghĩa) của yếu tố hoặc làm tõ giá trị của yếu tố phải được xử lý hoặc hiểu theo kiểu cụ thể nào. 76
- − 2 loại từ bổ ngữ: 1. Từ chính xác hoá yếu tố ; Từ chính xác hoá yếu tố làm rõ hơn ngữ nghĩa (ý nghĩa) của yếu tố bằng cách đưa thêm các đặc tả chỉ rõ hơn quan hệ của giá trị của yếu tố đối với bản thân tài nguyên thông tin. Một yếu tố được chính xác hoá sẽ có phạm vi bao quát hạn chế hơn. 2. Sơ đồ mã hoá Sơ đồ mã hoá chỉ rõ giá trị của yếu tố được rút ra từ từ vựng có kiểm soát nào hoặc được mã hoá theo chuẩn bên ngoài nào nếu được áp dụng. 77
- 1. Creator dc.Creator ▪ Tên yếu tố: Tác giả chính ▪ Định nghĩa: Pháp nhân chịu trách nhiệm chính trong việc tạo ra nội dung của tài nguyên. ▪ Tính bắt buộc: Bắt buộc nếu có dữ liệu ✓ Chú ý: Pháp nhân trong Creator có thể là tên người (tác giả cá nhân) hoặc tên cơ quan, tổ chức hoặc dịch vụ là tác giả tập thể 2. Date ▪ Tên yếu tố: Thời gian ▪ Định nghĩa: Thời gian của sự kiện trong vòng đời của tài nguyên ▪ Tính bắt buộc: Bắt buộc ✓ Chú ý: Thời gian có thể là thời gian liên quan đến việc tạo ra, hiệu đính hoặc làm cho tài nguyên tiếp cận được. – Khuyến nghị sử dụng cách thức mã hoá thời gian theo tiêu chuẩn ISO 8601 và theo khổ mẫu: – 4 số năm - 2 số tháng - 2 số ngày (YYYY-MM-DD) 78
- 3. Title ▪ Tên yếu tố: Nhan đề ▪ Định nghĩa: Tên được gán cho tài nguyên ▪ Tính bắt buộc: Bắt buộc phải có ✓ Chú ý: Nhan đề của tài nguyên hoặc tên của dịch vụ. 4. Identifier ▪ Tên yếu tố: Định danh của tài nguyên ▪ Định nghĩa: Một tham chiếu không trùng lặp đến tài nguyên trong khung cảnh cụ thể ▪ Tính bắt buộc: Bắt buộc đối với tài nguyên trực tuyến 79
- ✓ Chú ý: Khuyến nghị sử dụng các định danh tài nguyên theo chuẩn được chấp nhận quy định cho những hệ thống định danh hình thức. ▪ Thí dụ về hệ thống định danh bao gồm: – URL - Uniform Resource Locator – URN - Uniform Resource Name – PURL - Persistent URL – DOI - Digital Object Identifier – ISBN - International Standard Book Number 80
- 5. Publisher ▪ Tên yếu tố: Cơ quan xuất bản ▪ Định nghĩa: Thực thể chịu trách nhiệm làm cho tài nguyên có thể truy xuất được. ▪ Tính bắt buộc: Bắt buộc đối với tài nguyên thông tin ▪ Chú ý: Sử dụng để chỉ ra tên của thực thể (tổ chức, nhà xuất bản, cơ quan, ) mà họ sở hữu, kiểm soát quyền hoặc xuất bản tài nguyên. Không khuyến nghị sử dụng yếu tố này để chỉ thị tên của dịch vụ thuần tuý thực hiện chức năng duy trì website (dịch vụ Webhosting hoặc nhà cung cấp dịch vụ internet). 81
- 6. Subject ▪ Tên yếu tố: Chủ đề và từ khoá ▪ Định nghĩa:Chủ đề và/hoặc đề mục chính của nội dung của tài nguyên ▪ Tính bắt buộc: Bắt buộc ✓ Chú ý: Về cơ bản chủ đề của tài nguyên được thể hiện bằng từ khoá, cụm từ, ký hiệu phân loại, chỉ số đề mục, v.v để thể hiện chủ đề chính của tài nguyên. Khuyến nghị nên sử dụng từ vựng có kiểm soát (như từ điển từ chuẩn, đề mục chủ đề) hoặc bảng phân loại hình thức hoá 82
- 7. Contributor ▪ Tên yếu tố: Tác giả bổ sung/đồng tác giả ▪ Định nghĩa:Pháp nhân tham gia đóng góp vào việc tạo ra nội dung của tài nguyên. ▪ Tính bắt buộc: Lựa chọn, không bắt buộc ✓ Chú ý: Về cơ bản, pháp nhân trong Contributor có thể là tác giả cá nhân hoặc cơ quan, tổ chức, dịch vụ (là tác giả tập thể) có vai trò quan trọng, song là vai trò bậc hai trong việc tạo ra nội dung. Những pháp nhân không được lựa chọn đưa vào yếu tố Creator. 83
- 8. Coverage ▪ Tên yếu tố: Phạm vi bao quát ▪ Định nghĩa: Mô tả mức độ bao quát của nội dung của tài nguyên. ▪ Tính bắt buộc: Chọn lựa, không bắt buộc ✓ Chú ý: Phạm vi bao quát có thể là về phạm vi không gian (tên địa danh, toạ độ không gian, ), thời gian (giai đoạn, chuỗi ngày tháng, ), phạm vi về tàin phán (tên lãnh thổ, nước, ). Khuyến nghị sử dụng từ vựng có kiểm soát để chọn lựa thuật ngữ phù hợp. Thí dụ sử dụng Từ điển từ chuẩn về tên địa lý, tên địa danh, 84
- 9. Description ▪ Tên yếu tố: Mô tả ▪ Định nghĩa:Một mô tả là rõ nội dung của tài nguyên ▪ Tính bắt buộc: Chọn lựa, không bắt buộc ✓ Chú ý: Mô tả có thể bao gồm: tóm tắt, mục lục, thông tin tham chiếu về bảng biểu, về toàn văn (thí dụ hình thu nhỏ (thumbnail) của tài liệu hoặc bất cứ đoạn văn bản nào nhằm làm rõ hơn nội dung tài nguyên. Khuyến nghị áp dụng tiêu chuẩn Việt Nam TCVN 4524-1989 cho tóm tắt và chú thích. 85
- 10. Format ▪ Tên yếu tố: Khổ mẫu dữ liệu ▪ Định nghĩa:Mô tả loại hình vật lý hoặc số (điện tử) của tài nguyên. ▪ Tính bắt buộc: Chọn lựa, không bắt buộc ✓ Chú ý: Về cơ bản, Yếu tố khổ mẫu cung cấp thông tin về vật mang tin của tài nguyên nếu là không trực tuyến. Yếu tố còn cung cấp thông tin về kiểu dữ liệu hoặc độ lớn, quy mô của tài nguyên. Khổ mẫu có thể sử dụng để xác định phần mềm, phần cứng hoặc thiết bị khác cần thiết để hiển thị hoặc thao tác với tài nguyên. Khuyến nghị sử dụng từ vựng có kiểm soát để chọn lựa thuật ngữ phù hợp (thí dụ sử dụng danh mục từ chuẩn tên gọi loại hình dữ liệu Internet (MIME) để xác định khổ mẫy dữ liệu số). 86
- 11. Language ▪ Tên yếu tố: Ngôn ngữ ▪ Định nghĩa: Ngôn ngữ chính văn của nội dung của tài nguyên ▪ Tính bắt buộc: Chọn lựa, không bắt buộc ✓ Chú ý: Khuyến nghị sử dụng tiêu chuẩn mã ngôn ngữ hai ký tự theo chuẩn ISO 639 được sử dụng trong RFC 3066 [RFC 3066]. 12. Relation ▪ Tên yếu tố: Quan hệ ▪ Định nghĩa: Tham chiếu đến tài nguyên liên quan ▪ Tính bắt buộc: Chọn lựa, không bắt buộc ✓ Chú ý: Sử dụng để làm rõ quan hệ của tài nguyên đang được mô tả với những tài nguyên liên quan đến nó. Khuyến nghị sử dụng những phương thức tham chiếu nguồn được sử dụng phù hợp với hệ thống định danh. 87
- 13. Rights ▪ Tên yếu tố: Quản trị quyền ▪ Định nghĩa:Thông tin về các quyền được kèm theo tài nguyên hoặc đối với tài nguyên thông tin. ▪ Tính bắt buộc: Chọn lựa,không bắt buộc ✓ Chú ý: Yếu tố quản trị quyền chứa thông báo về các quyền liên quan đến tài nguyên thông tin hoặc chỉ dẫn đến một dịch vụ cung cấp thông báo như vậy về quyền. Thông tin về quyền có thể bao gồm thông tin về quyền sở hữu trí tuệ, bản quyền và các quyền liên quan khác. 88
- 14. Source ▪ Tên yếu tố: Nguồn ▪ Định nghĩa:Tham chiếu về tài nguyên mà từ đó tài nguyên hiện được mô tả được rút ra hoặc tạo ra từ đó. ▪ Tính bắt buộc: Chọn lọc, không bắt buộc ✓ Chú ý: Tài nguyên đang được mô tả có thể là được trích ra hoặc tạo ra từ tài nguyên khác. Khuyến nghị sử dụng cách tham chiếu đến tài nguyên bằng các thông tin phù hợp với các quy tắc của các hệ thống định danh hình thức. 89
- 15. Type ▪ Tên yếu tố: Thể loại ▪ Định nghĩa:Mô tả bản chất hoặc thể loại của nội dung của tài nguyên. ▪ Tính bắt buộc: Chọn lọc, không bắt buộc ✓ Chú ý: Thông tin về Thể loại bao gốm các thuật ngữ mô tả những hạng phân loại, thể loại hoặc mức độ tích hợp cho nội dung của tài nguyên. Khuyến nghị lựa chọn thuật ngữ từ Danh mục thuật ngữ từ từ vựng có kiểm soát (từ danh mục Kiểu dữ liệu Dublin Core [DCT1]. Để mô tả dạng thức vật lý hoặc kiểu dữ liệu số của tài nguyên, sử dụng yếu tố Khổ mẫu (Format). 90
- 5.3. Chuẩn mô tả siêu dữ liệu ▪ Lược đồ mô tả đối tượng siêu dữ liệu MODS ▪ Chuẩn mã hóa và truyền siêu dữ liệu METS a. Lược đồ mô tả đối tượng siêu dữ liệu MODS MODS Metadata Object Description Schema − Khuôn khổ cho thao tác với dữ liệu theo khổ mẫu MARC trong môi trường XML − Mục đích: tạo khổ mẫu để mang dữ liệu từ biểu ghi MARC21 và cho phép tạo biểu ghi mô tả gốc của tài liệu số ngay từ đầu theo SGML. 91
- ▪ MODS: Một khổ mẫu MARC đơn giản hơn − Trong môi trường kết nối mạng, siêu dữ liệu mô tả được chuyển tiếp qua nhiều hệ thống và có thể gắn liền vào trong hoặc với nhiều loại siêu dữ liệu khác thì biểu ghi MARC phù hợp. Tuy nhiên, vấn đề của MARC là việc nhúng dữ liệu nói chung đòi hỏi sử dụng một cấu trúc dữ liệu XML và MARC không phải một biểu ghi XML. Do đó, người ta cần một phiên bản MARC đơn giản hơn, có thể chấp nhận các phần tử dữ liệu chính từ một biểu ghi MARC và chuyển chúng vào một khổ mẫu XML dễ hiểu. Lược đồ MODS ra đời. − MODS sử dụng thẻ dễ hiểu để thay thế cho thẻ bằng 3 chữ số và mã trường con của MARC. Ví dụ: “Nhan đề” (“title”) thay thế cho “245”. 92
- − MODS cung cấp 19 thành tố tố mức đỉnh cho mô tả đối tượng và hơn 64 thành tố con mức dưới. Chúng dựa trên các khía cạnh thư mục như tiêu đề, tên của người tạo và người xây dựng, số lượng phân loại và chủ đề, thành phần thuộc lĩnh vực mô tả vật lý, thông tin về sự giới hạn truy cập và thể loại. MODS bao gồm các cơ chế cho phép mở rộng tập các thành tố thông qua việc trao đổi thông tin với các tài liệu XML khác dựa trên cấu trúc của nó. Ngoài ra, MODS có khả năng điều khiển tính xác thực và mô tả chi tiết theo mức cung cấp. − MODS được xây dựng khi các xu hướng khác nhau về mô tả metadata không thống nhất: tương thích các vấn đề của Dublin Core bằng cách cung cấp một tập thành tố đa dạng và cho phép mở rộng thêm khi cần. 93
- − MODS được sử dụng cho một lượng lớn các dạng tài liệu khác nhau từ sách tới các tài liệu đa phương tiện và được lựa chọn trong phần lớn các dự án DL. MODS được sử dụng rộng rãi trong các phần chính trong thế giới DL. Khi sử dụng chung với các chuẩn khác như METS, MODS làm tăng khả năng liên kết đầy đủ và chiến lược tích hợp metadata làm tăng truy cập tài liệu số trên toàn cầu. − Tuy nhiên, MODS đang trong quá trình phát triển và hoàn thiện, nên còn có những hạn chế. ▪ Cách thức làm việc của MODS 94
- − MODS nhằm giải quyết tính không tương thích của các yêu cầu mở rộng và tính đặc thù ảnh hưởng trong Dublin Core nói riêng và khả năng ứng dụng của nó cho metadata nói chung: gồm một cơ chế cho phép mở rộng, cung cấp một tập yếu tố chi tiết hơn Dublin Core, vì thế, cho phép số lượng lớn mục tin được mô tả mà không cần sắp xếp để sử dụng các yếu tố bên ngoài tập lõi. Do đó, khả năng trao đổi với các bản ghi MODS khác nhanh hơn và thông qua ánh xạ chi tiết có thể tới các lược đồ metadata khác. − MODS được viết bằng XML, là thành phần độc lập với các gói phần mềm; dựa trên một tập con các trường của MARC nhưng không giống MARC sử dụng tên trường là ngôn ngữ tiếng Anh có số lượng tên trường nhiều hơn, người sử dụng MODS không cần phải biết về MARC và các quy tắc của nó. MODS dễ sử dụng hơn MARC, giảm bớt tập các yếu tố và tổ chức lại các trường, gom nhóm các thành phần logic hơn. 95
- − Khi so sánh với Dublin Core, MODS cung cấp một tập các yếu tố rõ ràng và đầy đủ hơn, cho phép mô tả chi tiết các lớp tài liệu. Website về MODS cung cấp trên trang chủ của nó các file mẫu cho 9 lớp đối tượng bao gồm sách, serials, bản đồ, âm thanh, phim, đa phương tiện. mô tả đầy đủ một phạm vi rộng các đối tượng có thể được xử lý theo chuẩn. − Bằng cách sử dụng XML, MODS định nghĩa các yếu tố chính, các yếu tố con và các thuộc tính của các yếu tố đó. Nội dung của các yếu tố nằm trong các yếu tố mức thấp nhất để tránh "nội dung bị trộn lẫn", khi một số yếu tố được đặt chung với các yếu tố con. − Các thuộc tính có thể được liên kết với các yếu tố ở các mức khác nhau và được xác định theo các yếu tố ràng buộc. Các thuộc tính thông thường trong lược đồ là: type, encoding, and authority. 96
- − Ví dụ: một file MODS cho một quyển sách ở Thư viện Quốc hội Mỹ: Sound and fury : the making of the punditocracy / Alterman, Eric creator text bibliography nyu Ithaca, N.Y Cornell University Press c1999 1999 monographic 97
- eng print vii, 322 p. ; 23 cm. Eric Alterman. Includes bibliographical references (p. 291-312) and index. Journalism Political aspects United States. United States Politics and government 20th century. Mass media Political aspects United States. 98
- Television and politics United States. Press and politics United States. Talk shows United States. PN4888.P6 A48 1999 071/.3 0801486394 (pbk. : acid-free, recycled paper) 99042030 DLC 990730 20000406144503.0 11761548 99
- − Mặc dù được sinh ra từ MARC21 và chi tiết hơn nhiều tiêu chuẩn Dublin Core, nhưng MODS lại ít quy tắc biên mục hơn MARC21. Tương tự như Dublin Core, không có nhiều trường phụ thuộc và tất cả các trường đều có thể lặp lại. MODS chứa đựng nhiều giá trị từ MARC, song có những nhiều điểm khác với MARC21: Không có những khái niệm về “dẫn mục chính” (“main entry”) hoặc “dẫn mục phụ” (“added entry”), tất cả tác giả đơn giản chỉ là “tác giả”; và một biểu ghi có thể có nhiều nhan đề mà không có một “nhan đề chính” (“main title”). Khi biểu ghi MARC21 được biên dịch sang MODS thì ta có một biểu ghi trong XML mang dấu ấn của MARC. Biểu ghi MODS có thể được tạo ra từ siêu dữ liệu thư tịch mà không khởi đầu từ mục lục thư viện, ví dụ như trích dẫn của bài báo, và nó thường được sử dụng trong CSDL có sự trộn lẫn của mục lục thư viện và dữ liệu biên mục khác. 100
- b. Chuẩn mã hóa và truyền siêu dữ liệu METS Metadata Encoding and Transmission Standard − Dự án "The Making of America 2" (MOA2): đề xuất việc xây dựng một khổ mẫu siêu dữ liệu cho siêu dữ liệu mô tả, siêu dữ liệu cấu trúc và siêu dữ liệu quản trị đối với các công trình dạng văn bản và ảnh − Mục đích là tạo lập một khổ mẫu theo XML để chứa các siêu dữ liệu quản lý tài nguyên thông tin trong kho dữ liệu số và trao đổi các đối tượng số giữa các kho dữ liệu số của dự án MOA2. 101
- − Ở thư viện truyền thống, yêu cầu để mô tả dữ liệu đã được đáp ứng với MARC. MARC lưu trữ tất cả các thông tin cần thiết để mô tả tài liệu trong thư viện trong một cấu trúc chặt chẽ, ngoài ra, MARC còn cho phép nội dung của các mục lục được mã hóa trong các thư viện có thể trao đổi được với nhau. − Ở thư viện số, sự đa dạng về siêu dữ liệu lớn hơn rất nhiều. Các chương trình phát triển DL luôn cần có một số tiêu chuẩn mở rộng, đặc biệt cho việc mô tả metadata sao cho chính xác và gần gũi hơn. Một chuẩn chung được coi như khung Framework cho siêu dữ liệu là METS (Metadata Encoding and Transmission Standard). METS hoạt động như một nền tảng trong đó các tiêu chuẩn trước đó và các tiêu chuẩn trong tương lai có thể được tích hợp logic và có cấu trúc. 102
- ▪ Siêu dữ liệu trong DL cần có tiêu chuẩn − METS là một tiêu chuẩn mới được thiết kế nhằm mã hóa các loại siêu dữ liệu cho việc mô tả hoàn chỉnh một đối tượng trong DL. Đó có thể là văn bản, ảnh tĩnh, video, âm thanh hay các loại tài liệu phức tạp khác như môi trường VRML. Cho đến gần đây, chưa có phương pháp chuẩn hóa cho việc mã hóa các siêu dữ liệu cho các đối tượng trong DL, vì thế, các dự án DL có xu hướng hoạt động theo cách riêng và thường sử dụng phần mềm và định dạng dữ liệu mà dự án của quen làm. Khi số lượng các dự án này tăng lên thì sự cần thiết phải có một tiêu chuẩn cho siêu dữ liệu trở nên cấp thiết hơn. Do đó, METS đã hình thành. Liên đoàn thư viện số đã đưa ra 3 loại siêu dữ liệu chính cần thiết cho việc mô tả các đối tượng của DL như sau: 103
- − Siêu dữ liệu mô tả (Descriptive metadata): Các thông tin liên quan đến nội dung của đối tượng, giống như nội dung của một biểu ghi thư mục chuẩn: giúp cho NSD thư viện số có thể tìm và truy cập đến thông tin cần thiết. − Siêu dữ liệu cấu trúc (Structural): Thông tin về việc các thành phần cấu tạo nên đối tượng liên quan đến nhau như thế nào bao gồm cả việc nó đưa ra cho NSD như thế nào? Ví dụ việc các bức ảnh tạo nên một bản in số hóa được sắp xếp như thế nào? − Siêu dữ liệu quản trị (Administrative metadata): Thông tin cần thiết cho các nhà quản lý DL để có thể quản lý các đối tượng bao gồm các thông tin về quyền sở hữu trí tuệ, các thông tin kỹ thuật về đối tượng và các yếu tố cấu tạo nên đối tượng đó. 104
- − METS là sự tổng hợp tất cả các loại hình metadata: metadata mô tả, quản trị và cấu trúc. METS được thiết kế một cách chi tiết cho việc mô tả dữ liệu ảnh và văn bản trong lược đồ XML. Các tài liệu METS có các phần và các yếu tố liên quan hầu hết đến các đối tượng số, ngoài ra, có khả năng mô tả các đối tượng xác định bao gồm việc tham chiếu đến metadata mở rộng theo các định dạng được chuẩn hóa. − Một tài liệu METS bao gồm 7 thành phần chính sau: 1. METS Header: Bao gồm metadata về bản thân tài liệu của METS file như: tác giả, người tạo, ngày tháng, sản phẩm , trạng thái ; 2. Descriptive Metadata: có một hoặc nhiều trường hợp của metadata mô tả về đối tượng DL, có thể xem xét metadata ngoài tài liệu METS hoặc bên trong hoặc cả hai; 105
- 3. Administrative Metadata: Cung cấp thông tin về các file được tạo, lưu trữ, quyền sở hữu trí tuệ, thông tin tài nguyên như thế nào tất cả có thể nằm trong hoặc ngoài tài liệu; 4. File tóm tắt (File Inventory): Danh sách tất cả các file gồm nội dung thực sự cho đối tượng DL; 5. Structural Map: Là thành phần chính của tài liệu METS. Cấu trúc này tóm tắt cấu trúc phân cấp cho đối tượng và các liên kết các thành phần của cấu trúc tới các file nội dung; 6. Structural Links: Cho phép người tạo nội dung có thể ghi lại các liên kết giữa các nút trong cấu trúc logic trong structural map; 7. Behaviors: Là một bản ghi các hoạt động phần mềm để truy nhập đối tượng METS hoặc bất kỳ thành phần nào của nó. Mỗi hoạt động này có một giao diện mô tả tóm tắt các hoạt động cho mỗi phiên hoạt động nhất định. 106
- − Gần đây, sự đa dạng trong cách hoạt động của các DL mang lại những kết quả không mong chờ. Trong chuẩn biên mục thư viện việc áp dụng rộng rãi tiêu chuẩn MARC giúp cho việc tra cứu giữa các thư viện và việc tạo ra các mục lục liên hợp lớn. Trong DL, sự cung cấp một phương pháp tìm kiếm có hiệu quả giữa các thư viện là rất khó khăn và các dự án DL gặp phải khó khăn trong việc chuyển đổi các biểu ghi sang một tiêu chuẩn mới. Kết quả là việc hợp tác giữa các đơn vị trong việc tạo ra một kho tài liệu chung là hết sức khó khăn. Hơn nữa, các chuẩn của các dự án DL tạo ra chỉ là chuẩn riêng, thường bó buộc vào một phần mềm có sẵn và nảy sinh nhiều vấn để nghiêm trọng cho việc chuyển đổi dữ liệu trong tương lai khi phần mềm của dự án DL trở nên lạc hậu. 107
- − Để trao đổi siêu dữ liệu thuận lợi, cần có phải có 2 loại chuẩn hóa: chuẩn hóa siêu dữ liệu của chính vật chứa (giống như MARC) và việc chuẩn hóa nội dung được chứa trong vật chứa đó (giống như quy tắc biên mục và các hoạt động trong thư viện truyền thống). Định dạng METS cung cấp định dạng thứ nhất, một tiêu chuẩn nhưng linh hoạt dùng để lưu trữ các siêu dữ liệu đa dạng kết hợp với đối tượng số ở dạng có thể chia sẻ, tra cứu chéo, trao đổi, tìm kiếm và dùng để duyệt và trình diễn. ▪ Cách thức hoạt động của METS − METS được dùng làm công cụ chứa các siêu dữ liệu linh hoạt và có cấu trúc chặt chẽ để mô tả và bảo quản các đối tượng số chủ yếu là 3 loại siêu dữ liệu. Tất cả siêu dữ liệu liên quan đến một đối tượng đơn lẻ được tích hợp vào vào 1 file: ở đây, mỗi loại siêu dữ liệu được mô tả trong phần riêng biệt và được liên kết với các phần khác thông qua 1 hệ thống toàn diện các từ định danh bên trong; có thể được lưu giữ trong các file METS hoặc nó được lưu giữ tại các file bên ngoài và được tham chiếu từ trong các file METS. 108
- − METS được viết dựa trên giản đồ XML, là phương tiện lưu trữ mạnh và sử dụng chuẩn ASCII chứ không phải định dạng nhị phân đã mang lại cho METS khả năng sẵn sàng trao đổi. Một file METS bào gồm 5 phần chính mỗi phần mô tả một khía cạnh của đối tượng số. ▪ Sơ đồ cấu trúc (Structural Map) − Phần chính của một file METS là phần bắt buộc duy nhất, là phần mô tả cấu trúc tổng thể của đối tượng (siêu dữ liệu cấu trúc của đối tượng); mô tả các thành phần chính cấu tạo nên đối tượng và quan hệ thứ bậc. − Ví dụ, nếu đối tượng là một quyển sách điện tử, chỉ ra cuốn sách được chia thành các chương riêng biệt và nếu các chương có chứa các phần hay các phần nhỏ hơn nữa thì chỉ ra liên kết giữa các phần với nhau. 109
- − Ví dụ một sơ đồ cấu trúc đơn giản cho một cuốn sách: [Contents of Chapter 2 omitted] 110
- ▪ Nhóm File (File Groups) − Các file cấu tạo nên một đối tượng số được liệt kê trong phần nhóm file. Mỗi file thì được tham chiếu bởi một phần tử file − Ví dụ: ▪ Siêu dữ liệu mô tả (Descriptive Metadata) − Siêu dữ liệu mô tả cho một đối tượng số hoặc cho bất kỳ một thành phần nào, được lưu trữ trong 1 phần trong file METS là . Mỗi phần tử được ký hiệu bởi 1 số ID duy nhất cho phép chúng được tham chiếu từ trong file METS hoặc được nhúng trực tiếp vào file METS. 111
- − Ở trường hợp đầu thì phần tử được sử dụng để chỉ ra file chứa các siêu dữ liệu Ví dụ: dmdSec ID="dmd001"> urn:x-nyu:fales1735 − Ở trường hợp siêu dữ liệu được nhúng trực tiếp vào file METS thì phần tử được sử dụng để chứa các siêu dữ liệu đó Alice's Adventures in Wonderland Lewis Carroll between 1872 and 1890 McCloughlin Brothers text 112
- ▪ Siêu dữ liệu quản trị − Siêu dữ liệu quản trị bao gồm các thông tin về các file số cấu tạo nên đối tượng số và các thông tin về quyền sở hữu trí tuệ, cũng được xử lý như đối với siêu dữ liệu mô tả. Mỗi phần tử được gắn một số ID được sử dụng để ghi các siêu dữ liệu, có thể được lưu trữ tại các file bên ngoài, cũng có thể được nhúng trực tiếp vào file METS bằng cách dùng phần tử . ▪ Cách hoạt động (Behaviour) − Phần cuối của một file METS, phần về cách hoạt động cho phép các thông tin về cách trình bày đối tượng số cho NSD ghi lại: nó bao gồm thông tin về phần mềm được sử dụng và các thông số đặc biệt sử dụng để biểu diễn một file tài liệu. ▪ Tầm quan trọng của METS − METS viết bằng XML có những ưu điểm so với các định dạng khác, nhất là so với định dạng nhị phân. 113
- METS có khả năng lưu trữ mạnh, con người có thể đọc được và có khả năng trao đổi với các ứng dụng tương thích XML. Gần đây, một số dự án DL sử dụng XML, nhưng có quá nhiều sự lựa chọn DTD để đưa ra một tiêu chuẩn thống nhất. Mặc dù, các DTD có thể được ánh xạ với nhau nhưng chỉ là cục bộ. Tiếp theo, chuyển đổi dữ liệu gặp khó khăn. Nhu cầu có một tiêu chuẩn sử dụng rộng rãi và gắn kết chặt siêu dữ liệu là cần thiết. METS được xây dựng để thực hiện chức năng này. − METS được thiết kế cho nhiều loại siêu dữ liệu, áp dụng được cho các đối tượng của DL. − METS có cấu trúc chặt chẽ, dễ dàng được tạo ra từ các ứng dụng khác, như là CSDL quan hệ. − METS có khả năng cung cấp cho NSD 2 sự lựa chọn: nhúng trực tiếp siêu dữ liệu vào cấu trúc hoặc tham chiếu tới các siêu dữ liệu được lưu trữ từ bên ngoài, giúp cho METS linh hoạt và dễ dàng chuyển đổi các siêu dữ liệu cũ. 114
- − METS có khả năng mở rộng, do đó, các yêu cầu mới được cộng đồng DL đưa ra, được kết hợp theo một quy trình xử lý đơn giản. Vì thế, METS có khả năng phát triển nhằm trợ giúp cho thay đổi của các hoạt động trong DL ở tương lai. − Tuy nhiên, chính sự linh hoạt của METS gây khó khăn cho việc ứng dụng METS một cách rộng rãi. − Để sử dụng hiệu quả METS và các giản đồ đi kèm theo, các dự án DL thực sự cần phải sử dụng các quy tắc biên mục để kiểm soát nội dung siêu dữ liệu và khi kết hợp với các quy tắc cho các phương tiện số thì AACR2 có thể thỏa mãn được hầu hết các trường hợp. Để METS có thể phát huy hết tiềm năng của mình và trở thành một tiêu chuẩn giống như MARC, chính là việc sử dụng quy tắc biên mục thống nhất để trợ giúp cho việc chuẩn hóa vì METS chỉ là phần chứa cho các nội dung đó. 115
- ▪ Ứng dụng của METS − METS được tạo ra trong DL, được sử dụng để mô tả metadata cho hình ảnh, văn bản, audio Tài liệu METS sử dụng XML cho việc xác định các thành phần số của đối tượng số về vị trí, mô tả cấu trúc liên quan giữa các thành phần. − Các thành phần số bên trong một đối tượng số có thể gồm các file nội dung, metadata mô tả, metadata quản trị. Đặc tính làm cho tài liệu METS phù hợp với các gói thông tin theo mô hình OAIS, có thể sử dụng METS để tạo, định nghĩa và quản lý SIP, DIP, AIP trong việc lưu trữ số. − Vai trò của METS trong các gói tin khá đa dạng: 116
- + Đối với gói thông tin đệ trình (SIP): METS là cú pháp chuyển đổi, cung cấp một chuẩn cho việc truyền hoặc chuyển đổi đối tượng số; METS được dùng để chuyển đổi dữ liệu từ hệ thống đơn lẻ sang hệ thống liên kết bằng cách tập hợp dữ liệu và mã hóa chúng trong một thẻ đánh dấu có khả năng chuyển đổi linh hoạt cao. + Đối với gói tin lưu trữ (AIP): Các tài liệu METS có thể được lưu trữ trong một bộ sưu tập, cung cấp một chuẩn cho các đối tượng số lưu trữ; METS có thành phần mở rộng trong metadata quản trị cho phép một đối tượng số mang thông tin giống như metadata kỹ thuật. + Đối với gói thông tin truyền đạt (DIP): METS là cú pháp chuyển đổi, cung cấp tính năng cơ bản cho phép NSD có khả năng hiển thị, định hướng nội dung số và metadata liên quan; METS cũng được sử dụng như dạng đầu vào để hiển thị các ứng dụng với sơ đồ cấu trúc có thể phân chia đối tượng thành các phần riêng biệt. 117
- − Vì METS là một ứng dụng XML nên METS có thể được thực hiện bởi rất nhiều sản phẩm phần mềm có tương thích XML. Có nhiều phần mềm sẵn có thực hiện các chức năng này và đa số trong đó là miễn phí và là mã nguồn mở. − Nhiều dự án khác cũng tạo ra nhiều công cụ hỗ trợ quản trị tài liệu METS, trong đó đáng chú ý nhất là bộ công cụ METS Java của dự án Sáng kiến thư viện số, trường đại học Harvard. Đây là gói phần mềm cho phép tài liệu METS được tạo ra bởi nhiều nhà cung cấp có thể được tự động tích hợp vào một kho lưu trữ thống nhất. 118
- ▪ Đánh giá − Dù mới ở giai đoạn đầu, song METS được xây dựng khá tốt trong số các tiêu chuẩn cho DL và tương lai được coi là tiêu chuẩn duy nhất có thể duy trì cho các đối tượng trong DL. Vì đang được thiết kế nên METS có thể kết hợp các siêu dữ liệu cho ảnh động, ảnh tĩnh, văn bản, âm thanh, Hầu hết dự án METS đang thực hiện là các kho tài liệu về ảnh tĩnh mặc dù một số dự án cũng sử dụng phần văn bản có thể tra cứu được như một phần bổ sung cho các file ảnh. Ví dụ: + DL Oxford cấp quyền truy cập tích hợp đến cả hai loại tài liệu số. Các kho tài liệu âm thanh và video thì ít hơn về số lượng nhưng hầu hết các kho lớn thông báo dự định sử dụng METS như là nền tảng để phát triển siêu dữ liệu trong tương lai. 119
- + Dự án bảo tồn các tài liệu nghe nhìn gốc của thư viện quốc hội Mỹ, một dự án 5 năm thiết kế kho lữu trữ hình ảnh động và âm thanh, sử dụng METS là giản đồ siêu dữ liệu chính. Một phần của dự án này là đưa ra các giản đồ mở rộng cho các loại tài liệu số khác. Điều đó làm cho việc áp dụng METS dễ dàng hơn nhiều vì nó cung cấp các thành phần được thiết kế tốt cho mỗi loại siêu dữ liệu và dễ dàng gắn kết vào cấu trúc tổng thể. − Tuy METS chỉ đưa ra một cấu trúc chặt chẽ để lưu trữ siêu dữ liệu, không phản ánh nội dung của siêu dữ liệu nhưng METS trở thành một chuẩn quan trọng trong việc xây dựng các kho số. 120
- − Trở ngại lớn nhất cho việc sử dụng thành công METS chính là việc các dự án DL thường tạo ra các giải pháp riêng giải quyết các vấn về nội dung của siêu dữ liệu và sử dụng các điểm mạnh của METS để mở rộng khả năng tra cứu chéo siêu dữ liệu. − Tuy nhiên, sự linh hoạt của METS là điểm yếu nhất của METS: chỉ là một phần trong giải pháp giải quyết bài toán chuẩn hóa siêu dữ liệu trong DL. Việc cộng đồng DL chấp nhận sử dụng METS và hỗ trợ sử dụng đầy đủ là rất cần thiết và việc phát triển cao hơn cũng cần thiết cùng với dự án bảo quản nguồn tài liệu nghe nhìn gốc kể trên hướng cộng đồng đến chuẩn hóa tốt hơn về nội dung. Khi cả hai hướng phát triển được áp dụng hoàn toàn thì ta có một tiêu chuẩn thực sự cho siêu dữ liệu của các đối tượng trong DL. 121
- 5.4. Giao thức tìm kiếm liên thư viện Z39.50 − Z39.50 là giao thức Client/Server cho việc tìm kiếm và lưu trữ thông tin từ các CSDL lưu trữ ở xa; là sự kết hợp giữa tiêu chuẩn ANSI/NISO Z39.50 và tiêu chuẩn ISO 23950. − Giao thức Z39.50 được thư viện quốc hội Mỹ áp dụng. Z39.50 được sử dụng rộng rãi trong môi trường thư viện và thường được kết hợp thực hiện trong các hệ thống thư viện tích hợp và phần mềm tham chiếu thư mục cá nhân. − Giao thức Z39.50 được thực thi đầu tiên vào năm 1970, và được bổ sung với các phiên bản 1988, 1992, và 1995. Các phiên bản cung cấp những tính năng bao gồm: tìm kiếm, lưu trữ, sắp xếp và duyệt. 122
- − Cú pháp của giao thức Z39.50 cho phép thực hiện nhiều truy vấn phức tạp − Z39.50 là một công nghệ phát triển trước khi Web ra đời, nên hoàn toàn độc lập với các phần mềm tìm kiếm ▪ Cách thức hoạt động của giao thức Z39.50 − Z39.50 cung cấp một ngôn ngữ chung cho cả hai hoạt động: lựa chọn thông tin dựa trên một số tiêu chuẩn và phục hồi của thông tin. Z39.50 tiêu chuẩn hóa cách thức trong giao tiếp client và server và phối hợp hoạt động khi có nhiều hệ thống máy tính, công cụ tìm kiếm và CSDL khác nhau. − Z39.50 là một giao thức tầng ứng dụng như theo mô hình tham chiếu OSI. Giao thức hỗ trợ các truy vấn giao tiếp và tương tác trực tiếp với các chương trình máy tính lưu trữ trên client và server. Hiện nay, Z39.50 được sử dụng rộng rãi trong môi trường Internet theo giao thức TCP/IP. 123
- − Kiến trúc Client/Server phân tán chỉ định rõ ràng về giao tiếp và thu hồi thông tin. Phần mềm NSD (client) độc lập với phần mềm quản lý thông tin thực hiện tìm kiếm và trả về kết quả (server). Z39.50 không chú trọng vào giao diện NSD, nhưng đề cập chi tiết kỹ thuật và thủ tục giao thức thuộc về Z39.50 client (Z39.50 “origin”) như: khởi tạo truy vấn phục hồi thông tin và cách thức truy vấn từ server, cùng chi tiết kỹ thuật và thủ tục giao thức thuộc về Z39.50 server (Z39.50 "target") như: khả năng thực thi kết quả và định dạng kết quả trả về cho client. − Thực tế, người ta không chỉ gọi là mô hình Client/Server mà còn là Origin/Target (gốc/đích) bởi vì trong mạng DL, một máy chủ có thể coi là máy khách hoặc là máy chủ của một hệ thống khác. 124
- ▪ Mô hình kiến trúc chung nhất của Z39.50 125
- − Origin là một phần trong tương tác của client, thường “trong suốt” với NSD và có khả năng truy cập đồng thời nhiều target khác nhau. Chức năng chính là chuyển truy vấn sang định dạng chuẩn của Z39.50; kết nối và gửi truy vấn tới hệ thống lưu trữ CSDL; mô tả lại báo cáo, kết quả trả về cho người tìm kiếm; trong đó: NSD không tương tác trực tiếp tới hệ thống đích. Target cũng đóng vai trò là một origin, có chức năng hiện thời là dịch truy vấn Z39.50 để tìm kiếm trên CSDL, nhận kết quả tìm kiếm và trả về cho origin. − Cổng giao tiếp giữa origin và target là một chương trình có 2 giao diện. Một giao diện hoạt động khi có truy vấn từ một origin tới một target. Một giao diện để xử lý các giao tiếp của phía client như: HTTP, Telnet, Z39.50, 126
- ▪ Cổng giao tiếp dựa trên môi trường Web 127
- − Một chuỗi thông điệp giữa client và server được thiết lập trong quá trình kết nối, khởi tạo một phiên Z39.50 và điều chỉnh thứ tự của các phiên hoạt động. Sau đó, thứ tự được thiết lập và client có thể truy vấn. Z39.50 client thông dịch truy vấn sang một dạng được tiêu chuẩn hóa và truyền cho Z39.50 server. Server tìm kiếm trong CSDL và trả kết quả. Sau đó, Client có thể truy vấn yêu cầu các báo cáo từ tập kết quả hoặc bổ sung thêm truy vấn tới Server. − Mỗi CSDL lưu trữ thông tin các server. Các báo cáo trong mỗi CSDL có cấu trúc và các thành phần dữ liệu khác nhau. Mục tiêu của Z39.50 là hỗ trợ giao tiếp giữa các máy tính theo chuẩn và chính sách có thể hiểu được nhau và hỗ trợ truyền dữ liệu giữa các hệ thống độc lập về cấu trúc, nội dung hoặc định dạng dữ liệu trong một hệ thống riêng biệt. 128
- ▪ Tìm kiếm trong CSDL − Khi tìm kiếm CSDL, truy vấn xác định các điều kiện tìm kiếm. Các truy vấn có thể bao gồm các dạng thuộc tính khác nhau. Ví dụ: + Nếu NSD tìm kiếm tên của tác giả thì thuộc tính "use" xác định điều kiện tìm kiếm như "author" + Nếu NSD tìm kiếm tất cả sách được xuất bản vào một ngày xác định thì thuộc tính "use" xác định điều kiện tìm kiếm là "date of publication" và thuộc tính "relation" xác định NSD muốn ngày xuất bản "greater than" một ngày xác định. 129
- − ANSI/NISO Z39.50 liệt kê tất cả dạng thuộc tính và giá trị của nó trong các tập hợp thuộc tính được đăng ký. Tập các thuộc tính được nhận dạng và tiêu chuẩn hóa cho phép NSD một cơ sở chung cho giao tiếp giữa các hệ thống. − Sau khi Server tìm kiếm CSDL, Server đưa ra tập kết quả phù hợp với điều kiện truy vấn. Các client yêu cầu server trả lại các bản ghi từ tập các kết quả hoặc có thể tìm kiếm bổ sung chi tiết hơn. 130
- ❑ TÀI LIỆU THAM KHẢO 1. Đỗ Quang Vinh (2009), Thư viện số - Chỉ mục và Tìm kiếm, Nxb Đại học Quốc gia Hà Nội. 2. Cao Minh Kiểm (2006), MARC 21 rút gọn cho dữ liệu thư mục, Trung tâm thông tin KHCNQG. 3. Arms W.Y. (2003), Digital Libraries, MIT Press, Cambridge. 4. Lesk M. (2005), Understanding Digital Libraries, 2nd Edition, Morgan Kaufmann, San Francisco. 5. Witten I.H., Bainbridge D. (2003), How to Build a Digital Library, Morgan Kaufmann, San Francisco. 6. UNESCO Institute for Information Technologies in Education (2005), Digital Libraries in Education, Moscow. 131
- KẾT THÚC ! TRÂN TRỌNG CÁM ƠN ! 132