Giáo trình Hệ thống tìm tin (Phần 1)

pdf 58 trang hapham 3430
Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình Hệ thống tìm tin (Phần 1)", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfgiao_trinh_he_thong_tim_tin.pdf

Nội dung text: Giáo trình Hệ thống tìm tin (Phần 1)

  1. LI NĨI ðU Giáo trình “H th ng tìm tin” đưc biên s an nh m cung c p nh ng ki n th c c ơ bn v h th ng tìm tin cho sinh viên chuyên ngành thơng tin-th ư vi n. Ni dung giáo trình bao g m 7 ch ươ ng nh ư sau: Ch ươ ng 1: T ng quan v h th ng tìm tin. Ch ươ ng 2: H th ng cơng c x lý ng ngh ĩa trong các h th ng tìm tin. Ch ươ ng 3: T ch c thơng tin trong h th ng tìm tin Ch ươ ng 4: Thi t k h th ng tìm tin Ch ươ ng 5: H th ng tìm tin th cơng Ch ươ ng 6: H th ng tìm tin t đ ng hĩa Ch ươ ng 7: ðánh giá hi u qu ho t đng c a h th ng tìm tin Giáo trình này đưc biên so n l n đ u nên khơng tránh kh i nh ng thi u sĩt. R t mong nh n đưc ý ki n đĩng gĩp c a các đ ng nghi p và b n đ c đ giáo trình đưc hồn thi n h ơn trong nh ng l n xu t b n sau. Xin chân thành c m ơn các đng nghi p khoa Th ư vi n -Thơng tin h c, tr ưng ði h c Khoa h c xã h i và nhân v ăn Tp.H Chí Minh, PGS.TS ðồn Phan Tân, ThS.V ĩnh Qu c B o đã nhi t tình giúp đ và cĩ nhi u ý ki n đĩng gĩp cho tác gi trong quá trình biên so n giáo trình. TP.H Chí Minh, tháng 12 n ăm 2009 Tác gi 1
  2. BNG CÁC T VI T T T AACR: Quy t c biên m c Anh-M (Anglo-American Cataloguing Rule) CSDL: C ơ s d li u CQTT: C ơ quan thơng tin DDC: Khung phân l ai th p phân Dewey (Dewey Decimal Classification) DC: Y u t siêu d li u c t lõi Dublin ( Dublin Core) HTTT: H th ng tìm tin HTTTT ðH: H th ng tìm tin t đ ng hĩa LCSH: B ng đ m c ch đ c a Th ư vi n Qu c h i M (Library of Congress Subject Headings MARC: Biên m c đ c máy (Machine Readable Cataloging) MLCC: M c l c ch cái MLPL: M c l c phân l ai NNTT: Ngơn ng tìm tin OPAC: M c l c cơng cơng truy c p tr c ti p (Online Public Access Catalog) TðTC: T đin t chu n 2
  3. CH ƯƠ NG 1 TNG QUAN V H TH NG TÌM TIN 1.1.Tìm tin 1.1.1. Khái ni m tìm tin Khái ni m tìm tin đưc nhi u tác gi đ c p đ n trong nhi u tài li u v các l ĩnh v c khác nhau nh ư thơng tin h c, th ư vi n h c, khoa h c máy tính Sau đây là m t s đnh ngh ĩa v tìm tin. Theo TCVN 5453-1991, tìm tin là quá trình l a ch n và đư a ra t m t t p h p tài li u hay m ng tin nào đĩ nh ng tài li u, thơng tin thích h p v i n i dung yêu c u tin. [8] Các tác gi cu n “C ơ s thơng tin h c” c a Vi n thơng tin VINITI đưa ra đnh ngh ĩa “Tìm tin là mt tp h p các cơng đon đưc th c hi n v i m c đích tìm ra nh ng tài li u cĩ ch a thơng tin nh t đ nh (sau đĩ cung c p chính các tài li u đĩ ho c các b n sao c a chúng) ho c v i m c đích cung c p các s li u c th đ tr l i các câu h i đưc đ nh tr ưc”. [24] Theo C.T. Meadow, các thu t ng tìm tài li u, tìm d ki n, ch n l c d li u và tìm tin đưc s d ng đ ch quá trình tìm các tài li u đáp ng yêu c u tin (tìm tài li u) ho c tìm thơng tin tr c ti p (ba d ng tìm sau cùng). Vì v y, “Tìm tin là quá trình tìm ki m trong m t m ng tin nào đĩ nh ng tài li u ch a thơng tin và vi c tìm ki m này khơng ph thu c vào b n ch t, lo i thơng tin c n tìm và ph ươ ng th c s d ng thơng tin đĩ.” [22] Theo B.C.Vickery, tìm tin là quá trình l a ch n thơng tin t mt m ng tin. [31] Nh ng đ nh ngh ĩa trên cho th y m c dù cách di n đ t khác nhau nh ưng cĩ s th ng nh t t ươ ng đi gi a các tác gi v ý ngh ĩa c a thu t ng tìm tin. Nh ư v y, tìm tin là mt thu t ng chung đưc s d ng đ ph n ánh quá trình tìm ki m tài li u ho c thơng tin c n thi t trong m t m ng tin nào đĩ. Vi c tìm ki m tài li u ho c thơng tin c n thi t đưc th c hi n m t cách ch n l c và th ưng địi h i nhi u cơng s c, th i gian và chi phí. Th ư vi n là m t ví d đin hình v m t t ch c chuyên ph c v cho vi c tìm ki m thơng tin m t cách ch n l c. Mt ng ưi dùng tin đn th ư vi n khơng ph i đ đ c tồn b tài li u cĩ trong th ư vi n mà đ tìm tài li u ho c thơng tin m t cách ch n l c nh m th a mãn các nhu c u tin c a mình. Ph ươ ng pháp hi u qu nh t đ tìm tài li u ho c thơng tin c n thi t trong m t th ư vi n b t k ỳ là đc qua t ng tài li u c a th ư vi n này. Tuy nhiên, trong th c t khơng th áp d ng ph ươ ng pháp này vì s lưng tài li u trong các th ư vi n th ưng r t ln nên vi c đc t t c tài li u đ ch n ra nh ng tài li u c n thi t là khơng kh thi. Vì vy, ng ưi ta s dng m t ph ươ ng pháp tìm tin khác, đĩ là tìm tin theo các đc tính ni dung ng n g n ho c theo các đc tính hình th c c a tài li u. 3
  4. Cĩ th xem tìm tin nh ư mt quá trình truy n thơng m t cách gián ti p gi a các tác gi ho c nh ng ng ưi t o l p các bi u ghi v i nh ng ng ưi s d ng thơng tin. Các ngơn ng và các kênh c a h th ng truy n thơng này khác v i các h th ng truy n thơng khác nh ư truy n thơng đ i chúng ho c truy n thơng tr c ti p. Các ngơn ng đưc s d ng trong h th ng truy n thơng này cĩ th là các ngơn ng tìm tin và/ho c ngơn ng t nhiên. Cịn các kênh truy n thơng cĩ th là các cơng c tìm tin nh ư h th ng m c l c, b ng tra, c ơ s d li u Nĩi cách khác, tìm tin là m t quá trình t ươ ng tác gi a ng ưi s d ng và các m ng tin thơng qua các cơng c tìm tin khác nhau. 1.1.2. Quá trình tìm tin Tìm tin là mt quá trình cơ b n c a con ng ưi và nĩ liên quan m t thi t v i vi c hc t p và gi i quy t v n đ. Quá trình tìm tin đưc b t đu v i nhu c u tin c a ng ưi s dng. ð đt đưc m c tiêu nh ư gi i quy t m t v n đ, tr li m t câu h i c th ho c đ th a mãn tính ham hi u bi t, ng ưi dùng tin cĩ th cn thơng tin nhanh và ng n g n ho c thơng tin đy đ và chi ti t. Trong hình 1.1. là sơ đ ca quá trình tìm tin. M c dù trơng cĩ v rt đơ n gi n nh ưng v th c ch t, quá trình tìm tin bao g m nhi u qui trình ph c t p. M t s qui trình là qui trình cơng ngh và liên quan đn h th ng tìm tin, giao di n ng ưi s dng Các qui trình khác liên quan đn bn ch t và các đc tr ưng c a n i dung thơng tin và ng ưi dùng tin c th . Th i gian th c hi n và mc đ ph c t p c a quá trình tìm tin ph thu c vào kh năng nh n th c, trình đ và nhu c u tin ca ng ưi dùng tin. Quá trình tìm tin là mt quá trình t ươ ng tác ph thu c vào kh năng c a ng ưi dùng tin, s ph n h i t h th ng tìm tin và các quy t đnh c a ng ưi dùng tin v các hành đng ti p theo d a trên s ph n h i này. Các chi ti t v nhu c u tin ban đu c a ng ưi s dng cĩ th thay đi. Các nhu c u tin ban đu th ưng đưc điu ch nh sau khi ng ưi tìm tin bi t nhi u h ơn v vn đ đang tìm ki m thơng qua s tươ ng tác v i các h th ng tìm tin. Vì vy, quá trình tìm tin ti p t c đn khi ng ưi dùng tin cĩ đưc thơng tin th a mãn nhu c u tin đã đưc điu ch nh c a mình. Cơng ngh thích h p, ch ng h n h th ng tìm tin và giao di n ng ưi s dng thích h p, cĩ th thúc đy quá trình nh ưng đĩ khơng ph i là vn đ cơ bn nh t vì quá trình tìm tin ph thu c nhi u vào ng ưi dùng tin và nhu c u tin c a ng ưi dùng tin cũng nh ư bn ch t, s lưng và s đa d ng c a thơng tin. 4
  5. Nhu cầu tin Xác định yêu cầu tin Xác định HTTT thích hợp Đặt yêu cầu tin cho HTTT Nhận kết quả tìm Đánh giá kết quả tìm Yêu cầu tin được thỏa mãn Không thỏa mãn Thỏa mãn Kết thúc 5
  6. Hình 1.1. S ơ đ quá trình tìm tin 1.1.3.Các dng tìm tin Cĩ th phân chia các d ng tìm tin theo các tiêu chí khác nhau nh ư da vào tính ch t ca thơng tin đưc tra c u, d a vào cơng c tìm tin đưc s dng, d a vào lo i hình tài li u, d a vào th i gian xu t b n c a tài li u, d a vào ngơn ng tài li u Trên th c t, đ tìm tin m t cách hi u qu , quá trình tìm tin th ưng đưc th c hi n d a trên s kt h p nhi u d ng tìm tin v i nhau. Dưi đây là hai cách phân chia các dng tìm tin th ưng đưc s dng . 1.1.3.1. Da vào tính ch t c a thơng tin đưc tra c u Da vào tính ch t c a thơng tin đưc tra c u, cĩ th phân chia thành các d ng tìm tài li u và tìm thơng tin d ki n. Tìm tài li u là quá trình xác đnh và ch n l c các tài li u t các ngu n tìm t ươ ng ng v i yêu c u tin ho c các d u hi u tìm tin cho tr ưc nh ư tên tác gi , tên tài li u, nơi xu t b n, nhà xu t b n Tìm thơng tin d ki n là quá trình xác đnh, ch n l c và tách ra kh i ngu n tin nh ng s li u, d ki n c th nh ư các s li u th ng kê, các đc tính, thơng s k thu t ca các thi t b , v t li u, các khái ni m khoa h c đ đáp ng các yêu c u tin. 1.1.3.2. Da vào cơng c tìm tin Da vào cơng c tìm tin, cĩ th chia thành các d ng tìm tin th cơng, bán t đ ng và t đ ng hĩa. Tìm tin th cơng là quá trình tìm tin d a trên các cơng c tìm tin th cơng hay cịn gi là cơng c tìm tin truy n th ng nh ư h th ng m c l c, b phi u tra c u, b ng tra, th ư m c, n ph m thơng tin, tài li u tra c u Tìm tin bán t đ ng là quá trình tìm tin d a trên các cơng c tìm tin bán t đ ng nh ư phi u l mép và phi u l soi. Tìm tin t đ ng hĩa là quá trình tìm ki m các thơng tin đưc x lý, l ưu tr và truy cp thơng qua máy tính ho c m ng máy tính. Tr ưc đây, tìm tin th cơng là d ng tìm tin ph bi n nh t trong các th ư vi n và c ơ quan thơng tin. Ngày nay, v i s phát tri n nhanh chĩng c a cơng ngh thơng tin và vi n thơng, tìm tin t đ ng hĩa ngày càng ph bi n h ơn và tr thành d ng tìm tin ch yu trong các th ư vi n và c ơ quan thơng tin l n. Bên c nh đĩ, các cơng c tìm tin bán t đ ng h u nh ư khơng cịn đưc s d ng n a nên dng tìm tin bán t đ ng ngày càng đưc ít ng ưi bi t đ n. 1.2. H th ng tìm tin 1.2.1. Mt s khái ni m 1.2.1.1. Khái ni m h th ng tìm tin Khái ni m h th ng tìm tin (HTTT) đưc đ cp đn trong nhi u tài li u khác nhau. Sau đây là mt s đnh ngh ĩa v h th ng tìm tin. Theo TCVN 5453-1991, h th ng tìm tin là h th ng đưc xây d ng nh m t o điu ki n cho vi c tìm tin.[8] Theo D.B.Cleveland, h th ng tìm tin là mt cơng c th c hi n quá trình tìm tin.[14] 6
  7. Theo F.W.Lancaster, h th ng tìm tin là t hp bao g m các tài li u, yêu c u tin, các mơ t th ng nh t tài li u và yêu c u tin, ph ươ ng ti n cho phép so sánh các mơ t này, và con ng ưi (bao g m các chuyên gia thơng tin, chuyên gia điu hành h th ng và ng ưi s dng h th ng). [20] Các tác gi cu n chuyên kho “C ơ s thơng tin h c” c a Vi n thơng tin VINITI đư a ra đnh ngh ĩa “H th ng tìm tin là t hp các thành ph n liên k t v i nhau đưc s dng đ tìm trong m t m ng tin nào đĩ thơng tin đáp ng yêu c u tin đưc đt ra cho h th ng.” [24] Trong giáo trình “H th ng thơng tin”, V.P.Zakharov đnh ngh ĩa “H th ng tìm tin là tp h p cĩ t ch c các tài li u và các ph ươ ng ti n k thu t đ lưu tr và tìm ki m thơng tin ho c tài li u ho c d li u.” [33] G.Kowalski, tác gi cu n chuyên kh o “ H th ng tìm tin: Lý thuy t và ng d ng”, đư a ra đnh ngh ĩa đơ n gi n “H th ng tìm tin là mt h th ng cĩ kh năng l ưu tr , b o qu n và tìm ki m thơng tin” [19] Nh ng đnh ngh ĩa trên cho th y thu t ng “h th ng tìm tin” nĩi chung đưc dùng đ ch mt h th ng đưc xây d ng đ lưu tr và tìm ki m thơng tin đã đưc l ưu tr . Cĩ nhi u lo i h th ng thơng tin khác nhau, t các h th ng th cơng v i thơng tin đưc l ưu tr trên gi y đn các h th ng đưc s hĩa hồn tồn. Cách t ch c thơng tin và các k thu t tìm tin trong các h th ng tìm tin c ũng khác nhau nh ưng v n đ chung đi v i t t c các h th ng tìm tin là đm bo hi u qu tìm tin c a h th ng. 1.2.1.2. M t s khái ni m liên quan Nhu c u tin Nhu c u tin là nhu c u khách quan c a ng ưi dùng tin v nh ng thơng tin c n thi t cho cơng vi c c th ca mình. [8] Yêu c u tin Yêu c u tin là nhu c u tin c a ng ưi dùng tin đưc th hi n d ưi d ng v ăn b n ho c l i. [8] Mng tin Mng tin (Information retrieval file) là tp h p các tài li u, d ki n (ho c các thơng tin v chúng) đưc s p x p theo m t trình t nh t đnh ti n l i cho vi c tìm và x lý tin. [8] Mu tìm Mu tìm c a tài li u là ni dung c ơ bn c a tài li u đưc th hi n b ng các thu t ng ca ngơn ng tìm tin. Mu tìm c a mt tài li u đưc t o l p trong quá trình x lý tài liu và đưc s dng đ tìm tài li u đĩ trong t p h p nhi u tài li u khác. Tp h p các m u tìm c a tài li u là mt b ph n khơng th thi u c a m ng tin. Quá trình th hi n n i dung c ơ bn c a tài li u b ng m u tìm đưc g i là quá trình đánh ch s. Lnh tìm Lnh tìm là ni dung c a yêu c u tin đưc th hi n bng các thu t ng ca ngơn ng tìm tin. 7
  8. ðim truy c p ðim truy c p (access point) là mt t , cm t , mã s, tên g i đưc s dng đ tìm thơng tin trong m t h th ng tìm tin. ðim truy c p cĩ th là giá tr c a các thu c tính (hình th c và/ho c n i dung) c a đ i t ưng đưc ph n ánh trong h th ng tìm tin . Ví d, trong mt h th ng tìm tin t ư li u, đim truy c p cĩ th là tên tác gi , nhan đ, đ mc ch đ, t khĩa, ký hi u phân lo i cho phép tìm kim và nh n d ng m t bi u ghi th ư mc. Các đim truy c p này đưc ng ưi x lý tài li u l a ch n khi t o l p mt bi u ghi. ðánh ch s ðánh ch s (Indexing) là quá trình th hi n n i dung tài li u và/ho c yêu c u tin bng ngơn ng tìm tin. [8] Tính thích hp Tính thích h p (Relevance) là mc đ trùng h p gi a n i dung tài li u v i yêu c u tin. [8] Tính phù h p Tính phù hp (Pertinence) là mc đ trùng h p gi a n i dung tài li u và nhu c u tin. [8] Tiêu chu n phù h p ý ngh ĩa Tiêu chu n phù hp ý ngh ĩa là tp h p các qui t c nh m xác l p mt cách hình th c mc đ thích h p c a tài li u v i yêu c u tin. Cĩ th chia các tiêu chu n phù hp ý ngh ĩa thành hai nhĩm chính là đnh l ưng và logic. Lo i th nh t s dng các tiêu chí đnh l ưng đ đánh giá mc đ gi ng nhau v ni dung gi a tài li u và yêu c u tin (h s tươ ng thích). ðiu này cho phép s p xp k t qu tìm đưc theo tr t t gi m d n v mc đ thích h p c a tài li u v i yêu cu tin. Cĩ nhi u mơ hình tốn h c và cơng th c khác nhau đ tính h s tươ ng thích. Tuy nhiên, cách tính đơ n gi n nh t là da trên s trùng h p gi a các thu t ng trong m u tìm và lnh tìm. Cách tính này đưc áp d ng trong t t c các h th ng tìm tin t ư li u s dng các ngơn ng tìm tin phân lo i, đ mc ch đ và t khố. Xác su t trùng h p hồn tồn gi a m u tìm và lnh tìm trong các h th ng tìm tin th ưng r t th p. Vì vy, cĩ th ph i đánh giá mc đ trùng h p m t ph n gi a m u tìm và lnh tìm. N u s trùng h p này đt đn m t m c đ cn và đ thì tài li u tìm đưc đưc xem là thích h p v i yêu c u tin. Gi R là mc đ trùng h p c n và đ gi a m u tìm và lnh tìm đ tài li u tìm đưc v cơ bn đáp ng đưc yêu c u tin. R đưc bi u th bng t l %. R đưc tính b ng cơng th c: R= (M/N) x 100%, trong đĩ: M là s lưng các thu t ng ca m u tìm và lnh tìm trùng nhau khi tìm tin. N là tng s thu t ng cĩ trong m u tìm. Tr ưng h p lý tưng nh t là khi m u tìm trùng h p hồn tồn v i l nh tìm, ngh ĩa là M=N hay R=100%. Trên th c t , v i R>=25% là xem nh ư đt yêu c u. Lo i tiêu chu n phù hp ý ngh ĩa th hai là tiêu chu n phù hp ý ngh ĩa logic. Trên th c t , các h th ng tìm tin s dng các l nh tìm v i các tốn t logic Bool ngày càng ph bi n. Trong các h th ng này, các yêu c u tin đưc th hi n b ng bi u th c logic bao g m m t t p h p các thu t ng tìm đưc liên k t v i nhau b ng các tốn t 8
  9. Bool. Các thu t ng tìm c a bi u th c đĩng vai trị nh ư các bi n s và s nh n giá tr 1 ( đúng) n u thu t ng đĩ đưc ch a trong tài li u ho c nh n giá tr 0 (sai) khi tài li u khơng ch a thu t ng đĩ. Tài li u đưc xem là thích h p v i yêu c u tin n u k t qu tng th c a bi u th c logic nh n giá tr đúng. N u k t qu cĩ giá tr sai thì tài li u khơng thích h p v i yêu c u tin . Vi c s dng các tốn t Bool đm b o cho logic so sánh m u tìm và lnh tìm d hi u đi v i ng ưi s dng. Chính s đơ n gi n và d hi u c a tiêu chu n phù hp ý ngh ĩa logic đã giúp tiêu chu n này tr nên ph bi n. 1.2.2 . Mc đích c a h th ng tìm tin Mt h th ng tìm tin đưc xây d ng đ tìm các tài li u ho c thơng tin đưc cng đng ng ưi s dng yêu c u và ph i s n sàng cung c p tài li u ho c thơng tin cn thi t cho ng ưi s dng. Vì vy, m t h th ng tìm tin b t k ỳ ph i t p trung vào vi c thu th p và t ch c thơng tin v mt ho c nhi u l ĩnh v c ki n th c nh m cung c p thơng tin m t cách nhanh chĩng nh t khi ng ưi s dng yêu c u. Trên th c t , h th ng tìm tin đĩng vai trị nh ư mt c u n i gi a các ngu n tài nguyên thơng tin và nh ng ng ưi s dng thơng tin. Mc đích chung c a m t h th ng tìm tin là gi m t i đa chi phí ca ng ưi s dng đ tìm thơng tin c n thi t. Chi phí tìm tin cĩ th đưc tính b ng th i gian m t ng ưi s dng ph i b ra trong t t c các b ưc c a quá trình tìm tin cho đn khi cĩ đưc tài li u ho c thơng tin c n thi t. Ng ưi s dng cĩ th gp nhi u tr ng i trong quá trình tìm tin. Vì vy, m c đích c a m t h th ng tìm tin là h tr ti đa đ ng ưi s dng cĩ th tìm đưc thơng tin c n thi t m t cách nhanh chĩng, đy đ và chính xác. 1.2.3. Ch c n ăng c a h th ng tìm tin và yêu c u đ i v i h th ng tìm tin 1.2.3.1. Chc n ăng c a h th ng tìm tin Mt h th ng tìm tin ph i x lý nhi u ngu n thơng tin và yêu c u tin khác nhau ca ng ưi s dng. Cĩ th chia các ch c n ăng c a m t h th ng tìm tin thành hai nhĩm chính là: 1) Phân tích ni dung và 2) Tìm tin và cung c p kt qu tìm. Phân tích n i dung bao g m các ch c n ăng liên quan đn vi c phân tích, t ch c và lưu tr thơng tin. Tìm tin và cung c p k t qu tìm bao g m các ch c n ăng phân tích yêu c u tin c a ng ưi s dng, tìm tin, ch n l c và cung c p k t qu tìm. C th , các ch c n ăng chính c a m t h th ng tìm tin bao g m:  Phân tích n i dung các tài li u: phân tích và trình bày ni dung chính c a tài li u b ng các ngơn ng thích h p;  T ch c và lưu tr thơng tin mt cách thích h p đ cĩ th tìm ki m thơng tin theo các yêu c u tin c a ng ưi s dng;  Phân tích các yêu c u tin c a ng ưi s d ng và th hi n các yêu c u tin dng thích h p v i vi c tìm ki m trong h th ng;  Tìm trong h th ng và l a chn thơng tin thích h p v i yêu c u tin; Ch c n ăng c a m t h th ng tìm tin t ư li u đơn gi n đưc th hi n trên s ơ đ trong hình 1.2. 9
  10. Trong hình 1.2. là mt h th ng tìm tin v i hai đu vào (dành cho tài li u và yêu cu tin) và m t đ u ra đ cung c p tài li u ho c thơng tin theo yêu c u. các đ u vào cĩ các b ph n đánh ch s tài li u và yêu c u tin. Các m u tìm c a tài li u cùng v i các đa ch l ưu tr tài li u đưc đưa vào b nh c a h th ng cịn các tài li u đưc đưa vào b ph n l ưu tr tài li u. Các l nh tìm c a t ng yêu c u tin đưc b x lý đi chi u vi m u tìm c a t t c các tài li u đưc ch a trong b nh . N u m u tìm và l nh tìm tươ ng thích (tồn ph n ho c theo tiêu chu n phù h p ý ngh ĩa đã xác đnh) thì b x lý s đưa ra l nh cung c p tài li u đưc ch a trong b ph n lưu tr tài li u. B ph n l ưu tr tài li u đưc xem nh ư b c th hai c a h th ng và thành ph n này khơng hi n di n trong các h th ng tìm tin th ư m c (ch cĩ m t b c là b nh l ưu tr thơng tin v tài li u ). S ơ đ này th hi n ho t đ ng c a m t h th ng tìm tin b t k ỳ, bao g m c các h thng truy n th ng. Ví d , trong h th ng tìm tin th cơng ca mt th ư vi n, các b ph n các đ u vào c a h th ng t ươ ng ng các b ph n x lý tài li u và tra c u tin, b nh t ươ ng ng v i các m c l c th cơng. Trong h th ng tìm tin th cơng khơng cĩ b x lý. B ph n này đưc thay th b ng trí tu ca ng ưi dùng tin ho c cán b tra c u – là ng ưi th c hi n vi c so sánh, đ i chi u l nh tìm vi mu tìm và la ch n k t qu tìm đưc. Mẫu tìm Yêu cầu Bộ nhớ Bộ xử lý Lệnh tìm & địa chỉ tin Tài liệu Tài liệu Địa chỉ đã xử lý Tài liệu Kho tài liệu Tài liệu & địa chỉ Hình 1.2. S ơ đ t ng quát c a h th ng tìm tin 1.2.3.2. Yêu c u đ i v i h th ng tìm tin H th ng tìm tin ph i h ưng đn ng ưi s dng, ngh ĩa là ph i chú tr ng các ti n ích cho ng ưi s dng. Vì vy, h th ng tìm tin ph i đáp ng các yêu c u ch c n ăng sau: - Bo đm kh năng t ươ ng tác gi a ngưi thi t k h th ng và ng ưi s dng; - Cung c p thơng tin v i d ng th c thích h p đ cĩ th s dng ngay; - Cĩ ph m vi đ r ng đ bao quát t t c các lo i yêu c u tin ca c ng đng ng ưi s dng; 10
  11. - Cĩ kh năng cung c p thơng tin thích h p và kp th i; - Cĩ kh năng t ươ ng thích v i nh ng thay đi c a mơi tr ưng; - Ph i duy trì các chu n đ bo v d li u; - H th ng ph i d truy c p và d s dng; - H tr khai thác thơng tin m t cách hi u qu . 1.2.4 Thành ph n c a h th ng tìm tin Thành ph n c a mt h th ng tìm tin c th bao g m: 1. Các mng tin bao g m tài li u, thơng tin v tài li u/siêu d li u, d ki n; 2. Các cơng c logic-ng ngh ĩa, bao g m ngơn ng tìm tin, các qui t c s dng ngơn ng tìm tin và các tiêu chu n phù hp ý ngh ĩa; 3. Các ph ươ ng ti n k thu t đm b o th c hi n các ch c n ăng ca h th ng; 4. Các y u t đm b o cho vi c khai thác h th ng nh ư nhân s , tài li u h ưng dn s dng Các thành ph n c ơ bn c a h th ng tìm tin đưc g i là các phân h . Vi c phân chia thành các phân h rt c n thi t và hu ích cho vi c thi t k cũng nh ư mơ t cơ ch vn hành c a h th ng tìm tin. Cĩ nhi u cách chia h th ng tìm tin thành các phân h, trong đĩ hai cách th ưng đưc s dng nh t là phân chia theo lo i yu t và ph ươ ng ti n đm b o ho t đng c a h th ng và phân chia theo nguyên t c ch c n ăng. 1.2.4.1.Các phân h đ m b o ho t đ ng c a h th ng tìm tin Các ph ươ ng ti n và yu t đm b o vi c th c hi n các ch c n ăng c a h th ng tìm tin đưc chia thành các phân h đm b o ho t đng c a h th ng tìm tin. dng t ng quát, các phân h bao g m b n thành ph n c a h th ng tìm tin đưc li t kê trên. dng chi ti t h ơn, cĩ th chia thành các phân h nh ư đm b o ngơn ng , đm b o thơng tin, đm b o k thu t, đm b o cơng ngh , đm b o nhân s Phân h đm b o thơng tin bao g m các m ng tin (tài li u, thơng tin v tài li u/siêu d li u, d ki n), các ph ươ ng ti n, ph ươ ng pháp mơ t và xây d ng các m ng tin. Phân h đm b o ngơn ng bao g m các ngơn ng tìm tin, các qui t c ng d ng, các tiêu chu n phù hp ý ngh ĩa và các cơng c ngơn ng khác. nh ng giai đon đu, khi h th ng tìm tin m i b t đu phát tri n, đm b o thơng tin và đm b o ngơn ng th ưng đưc nh p chung thành m t phân h đm b o thơng tin-ngơn ng . V sau, hai phân h này đưc tách riêng m c dù ranh gi i gi a chúng khơng th c s rõ ràng. Ch ng h n, cĩ th đư a các ngơn ng mơ t thơng tin vào phân h đm b o ngơn ng cũng nh ư vào phân h đm b o thơng tin. Phân h đm b o ch ươ ng trình bao g m các thu t tốn và các ph n m m (bao g m ph n m m h th ng và ph n m m ng d ng) th c hi n các ch c n ăng c a h th ng tìm tin v i s tr giúp c a máy tính. Phân h đm b o k thu t bao g m các ph ươ ng ti n k thu t h tr cho vi c l ưu tr , tìm và cung c p thơng tin. Phân h đm b o cơng ngh là tp h p và trình t th c hi n các qui trình (t đng hĩa và th cơng) và các th tc x lý thơng tin trong h th ng tìm tin, bao g m mơ t 11
  12. các qui trình và th tc, các s ơ đ thơng tin-cơng ngh và các tài li u h ưng d n nghi p v. Phân h đm b o nhân s bao g m các nhân viên th c hi n vi c v n hành, khai thác h th ng. 1.2.4.2. Các phân h ch c n ăng Cĩ th phân chia h th ng tìm tin thành các b ph n theo ch c n ăng v i m i b ph n th c hi n m t ch c n ăng nh t đ nh trong qui trình cơng ngh nh ư x lý tài li u, nh p và điu ch nh các yêu c u tin, tìm tin, th ng kê, x lý k t qu tìm, cung c p kt qu tìm Các b ph n này đưc g i là các phân h ch c n ăng và to thành mơ hình c u trúc (cịn g i là mơ hình v n hành) c a h th ng tìm tin. Ví d, m t h th ng tìm tin t ư li u cĩ th bao g m các phân h ch c n ăng cơ bn sau: 1 Phân h x lý tài li u th c hi n các ch c n ăng x lý tài li u, l ưu tr và qu n tr tài li u và mu tìm c a tài li u; 2 Phân h x lý yêu c u tin th c hi n các ch c n ăng xác đnh yêu c u tin, xây dng l nh tìm và nh p l nh tìm; 3 Phân h tìm tin cĩ ch c năng tìm và đư a ra các k t qu tìm 4 Phân h x lý và cung c p các kt qu tìm th c hi n ch c n ăng phân tích các kt qu tìm, la ch n các k t qu thích h p và cung c p cho ng ưi s dng. 1.2.5 Các lo i h th ng tìm tin Cĩ th phân lo i các h th ng tìm tin d a trên nhi u c ơ s khác nhau. Trong mc này s đ cp m t s cách phân lo i cơ bn nh t. Da vào tính ch t c a thơng tin đưc lưu tr và cung c p, cĩ th phân các h th ng tìm tin thành hai lo i là h th ng tìm tin t ư li u và h th ng tìm tin d ki n. H th ng tìm tin t ư li u là h th ng tìm tin đưc xây d ng đ tìm và cung c p thơng tin v tài li u ho c tài li u. H th ng tìm tin t ư li u đáp ng các yêu c u tin đưc đ t ra cho h th ng b ng cách cung c p các mơ t th ư mc c a tài li u, các tài li u g c, các b n sao ho c đ a ch nh ng n ơi b o qu n các tài li u ch a thơng tin đưc yêu c u. ðơi khi lo i h th ng tìm tin t ư li u ch cung c p các mơ t th ư m c c a các tài li u c n tìm đưc g i là h th ng tìm tin th ư m c. H th ng tìm tin d ki n là h th ng tìm tin đưc xây d ng đ l ưu tr , tìm và cung cp các s li u và d ki n nh ư các s li u khoa h c, k thu t, kinh t , đ c tính c a các quá trình, hi n t ưng, đ a ch , tên cá nhân ho c t ch c Gi a h th ng tìm tin t ư li u và h th ng tìm tin d ki n khơng cĩ s khác bi t v nguyên t c xây d ng. S khác bi t c ơ b n gi a các h th ng tìm tin t ư li u và h th ng tìm tin d ki n là m c đ x lý ban đ u n i dung tài li u đ sau đĩ cĩ th tìm đưc thơng tin. Trong các h th ng tìm tin t ư li u, tài li u đưc phân tích và mơ t mc “tài li u nĩi v cái gì”, cịn trong các h th ng tìm tin d ki n thì mơ t m c “điu đưc đ c p trong tài li u c th là gì”. Nĩi cách khác, các h th ng tìm tin t ư li u l ưu tr thơng tin v tài li u cịn các h th ng tìm tin d ki n l ưu tr các s li u 12
  13. ho c d ki n v m t đ i t ưng ho c m t nhĩm đ i t ưng nh t đ nh và đưc trình bày vi m t hình th c riêng bi t. Các s li u/d ki n này cĩ th đưc thu th p tr c ti p ho c đưc rút ra t các tài li u. Ví d , v i yêu c u tin “Vn t c ánh sáng”, h th ng tìm tin t ư li u s cung c p các bài báo và sách chuyên kh o nĩi v vn t c ánh sáng và cĩ th ch a câu tr li cho yêu c u tin đưc đt ra, cịn h th ng tìm tin d ki n s cung c p câu tr li c th là “V n t c ánh sáng b ng 3.000 km/giây”. Cĩ nhi u tr ưng h p các h th ng tìm tin là h th ng h n h p, trong đĩ thơng tin d ki n đưc s d ng nh ư m t ph ươ ng ti n h tr cho vi c tìm ki m tài li u và ng ưc l i. Trong các h th ng tìm tin t ư li u, các v ăn b n c ũng cĩ th đưc c u trúc l i, đưc chia thành nhi u đon ho c tr ưng và vi c x lý, cung c p thơng tin v tài li u cĩ th đưc th c hi n m c đ các tr ưng riêng bi t. Trên th c t , các h th ng tìm tin trong th ư vi n chính là s k t h p m t s h th ng tìm tin t ư li u và tìm tin d ki n. ðc đim chung l n nh t c a h th ng tìm tin t ư li u và h th ng tìm tin d ki n là đ đáp ng các yêu c u tin đưc đ t ra cho h th ng, c hai h th ng cĩ th và ch cĩ th cung c p thơng tin đã đưc lưu tr trong h th ng tr ưc đĩ. Da vào phươ ng ti n l ưu tr và tìm ki m thơng tin, cĩ th chia thành các h th ng tìm tin th cơng, bán t đng và t đng hĩa. Trong h th ng tìm tin th cơng, thơng tin v tài li u ho c d ki n đưc l ưu tr trong các b phi u tra c u th ư mc, b phi u tra c u d ki n và h th ng mc l c truy n th ng Cĩ th s dng h th ng tìm tin th cơng đ tìm tin m t cách hi u qu trong các m ng tin ch a d ưi 10.000 tài li u. Trong h th ng tìm tin bán t đng, thơng tin v tài li u đưc ch a trong các phi u l mép ho c phi u l soi. Trong phi u l mép, thơng tin đưc t ch c theo tài li u, ngh ĩa là thơng tin v mi tài li u đưc trình bày trên m t phi u. Phi u này đưc chia làm hai vùng là vùng gi a và vùng xung quanh mép phi u. Vùng gi a c a phi u ch a mơ t th ư mc tài li u. Vùng xung quanh mép phi u là vùng đc l theo m t mã s đã qui đnh. Các đc tr ưng n i dung c a tài li u cĩ th đưc ghi d ưi d ng các l khuy t nh m giúp cho vi c tìm tài li u m t cách d dàng. Vi c tìm tin đưc th c hi n theo t ng t p phi u ca b phi u. ð tìm m t tài li u nào đĩ, ng ưịi tìm tin ph i ly m t t p phi u ri dùng que xiên vào l tươ ng ng v i đc tr ưng c n tìm và cho t p phi u r ơi t do. Nh ng phi u cĩ bm l khuy t s rơi xu ng và đĩ s là kt qu la ch n. Nu m t đc tr ưng đưc th hi n b ng nhi u l và nu mu n tra c u theo nhi u đc tr ưng thì ph i lp l i thao tác trên v i nh ng phi u đã rơi xu ng và đưc l a ch n ln tr ưc. Cĩ th th c hi n vi c l a ch n b ng tay ho c b ng máy ch n cĩ bàn que xiên và b rung đin. Phi u l mép cĩ th đưc làm b ng bìa c ng, bìa m ng ho c gi y Bristol và cĩ kích th ưc t 75x125mm đn 210x297mm. Các l cĩ đưng kính t 2,5 đn 3mm và kho ng cách gi a chúng là 5,6mm ho c 6,35mm. Thơng tin trong phi u l soi đưc t ch c theo n i dung tài li u, ngh ĩa là mi phiu ng v i m t t khĩa ho c t chu n đc tr ưng cho n i dung tài li u. M i l tưng tr ưng cho m t s đă ng ký ca tài li u trong h th ng. Vi c ghi m t tài li u vào b nh đưc th c hi n b ng cách đc l v trí dành cho nĩ trong nh ng phi u ng v i các t khĩa ho c t chu n cĩ ch a trong m u tìm c a tài li u đĩ. Vi c tra c u đưc th c 13
  14. hi n b ng cách đt mt t p các phi u cĩ nh ng đc tr ưng (t khĩa ho c t chu n) c n tìm tr ưc m t ngun sáng. Nh ng phi u ch a tài li u phù hp v i yêu c u tin là nh ng phi u cĩ cùng v trí đc l trên tồn b tp phi u nên ánh sáng cĩ th xuyên qua đưc. Phi u l soi cĩ th đưc làm b ng gi y Bristol nh vi nhi u kích th ưc khác nhau. Trên m i phi u cĩ mt m ng các v trí đưc xây d ng b ng ph ươ ng pháp t a đ. M i v trí ng vi m t s đă ng ký ca tài li u đã đưc x lý t tr ưc. S lưng các v trí trên m i phi u ng v i s lưng tài li u trong h th ng cĩ mu tìm ch a t khĩa ho c t chu n đưc th hi n trên phi u đĩ. Ngồi ra, s lưng các v trí cịn ph thu c vào dung l ưng c a m i phi u. Dung l ưng c a m i phi u cĩ th ch a 5.000 v trí nh ư mu phi u SPHINXO ho c 14.000 v trí nh ư mu phi u SELECTO. Trong các h th ng tìm tin t đng hĩa, vi c l ưu tr và tìm ki m thơng tin đưc th c hi n trên máy tính đin t . Các thành phn c ơ bn c a HTTT t đng hĩa bao gm các cơng c x lý ng ngh ĩa, các ph ươ ng ti n k thu t, c ơ s d li u và nhân viên làm vi c v i h th ng. Da vào lo i ngơn ng tìm tin , cĩ th chia thành h th ng tìm tin s dng ngơn ng ti n k t h p và h th ng tìm tin s dng ngơn ng hu k t h p, th ưng đưc g i tt là h th ng tìm tin ti n k t h p (pre-coordinate system) và h th ng tìm tin h u k t hp (post-coordinate system). Da vào lo i tiêu chu n phù h p ý ngh ĩa, cĩ th chia thành h th ng tìm tin v i tiêu chu n phù hp ý ngh ĩa logic và h th ng tìm tin v i tiêu chu n phù hp ý ngh ĩa đnh l ưng. Trong các h th ng tìm tin thu c nhĩm đu tiên, m c đ phù hp ý ngh ĩa đưc xác đnh d a trên vi c s dng logic m nh đ đ so sánh m u tìm và lnh tìm. Cơ s đ tính m c đ phù hp ý ngh ĩa trong các h th ng tìm tin thu c nhĩm th hai là các cơng th c, s li u th ng kê đưc xây d ng ch y u d a trên t n s xu t hi n đng th i c a các thu t ng trong m u tìm và l nh tìm. 14
  15. CH ƯƠ NG 2 H TH NG CƠNG C X LÝ NG NGH ĨA TRONG CÁC H TH NG TÌM TIN 2.1. Khái ni m h th ng cơng c x lý ng ngh ĩa H th ng cơng c x lý ng ngh ĩa là t p h p các cơng c ngơn ng -logic và ph ươ ng pháp đưc s d ng đ x lý, trình bày, t ch c và tìm ki m thơng tin trong h th ng tìm tin. H th ng cơng c x lý ng ngh ĩa bao g m các thành ph n sau: - Ngơn ng tìm tin: + T vng và cú pháp c a ngơn ng tìm tin; + Các cơng c trình bày tĩm t t n i dung: t đin, t đin t chu n, khung đ mc, bng phân lo i - Các cơng c bo đm s th ng nh t gi a các ngơn ng khác nhau: + Bng tra t ươ ng thích + Bng tra chuy n đ i + Các qui đnh - Các cơng c th c hi n qui trình x lý và tìm tin: + Các phươ ng pháp đánh ch s; + Các thu t tốn đánh ch s t đng; + Các cơng c tìm ki m: ngơn ng th hi n yêu c u tin; các cơng c t đng g i các yêu c u tin đn các CSDL; các ngơn ng lnh th ng nh t - Các tiêu chu n phù hp ý ngh ĩa - Các chu n mơ t d li u (mã hố ) - Các cơng c h tr x lý văn b n v i ngơn ng t nhiên: + Các cơng c x lý cú pháp d li u dng v ăn b n; + Các cơng c ng ngh ĩa và thu t tốn phân lo i t đng tài li u; + Các cơng c ng ngh ĩa và thu t tốn l p bi u th c tìm tin t đng; + Các cơng c tìm l i t đng - Các cơng c h tr đm b o ng ngh ĩa + Các tài li u h ưng d n th c hi n + Qui trình l p và qu n tr t vng trên máy tính; 2.2. Ngơn ng tìm tin 2.2.1. Khái ni m ngơn ng tìm tin Ngơn ng tìm tin là ngơn ng nhân t o đưc dùng đ mơ t ni dung tài li u ho c yêu c u tin và đ tìm tin [8] 15
  16. Ngơn ng tìm tin đưc xây d ng đ kh c ph c các h n ch ca ngơn ng t nhiên trong vi c di n đt thơng tin và tìm ki m thơng tin, bao g m: - Cĩ nhi u ngơn ng t nhiên và mi ngơn ng đu cĩ vn t vng r t l n, trong đĩ cĩ nhi u t khơng th s dng đ x lý tài li u và tìm tin; - Ngơn ng t nhiên cĩ nhi u lo i t và các lo i t cĩ giá tr thơng tin khác nhau; - Cĩ nhi u t đng ngh ĩa, t đng âm và ý ngh ĩa c a các t cĩ th thay đi theo ng cnh; Nh ng h n ch nêu trên cĩ th đn đn tình tr ng v a th a va thi u khi s dng ngơn ng t nhiên đ x lý và tìm thơng tin. ð kh c ph c các h n ch trên, ngơn ng tìm tin ph i đáp ng các yêu c u sau: - Quan h ng ngh ĩa m t-mt: mi khái ni m ph i đưc bi u đt b ng m t thu t ng và ng ưc l i, mt thu t ng ph i bi u đt mt và ch mt khái ni m. - Cú pháp đưc xây d ng ch t ch và nh t quán: ch cĩ mt cách bi u đt các khái ni m - Cĩ lc ng ngh ĩa m nh: Lc ng ngh ĩa c a ngơn ng tìm tin là kh n ăng ph n ánh chính xác và đy đ n i dung c a tài li u và yêu c u tin. - Bo đm tính khách quan ca ng ưi s dng: Ch di n đ t đ c tr ưng khách quan c a các s v t, hi n t ưng và các m i t ươ ng quan gi a chúng. - Tính m : b o đm kh năng ch nh s a và b sung ngơn ng . Ngơn ng tìm tin đưc xây d ng d a trên hai thành ph n cơ b n là t v ng và cú pháp. T v ng ca ngơn ng tìm tin là t p h p các đơ n v t v ng (hay cịn g i là y u t t v ng) đưc s d ng đ mơ t ni dung tài li u và/ho c yêu c u tin. ðơ n v t vng là các t ho c ký hi u đưc s dng đ di n đt các khái ni m. Mi đơn v t v ng di n đ t m t khái ni m. T vng là thành ph n chính c a các ngơn ng tìm tin và đĩng vai trị rt quan tr ng đi v i các chuyên gia thơng tin - th ư vi n và ng ưi dùng tin trong vi c x lý tài li u và tìm thơng tin. Cú pháp c a ngơn ng tìm tin là t p h p các m i quan h gi a các đơn v t v ng, các qui t c bi u th các m i quan h đĩ và các qui t c s d ng các đơn v t v ng đ mơ t thơng tin. 2.2.2. Các lo i ngơn ng tìm tin (NNTT) Da vào c u trúc t vng và qui t c s dng, cĩ th chia NNTT thành hai lo i là NNTT ti n k t h p và NNTT h u k t h p. Ngơn ng tìm tin ti n k t h p là ngơn ng cĩ cu trúc t vng và qui t c s dng cho phép đánh ch s tài li u b ng cách s dng các đơ n v t vng cĩ sn ho c k t hp các đơ n v t vng đơ n gi n v i nhau theo m t tr t t nh t đnh đ di n t các khái ni m ph c t p. Vi NNTT ti n k t h p, vi c k t h p các đơ n v t vng đưc th c hi n trong quá trình đánh ch s tài li u. 16
  17. Cĩ hai lo i NNTT ti n k t h p là ngơn ng phân lo i và ngơn ng đ m c ch đ . ðc tr ưng chính c a các NNTT ti n k t h p là t v ng cĩ c u trúc phân cp m t cách h th ng và th ưng d ng m t danh m c đưc đnh s n vi các đơn v t v ng là các t, cm t ho c mã s. Khi đánh ch s tài li u, ng ưi x lý tài li u cĩ th s d ng các đơ n v t vng cĩ s n ho c k t h p các đơn v t v ng v i nhau theo nh ng qui t c nh t đ nh đ di n t các khái ni m ph c t p. Vi c u trúc này, NNTT ti n k t h p cĩ ưu đim là t v ng cĩ tính h th ng và tính chính xác cao vì các đơ n v t v ng đã đưc n đ nh m t cách rõ ràng. Nh ưc đim c a NNTT ti n h p là khĩ c p nh t, b sung các khái ni m m i cho t v ng do ph i ph thu c vào c u trúc c a h th ng cĩ sn. M t nh ưc đim khác c a NNTT ti n k t h p là khĩ s d ng đ i v i ng ưi dùng tin nĩi chung vì khi tìm tin ng ưi dùng tin khơng th t k t h p các đơn v t v ng đ di n t các khái ni m theo ý mình mà ph i hồn tồn ph thu c vào k t qu đánh ch s cĩ s n. Vì v y, hi u qu tìm tin cĩ th b h n ch n u ch t l ưng đánh ch s khơng đm b o và/ho c ng ưi dùng tin khơng n m v ng c u trúc t v ng c a NNTT đưc s d ng đ đánh ch s tài li u. Ngơn ng tìm tin h u k t h p là ngơn ng cĩ cu trúc t vng và qui t c s dng cho phép đánh ch s tài li u b ng cách s dng các đơ n v t vng cĩ sn đ di n t các khái ni m đơ n gi n và ch cĩ th kt h p các đơ n v t vng này v i nhau khi tìm tin. Nh ư vy, v i NNTT h u k t h p, vi c k t h p các đơ n v t vng ch đưc th c hi n trong quá trình tìm tin, sau khi tài li u đã đưc đánh ch s. NNTT h u k t h p cĩ ưu đim là t v ng cĩ c u trúc mm d o, d b sung các đơn v t v ng đ mơ t các khái ni m m i. M t khác, NNTT h u k t h p d s dng đi vi ng ưi dùng tin nĩi chung vì cú pháp cho phép ng ưi dùng tin t kt h p các đơ n v t vng m t cách linh ho t khi tìm tin. Nh ưc đim c a NNTT h u k t h p là hi u qu tìm tin cĩ th b hn ch nu ng ưi tìm tin khơng n m v ng chi n l ưc ho c k thu t tìm tin. 2.2.3. Ngơn ng phân lo i 2.2.3.1. Các khái ni m c ơ b n Ngơn ng phân lo i là ngơn ng tìm tin chuyên d ng cho phép ng ưi s dng ti p cn tài li u theo l ĩnh v c tri th c đưc th hi n trong n i dung tài li u. Ngơn ng phân lo i đưc s dng đ phân lo i tài li u. Phân lo i tài li u là s phân chia các tài li u thành nhĩm theo các du hi u nh t đnh nh ư lĩnh v c tri th c, v n đ, đi t ưng ho c theo các d u hi u hình th c. Vi c phân lo i đưc th c hi n d a trên s phân chia các khái ni m. D u hi u đưc s dng đ th c hi n vi c phân chia các khái ni m đưc g i là cơ s phân lo i. Các du hi u này cĩ th khác nhau trong các khung phân lo i khác nhau. Khung phân lo i, cịn g i là h th ng phân lo i, là danh m c các đ mc và các mã s hay kí hi u tươ ng ng ph n ánh c u trúc cp b c c a m t h th ng phân lo i khoa hc. Mi đ mc trong khung phân lo i cĩ mt v trí xác đnh và đưc bi u di n b ng mt mã s. Mã s cĩ th là s, ch cái ho c k t h p gi a s và ch cái. Mã s đưc s dng thay th cho đ mc trong x lý tài li u và trong nh ng cơng đon khác. Ngồi ra, m i khung phân lo i cịn s dng m t h th ng các ký hi u đ làm rõ thêm 17
  18. ý ngh ĩa c a các mã s ho c đ kt h p các mã s nh m m rng kh năng di n t thơng tin. Khung phân lo i ph i tuân theo các nguyên t c hình th c nh ư sau: - Cơ s phân lo i ph i đng nh t trong m t khung phân lo i; - Các l p con ph i lo i tr ln nhau; - Các l p con ph i cân đi; - Các l p con ph i liên t c, khơng đưc gián đon. Ngơn ng phân lo i là ngơn ng ti n k t h p vì cu trúc khung phân lo i và qui t c s dng cho phép ng ưi đánh ch s s dng các đơ n v t vng cĩ sn ho c k t h p các đơ n v t vng v i nhau đ mơ t ni dung tài li u. 2.2.3.2. Khung phân lo i phân c p Quan h cơ bn gi a các l p phân lo i là quan h phân c p và cùng tr c thu c. Quan h phân c p là quan h trong đĩ mt l p là lp con c a m t m t l p khác r ng hơn. Cùng tr c thuc là quan h gi a các l p con c a m t l p r ng h ơn. Gi s K là mt l p và đưc chia thành các l p con k1, k 2, k 3, kn da trên m t c ơ s phân lo i nào đĩ. Quan h gi a l p K và lp con ki là quan h phân c p, cịn quan h gi a các l p con k1, k 2, k 3, k n là quan h cùng tr c thu c. Cĩ th phân bi t hai lo i quan h phân c p là quan h phân c p mnh và quan h phân c p yu. Trong quan h phân c p mnh m i l p ch tr c thu c mơt m t l p r ng hơn. Trong quan h phân c p y u m i l p tr c thu c nhi u l p r ng h ơn. Khung phân lo i ch ch a quan h phân c p m nh và quan h cùng tr c thu c đưc gi là khung phân lo i phân c p. Hình th c th hi n đơ n gi n nh t c a các khung phân lo i phân c p là các sơ đ hình cây, bao g m các đim ( đưc g i là đnh) và các đon n i m t s đnh vi nhau. Trong hình 2.1 là sơ đ hình cây th hi n c u trúc c a khung phân lo i phân c p. 1 1.1 1.2 1.3 1.1.1 1.1.2 1.1.3 1.2.1 1.2.2 1.2.3 1.3.1 1.3.2 1.3.3 Hình 2.1 . Sơ đ c u trúc khung phân lo i phân c p Khung phân lo i phân c p cĩ các ưu đim nh ư sau: - Thích h p v i các h th ng m c l c th cơng. Khơng c n các ph ươ ng ti n, thi t b đc bi t đ xây d ng và s dng các m c l c; 18
  19. - Cho phép tìm tin theo ch đ trong các h th ng mc l c th cơng m t cách nhanh chĩng và r; - Tn ít chi phí lao đng cho vi c đánh ch s hơn so vi đánh ch s bng khung phân lo i theo di n và đnh ch đ; - Các l p trong khung phân lo i phân c p đưc đánh s bng ch s rp và ch cái La tinh nên d hi u đi v i các chuyên gia nhi u n ưc khác nhau. ðiu này làm cho khung phân lo i phân c p tr nên ph bi n trên tồn th gi i. Bên c nh đĩ, khung phân lo i phân c p cũng cĩ các nh ưc đim nh ư sau: - Khơng cĩ kh năng đánh ch s đa ph ươ ng di n; - Khơng thích h p cho vi c tìm tin theo ch đ hp; - Do m c đ phân chia các khái ni m khơng đ sâu nên trong khung phân lo i cĩ th thi u các lp cho nh ng n i dung chuyên sâu; - Cơ ch cp nh t khơng thu n ti n nên khung phân lo i phân c p khơng ph n ánh k p th i s phát tri n khoa h c và k thu t. 2.2.3.3.Khung phân lo i theo di n Cơ s ca khung phân lo i theo di n là nguyên t c phân lo i cùng m t t p h p các s vt và hi n t ưng theo nhi u d u hi u khác nhau. C th là thay vì xây d ng m t cây tri th c t ng h p, cĩ th xây d ng m t s cây nh hơn cho cùng m t t p h p các đi t ưng. Cơ s phân lo i là di n c a các v n đ (facet). Mi di n bao hàm tồn b các ý ngh ĩa t ươ ng đươ ng c a d u hi u phân lo i nh t đnh. Ch ng h n, các thu t ng ch các lo i v t li u khác nhau đưc t p h p trong di n “V t ch t”, cịn t p h p các thu t ng ch th i gian ca các s ki n, hi n t ưng s to thành di n “Th i gian”. Mi thu t ng ca di n đưc g i là tiêu đim (focus) và đưc bi u th bng m t mã s đ thu n ti n cho vi c phân lo i. Các ưu đim chính c a khung phân lo i theo di n bao g m: - Cĩ kh năng đánh ch s đa ph ươ ng di n; - Cĩ kh năng t p h p vào m t ch tt c các ph ươ ng di n c a m t đ tài ho c m t đi t ưng. - Phân chia các khái ni m mc đ sâu; - D cp nh t các thu t ng mi h ơn so v i khung phân lo i phân c p; - Ký hi u phân lo i ng n g n h ơn so v i ký hi u trong các khung phân lo i phân c p. Nh ưc đim chính c a khung phân lo i theo di n là khĩ xây d ng và khĩ b sung vào khung phân lo i theo chuyên ngành h p các thu t ng liên ngành m i. 2.2.3.4. Các khung phân lo i tiêu bi u Khung phân lo i th p phân Dewey (Dewey Decimal Classification – DDC) Khung phân lo i DDC do nhà th ư vi n h c ng ưi M là Melvin Dewey (1851- 1931) xây d ng và đưc xu t b n l n đu vào n ăm 1876. Khung phân lo i DDC là khung phân lo i phân c p vi 10 l p chính, kí hi u b ng 3 ch s rp t 000-900 và xp theo th t nh ư sau: 19
  20. 000 T ng h p 100 Tri t h c và các khoa hc liên quan 200 Tơn giáo 300 Khoa h c xã hi 400 Ngơn ng 500 Khoa h c t nhiên 600 Khoa h c ng d ng 700 Ngh thu t 800 V ăn h c 900 Lch s và đa lý Mi l p chính l i đưc chia thành 10 l p con và mi l p con l i đưc chia thành 10 lp nh ti p theo. Ví d, l p 500 đưc chia thành các l p nh hơn nh ư sau: 500 Khoa h c t nhiên 510 Tốn h c 520 Thiên v ăn h c và khoa h c liên quan 590 ðng v t h c Lp 510 l i đưc chia thành các l p nh nh ư sau: 510 Tốn h c 511 S hc 512 ði s 513 Hình h c . 519 Xác su t và tốn h c ng d ng Khung DDC cĩ các b ng ph nh m m c đích m rng ký hi u các l p trong b ng chính, giúp cho vi c s dng khung phân lo i linh ho t và hi u qu . Các b ng ph ch đưc s dng đ ph i h p v i b ng chính, khơng đưc s dng đc l p. Khung phân lo i DDC đưc c p nh t t ươ ng đi th ưng xuyên và đưc s dng ph bi n trong các th ư vi n t i nhi u n ưc trên th gi i. Khung phân lo i th p phân bách khoa (Universal Decimal Classification -UDC) Khung phân lo i UDC đưc xây d ng d a trên c ơ s khung phân loi DDC và đưc xu t b n ln đu vào n ăm 1905. Khung phân lo i UDC gi li h u h t các l p ca khung DDC, riêng n i dung l p 4-Ngơn ng đưc đư a vào l p 8, cịn l p 4 vn b tr ng. Các l p c ơ bn đưc th hi n b ng kí hi u s t 0 đn 9. Các b ng ph đưc m rng và phát tri n đ b sung cho b ng chính. Các d u đưc s dng làm ký hi u cũng đưc m rng nh m h tr cho vi c phân lo i các tài li u cĩ ni dung ph c t p. Các l p trong b ng chính c a UDC bao g m: 0 Nh ng v n đ chung 1 Tri t h c 2 Tơn giáo 20
  21. 3 Các khoa h c xã hi 4 ( ð tr ng) 5 Tốn h c. Khoa h c t nhiên 6 Khoa h c ng d ng. K thu t. Y h c 7 Ngh thu t. Th thao 8 Ngơn ng . V ăn h c 9 ða lý. L ch s . Ti u s nhân v t UDC cĩ hai lo i b ng ph là các b ng tr ký hi u chung và các b ng tr ký hi u chuyên ngành. M i b ng tr ký hi u cĩ du hi u nh n d ng riêng và đưc s dng đ ghép n i v i ký hi u c a b ng chính. UDC s dng các d u ký hi u t ươ ng đi ph c t p đ kt h p các ký hi u v i nhau, t o thành các ký hi u ph c h p đ ph n ánh nh ng khái ni m ph c t p. UDC đưc c p nh t th ưng xuyên. Tuy nhiên, UDC cĩ nh h ưng khơng l n b ng DDC đi v i các n ưc châu Âu và M. Khung phân lo i Th ư vi n Qu c h i M (Library of Congress Classification – LCC) Khung phân lo i th ư vi n Qu c h i M đưc xây dng đu th k 20, d a trên khung phân lo i m rng c a Cutter (Cutter’s Expansive Classification). Khung phân lo i LCC cĩ 21 l p c ơ bn. Khung phân lo i này khơng cĩ các b ng ph đc l p. M i l p c ơ bn cĩ kèm theo b ng ph và bng tra c u. Các l p c ơ bn c a khung phân lo i LCC bao g m: A Các cơng trình chung B Tri t h c. Tâm lý hc. Tơn giáo C. Các khoa h c ph tr cho l ch s D L ch s : l ch s nĩi chung và lch s th gi i c đi E-F L ch s nưc M G ða lý. B n đ. Nhân lo i h c. H Các khoa h c xã hi J Khoa h c chính tr K Lu t pháp L Giáo d c M Âm nh c N M thu t P Ngơn ng và văn h c Q Khoa h c R Y h c S Nơng nghi p T K thu t U Quân s V Hàng h i Z Th ư m c. Th ư vi n h c Khung LCC s d ng ch cái La tinh cho các ký hi u c ơ b n b c phân chia th nh t, th hai và s d ng ch s r p b c th ba ho c th t ư tr đi. Ví d : 21
  22. Q Khoa h c QA Tốn h c QA101 S h c QA152 ði s QA 445 Hình h c Khung phân lo i hai chm (Colon Classification – CC) Năm 1933, nhà th ư vi n h c ng ưi n đ S.R. Ranganathan đưa ra khung phân lo i hai ch m (CC) da trên nguyên t c “k t h p” và s d ng t din (Facet) nh ư m t thu t ng ch các thành ph n khác nhau c a m t ký hi u phân lo i. Raganathan đư a ra 5 di n cơ b n cĩ th s d ng đ th hi n các khía c nh ca m t đ i tưng: đc tính (Personality, ngh ĩa là v n đ tr ng tâm ho c đ c tr ưng nh t); v t ch t (Matter); n ăng l ưng (Energy, ngh ĩa là m t ho t đ ng, thao tác ho c quá trình); khơng gian (Space) và th i gian (Time). Bn khái ni m cu i cùng là nh ng khái ni m c ơ b n đi v i t t c các ngành khoa h c và l ĩnh v c tri th c, cịn khái ni m đ u tiên - đc tính là tính ch t v n cĩ c a t ng đ i t ưng và là tính ch t t o nên s khác bi t gi a các hi n tưng và s v t. Các l p c ơ b n c a c a khung phân lo i hai ch m bao g m: A Khoa h c (nh ng v n đ chung) B Tốn h c C V t lý D K thu t E Hĩa h c F Cơng ngh G Khoa h c t nhiên (nhng v n đ chung) và sinh h c H ða ch t I Th c v t h c J Nơng nghi p K ðng v t h c L Y h c M Ngh th cơng N Ngh thu t O V ăn h c P Ngơn ng Q Tơn giáo R Tri t h c S Tâm lý h c T Giáo d c U ða lý V L ch s W Chính tr X Kinh t h c Y Xã h i h c Z Lu t pháp 22
  23. ∆ Thuy t duy linh và khoa h c th n bí Trong khung phân loi hai ch m cĩ ch a các b ng đ m c chia theo di n và tiêu đim. Bng đ m c theo di n là t p h p nhi u tiêu đim. Các b ng đ m c này đưc in cùng vi các l p c a b ng chính và đưc dùng đ m r ng ho c chi ti t hĩa các đ m c trong bng chính. Các b ng đ m c theo di n đưc chia theo năm di n cơ b n là đc tính, v t ch t, n ăng l ưng, khơng gian, th i gian. Ranganathan đưa ra cơng th c di n đ xây d ng ký hi u phân lo i PMETS – là 5 ch cái đ u tiên c a các t ti ng Anh ch 5 di n (P- Personality, M- Matter, E- Energy, S- Space, T-Time). Các d u qui đ nh trong cơng th c PMETS là d u ch m ph y (;) tr ưc M, d u hai ch m (:) tr ưc E, d u ch m (.) tr ưc S, du l ưc (‘) tr ưc T. Mc dù khơng đưc áp d ng ph bi n nh ưng khung phân lo i hai ch m cĩ ý ngh ĩa r t ln. Nguyên t c phân lo i theo di n mà khung phân lo i hai ch m s d ng đưc xem nh ư mt b ưc ti n l n trong lý thuy t phân lo i và đưc áp d ng trong vi c xây d ng các ngơn ng tìm tin d ng t khĩa. Tt c các khung phân lo i đưc đ c p trên đây cĩ các nh ưc đim chính nh ư sau: - Khơng cĩ kh n ăng đ m b o đánh ch s đa di n m t cách t do; - Khơng cĩ kh n ăng xây d ng các l p khái ni m m i và h p m t cách d dàng b ng ph ươ ng pháp k t h p; - Phân chia các l p khơng đ sâu; - T v ng th ưng l c h u so v i thc t . 2.2.4. Ngơn ng tìm tin t khĩa 2.2.4.1. Mt s khái ni m T khĩa là t ho c c m t n đ nh, đơn ngh ĩa đưc s d ng đ mơ t n i dung chính ca tài li u và đ tìm tin. Ngơn ng t khĩa là ngơn ng tìm tin h u k t h p cĩ t v ng đưc c u thành t các đơ n v t v ng là t khĩa d a trên ngơn ng t nhiên, đưc s d ng đ x lý tài li u và yêu c u tin. Ngơn ng t khĩa cĩ các ưu đim chính nh ư sau: - Cho phép k t h p các đơn v t v ng m t cách linh ho t - D s dng - Cu trúc t vng m m d o, d cp nh t, b sung t vng đ mơ t các khái ni m mi hơn so v i các khung phân lo i Các nhưc đim chính c a ngơn ng t khĩa bao g m: - Ph m vi áp d ng h p: Cĩ kh n ăng áp d ng ch trong các h th ng tìm tin t đ ng hĩa ho c bán t đ ng; - Hi u qu tìm tin cĩ th b hn ch do đ nhi u tin ho c m t tin n u ng ưi s d ng khơng n m v ng cách k t h p các đơn v t vng. Cĩ hai lo i t khĩa là t khĩa t do và t khĩa ki m sốt. T khĩa t do là t khĩa đưc l a ch n t ngơn ng t nhiên theo quan đim c a ng ưi x lý thơng tin. T khĩa ki m sốt là t khĩa đưc ki m tra b ng m t ph ươ ng ti n ki m sốt t vng, đưc dùng đ qui ưc th ng nh t cách dùng t trong quá trình đnh t khĩa. 23
  24. T chu n là các t khĩa qui ưc đưc ch n l c t t v ng c a m t ngơn ng t nhiên nào đĩ theo nh ng qui t c nh t đ nh, đưc s d ng đ x lý n i dung tài li u và yêu c u tin. 2.2.4.2. Các ph ươ ng ti n ki m sốt t khĩa B t khĩ a B t khĩa là t p h p các t khĩa đưc qui ưc đ mơ t n i dung tài li u. Da vào các l ĩnh v c bao quát, cĩ th chia thành hai lo i b t khĩa là đa ngành và chuyên ngành. B t khĩa qui ưc cĩ các ưu đim chính nh ư sau: - Cĩ tính th ng nh t cao trong cách dùng t , tránh đưc hi n t ưng đ ng ngh ĩa, đa ngh ĩa. - D s d ng - D xây d ng và b sung các t khĩa m i T đin t chu n (T ðTC) T đin t chu n (thesaurus) là t đin g m các t chu n, t đ ng ngh ĩa và h th ng ch d n tham chi u các quan h ng ngh ĩa quan tr ng nh t gi a các t chu n. TðTC đưc b t đ u xây d ng trong các l ĩnh v c khoa h c và cơng ngh vào nh ng năm 1960. Trong nh ng n ăm 1960-1980, T ðTC ch y u đưc áp d ng nh ư m t ph ươ ng ti n ki m sốt t v ng trong vi c đánh ch s và tìm tin trong các CSDL tr c tuy n. T nh ng n ăm 1980, T ðTC b t đ u đưc áp d ng trong các l ĩnh v c khác. TðTC cĩ các đc tr ưng c ơ b n sau: - TðTC đưc xây d ng theo nguyên t c t h p, trong đĩ tp h p tri th c thu c m t l ĩnh v c đưc phân tích thành các khái ni m. M i khái ni m đưc th hi n b ng các thu t ng và vi c k t h p các thu t ng này theo nh ng cách khác nhau cho phép di n t các khía c nh c a ni dung tài li u. - TðTC cĩ tính ch t chuyên ngành và th ưng đưc xây d ng cho m t l ĩnh vc tri th c nh t đ nh; - TðTC cĩ c u trúc linh ho t. TðTC li t kê các t chu n, các t khơng ph i t chu n và th hi n rõ ràng các quan h ng ngh ĩa gi a các thu t ng . Các quan h ng ngh ĩa trong T ðTC Trong T ðTC các khái ni m đưc th hi n b ng các thu t ng ưu tiên ho c khơng ưu tiên. Các thu t ng ưu tiên đưc s d ng đ đánh ch s và tìm tin, cịn các thu t ng khơng ưu tiên th c hi n ch c n ăng nh ư nhng d n nh p đ n các thu t ng ưu tiên. Vi c xác đ nh và th hi n các quan h ng ngh ĩa chính gi a các thu t ng cĩ ý ngh ĩa đ c bi t quan tr ng đ i v i vi c xây d ng T ðTC. Các quan h ng ngh ĩa chính trong T ðTC là quan h t ươ ng đươ ng, phân c p và liên đi. Các quan h này đưc th hi n b ng h th ng các ch d n nh ư BT (Broader Term), NT (Narrower Term), RT (Related Term), SN (Scope Note), UF (Use For), USE (Use). Ví d : 24
  25. MAINTENANCE BT Maintainability (Engineering) RT Repairing NT Grounds maintenance Quan h t ươ ng đươ ng Quan h t ươ ng đươ ng là quan h gi a các thu t ng ưu tiên và khơng ưu tiên trong TðTC. Quan h này đưc t h hi n b ng ch d n USE (ch d n s d ng cho các thu t ng ưu tiên) và UF (Use For, ch d n s d ng cho thu t ng khơng ưu tiên) Ví d : Preventive maintenance USE MAINTENANCE Upkeep USE MAINTENANCE MAINTENANCE UF Preventive maintenance Upke ep Quan h phân c p Quan h phân c p là quan h c ơ b n trong T ðTC. Ch d n BT ( Broader Term) ch thu t ng r ng h ơn và NT (Narrower Term) ch thu t ng h p h ơn. Ví d : CAPITAL MARKETS BT Financial markets FINANCIAL MARKETS NT Capital markets Quan h liên đi Quan h liên đi gi a các thu t ng là quan h t ươ ng h và đưc th hi n b ng ch d n RT (Related Term) Ví d : MAINTENANCE RT Repairing Mt ch d n h u ích khác trong T ðTC là chú gi i - SN (Scope Note), đưc dùng đ xác đnh ph m vi s d ng ca mt t chu n ho c đ làm rõ m t thu t ng m ơ h . Các chú gi i khơng nh t thi t ph i là các đnh ngh ĩa chính xác nh ư trong t đin mà cĩ th tươ ng t nh ư nh ng mơ t ng n g n v ý ngh ĩa c a các thu t ng ho c ph m vi s d ng các thu t ng này. Ví d : CULTURAL BACKGROUND 25
  26. SN: The total social heritage and experience of an individual or group including institutions, folkways, literature, mores, and communal experience. Trình bày các thu t ng trong T ðTC Các thu t ng và các quan h ng ngh ĩa gi a chúng trong TðTC cĩ th đưc trình bày theo nhi u cách khác nhau, trong đĩ cĩ ba cách trình bày c ơ bn nh ư sau: - Trình bày theo v n ch cái, v i các chú gi i (SN-Scope Notes) và các quan h đưc xác đnh cho t ng thu t ng - Trình bày mt cách h th ng v i m t b ng tra theo v n ch cái - Trình bày b ng đ th vi m t b ng tra theo v n ch cái. Trình bày theo v n ch cái Tt c các thu t ng , bao g m thu tt ng ưu tiên và khơng ưu tiên, đưc s p x p theo th t ch cái. Các thơng tin khác, nh ư các chú gi i và ch dn đn các thu t ng liên quan, ph i đưc li t kê dưi t ng thu t ng ưu tiên theo th t sau: 1. SN: chú gi i ho c đnh ngh ĩa 2. UF ch dn đn các thu t ng khơng ưu tiên t ươ ng đươ ng 3. TT (Top Term) ch dn đn thu t ng cao nh t 4. BT ch dn đn các thu t ng rng h ơn 5. NT ch dn đn các thu t ng hp h ơn 6. RT ch dn đn các thu t ng liên quan Các thu t ng khơng ưu tiên ch cĩ mt ch dn đi kèm (USE) đ ch đn các thu t ng ưu tiên. Nh ư vy, m t T ðTC dng danh m c xp theo v n ch cái cĩ cách trình bày nh ư sau: PREFERRED TERM (Thu t ng ưu tiên) SN Scope note UF Use for BT Broader term NT Narrower term RT Related term Non-preferred term (Thu t ng khơng ưu tiên) Use PREFERRED TERM Ngồi ra, c ũng cĩ th s dng cách trình bày đa c p nh ư sau: PREFERRED TERM SN Scope note UF Use for BT1 Broader term 1 BT2 Broader term 2 BT3 Broader term 3 NT1 Narrower term 1 NT2 Narrower term 2 26
  27. NT3 Narrower term 3 RT related term Dng T ðTC trình bày theo v n ch cái là dng d xây d ng nh t. Trong hình 2.2. d ưi đây là mt ví d v TðTC trình bày theo v n ch cái. Aerodynes USE HEAVIER-THAN-AIR AIRCRAFT AERONAUTICS SN the design, manufacture and operation of aircraft NT Aviation RT Aircraft AEROPLANES SN fixed-wing powered heavier-than-air aircraft BT Heavier-than-air aircraft NT Freight aeroplanes Jet aeroplanes Passenger aeroplanes Propeller-driven aeroplanes AVIATION SN the operation of heavier-than-air aircraft BT Aeronautics NT Gliding RT Heavier-than-air aircraft HEAVIER-THAN-AIR AIRCRAFT UF Aerodynes BT Aircraft NT Aeroplanes Gliders Helicopters Man-powered heavier-than-air aircraft RT Aviation Hình 2.2. Ví d T ðTC trình bày theo v n ch cái Trình bày m t cách h th ng Mt T ðTC đưc t ch c m t cách h th ng ph i bao g m hai ph n: 1.Các lo i ho c c p b c c a các thu t ng đưc s p x p theo ngh ĩa c a chúng và các quan h ng ngh ĩa. Ph n này đưc xem là ph n chính c a T ðTC. 27
  28. 2.Mt b ng tra theo v n ch cái ch dn ng ưi s dng đn ph n thích h p c a h th ng. Trình bày b ng đ th Cĩ hai cách trình bày chính là sơ đ hình cây và sơ đ mũi tên. Các s ơ đ này khơng trình bày các thu t ng tươ ng đươ ng ho c các chú gi i và khơng phân bi t gi a các quan h phân c p và liên đi. T t c các chi ti t đưc cung c p trong b ng tra theo v n ch cái. Tr ưc đây, ph n l n các T ðTC đưc xu t b n dng in. Hi n nay, TðTC tr c tuy n ngày càng tr nên ph bi n, bao g m các T ðTC đc l p và các T ðTC tích h p trong các CSDL tr c tuy n. Các T ðTC tr c tuy n cĩ th rt khác nhau v cách trình bày và tính ti n l i. Ví d, T ðTC ERIC cĩ nhi u web site khác nhau đ ng ưi s dng truy c p và s dng ( ) 2.2.5. Ngơn ng tìm tin đ m c ch đ (ðMC ð) Ngơn ng ðMC ð là ngơn ng tìm tin cĩ t vng là mt t p h p các t ho c cm t t ngơn ng t nhiên, đưc s dng đ mơ t ni dung tài li u và đ tìm tin. ð mc ch đ là t ho c cm t đưc s dng đ trình bày ch đ ca tài li u ho c yêu c u tin. T vng c a ngơn ng tìm tin ðMC ð là bng đ mc ch đ. Bng đ mc ch đ là tp h p các ðMC ð đưc s p x p theo v n ch cái, đm b o sao cho các khái ni m đưc trình bày rõ ràng và khơng trùng l p. Ngơn ng ðMC ð cĩ các ưu đim chính nh ư sau: - Cu trúc t vng đơ n gi n, d s dng; - Cĩ kh năng áp d ng cho các h th ng tìm tin th cơng và t đng hĩa; - D cp nh t, b sung t vng h ơn so v i các khung phân lo i phân c p; - Cho phép tìm tin theo v n đ. Các nh ưc đim chính c a ngơn ng ðMC ð bao g m: - Khơng cĩ kh năng t p h p và ph n ánh tài li u theo các l ĩnh v c tri th c m t cách h th ng; - Mi b ng ðMC ð s dng m t ngơn ng t nhiên nh t đnh nên khĩ s dng đi v i nh ng ng ưi khơng bi t ngơn ng đĩ; - Bng ðMC ð cĩ nhi u t đng ngh ĩa nên ph i s dng nhi u ch dn và làm cho cu trúc c a các m c l c ho c b ng tra tr nên ph c t p h ơn; - Vi c xây d ng các m c l c và bng tra ch đ địi h i nhi u th i gian và cơng s c. Hi n nay, ngơn ng ðMC ð đưc s dng trong nhi u c ơ quan thơng tin và th ư vi n trên th gi i. D ưi đây là mơ t tĩm l ưc các b ng đ mc ch đ đưc s dng ph bi n trên th gi i. Bng đ m c ch đ c a Th ư vi n qu c h i M (Library of Congress Subject Headings: LCSH) Bng đ mc ch đ ca Th ư vi n Qu c h i M đưc Th ư vi n Qu c h i M biên so n và đưc xu t b n l n đu vào n ăm 1914. Hi n nay, các phiên b n m i d ng in c a 28
  29. Bng ðMC ð ca Th ư vi n qu c h i M đưc xu t b n hàng n ăm. B ng ðMC ð ca th ư vi n Qu c h i M đưc c p nh t liên t c và phiên b n đin t cp nh t đy đ đưc cung cp theo đă ng ký qua Classification Web ( ) và qua các trung tâm th ư mc nh ư OCLC và RLIN. ð h tr cho vi c s dng LCSH, th ư vi n Qu c h i M xu t b n các h ưng d n nh ư sách h ưng d n Subject Cataloging Manual: Subject Headings , Cataloging Service Bulletin (hàng quí). Bng ðMC ð Th ư vi n Qu c h i M đưc s dng ph bi n trong các th ư vi n nhi u lo i hình khác nhau M và nhi u n ưc khác, đc bi t là các n ưc nĩi ti ng Anh. Bng ðMC ð th ư vi n qu c h i M cĩ các ưu đim nh ư: - Cĩ s thay đi đ đáp ng các yêu c u s dng tr c tuy n; - Sn cĩ trên các bi u ghi biên m c t p trung; - Tươ ng đi n đnh do s thay đi di n ra ch m và dn d n. Bên c nh đĩ, B ng ðMC ð Th ư vi n Qu c h i M cĩ các h n ch nh ư: - Cĩ tính v ch ng; - Các nguyên t c và hưng d n s dng ph c t p; Bng đ m c ch đ Sears (Sears List of Subject Headings) Bng ðMC ð Sears đưc xu t b n l n đu vào năm 1923 và ch yu dành cho các th ư vi n t ng h p qui mơ va và nh . B ng ðMC ð Sears khơng ph i là bn rút g n c a b ng ðMC ð ca Thư vi n qu c h i M mc dù chúng cĩ các nguyên t c chung, c u trúc, hình th c và h th ng các ch dn, ch ch rt gi ng nhau. Bng ðMC ð Sears đưc xu t b n dng in và sau vài n ăm l i cĩ mt n b n m i. Bng ðMC ð này c ũng đưc c p nh t liên t c và các b n c p nh t đưc cung c p đnh k ỳ dng đin t . Hi n nay, bng ðMC ð Sears đưc s dng rng rãi trong các th ư vi n tr ưng h c và th ư vi n cơng c ng M và cũng đưc s dng trong các th ư vi n nh nhi u n ưc trên th gi i. Bng ðMC ð Sears cĩ các ưu đim và hn ch tươ ng t bng ðMC ð ca th ư vi n Qu c h i M . Ví d, b ng ðMC ð Sears c ũng cĩ ưu đim là tươ ng đi n đnh và hn ch là tính v ch ng. 2.3. Các qui t c và kh m u mơ t th ư m c 2.3.1. Qui t c mơ t th ư m c qu c t ISBD Qui t c mơ t th ư mc qu c t ISBD (International Standard Bibliographic Description) đưc biên so n vào đu nh ng n ăm 1970. M c đích và ch c n ăng c a ISBD là cung c p m t chu n mơ t các lo i hình tài li u nh m t o điu ki n thu n l i cho vi c trao đi qu c t v thơng tin th ư mc. ISBD chu n hố các y u t cĩ th s dng trong mơ t th ư mc, xác đnh tr t t ca các y u t này c ũng nh ư h th ng các d u phân cách chúng. Cĩ nhi u lo i ISBD dùng đ mơ t các lo i tài li u khác nhau nh ư sau: - ISBD (M) dùng cho sách chuyên kh o 29
  30. - ISBD (S) dùng cho các n ph m đnh k ỳ và ti p t c - ISBD (G) mơ t tài li u nĩi chung - ISBD (NBM) mơ t tài li u khơng ph i d ng sách (Non-book Material) - ISBD (A) mơ t sách c (Antiquarian) - ISBD (PM) mơ t n ph m âm nh c (Printed Music) - ISBD (CP) mơ t các bài trích (Component Parts) - ISBD (CF) mơ t các t p tin ho c CSDL (Computer Files). Hi n nay, ISBD (CF) đưc chuy n đi thành ISBD (ER) đ mơ t các ngu n tài li u đin t (Electronic Resources) ISBD bao g m các vùng mơ t nh ư sau: - Vùng nhan đ và thơng tin v trách nhi m - Vùng thơng tin v ln xu t b n - Vùng thơng tin đc thù - Vùng xu t b n, phát hành - Vùng mơ t vt lý - Vùng tùng th ư - Vùng ph chú - Vùng ch s ISBN, ISSN và điu ki n cĩ đưc tài li u Khi ISBD đưc cơng nh n nh ư mt tiêu chu n qu c t , nhi u c ơ quan biên m c qu c gia đã kt h p ISBD trong các qui t c biên m c qu c gia c a mình. 2.3.2. Qui t c biên m c Anh -M Qui t c biên m c Anh-M (Anglo-American Cataloguing Rules –AACR) đưc biên so n và xu t b n l n đu tiên vào n ăm 1967 (AACR1). Khác v i các qui t c tru c đây, ngồi các qui đnh v hình th c mơ t và tiêu đ, AACR1cịn đư a ra các qui t c mơ t các tài li u khơng ph i d ng sách, báo. Qui t c này phân bi t mơ t chính và mơ t b sung và phân bi t hai hình th c trình bày mơ t là theo tác gi và theo nhan đ. Qui t c AACR2 đưc xu t b n n ăm 1978, cung c p các qui t c mơ t chung cho t t c các lo i hình tài li u. Khác v i cách b cc c a các qui t c biên m c tr ưc đĩ, AACR2 trình bày các qui tc mơ t tr ưc các qui tc la ch n tiêu đ. Qui t c AACR2R đưc ch nh s a n ăm 2002 (Anglo-American Cataloguing Rules, Second Edition, 2002 Revision) cĩ ph n qui t c mơ t tài li u đưc da trên ISBD và ph n qui t c l a ch n tiêu đ da trên các nguyên t c biên m c Paris. Sau chươ ng mơ t chung là các ch ươ ng riêng ph n ánh đc đim mơ t ca t ng lo i hình tài li u riêng bi t. Ví d, Ch ươ ng 8:Các tài li u d ng đ ha, Ch ươ ng 9: Các ngu n tài li u đin t , Ch ươ ng 12: Xu t b n ph m ti p t c AACR2R đư a vào vùng mơ t th nh t m t “ch đnh chung v tài li u” (GMD- General Material Designation) đưc đt trong d u ngo c vuơng, ngay sau nhan đ chính đ ch lo i tài li u đưc mơ t nh ư ngu n tài li u đin t , v ăn b n, phim đin nh Trong ví d: American women artists [[[slide ]]]: the twentieth century , “ [slide ]” là ch đnh chung v tài li u. Trong AACR2R, vùng th ba (vùng thơng tin đc thù) ch đưc s dng cho b n đ, n ph m âm nh c, các t p tin và các xu t b n ph m nhi u k ỳ. 30
  31. AACR2R qui đnh ba mc đ mơ t chi ti t tùy theo nhu c u ho c qui mơ ca th ư vi n s dng nh ưng v n b o đm đúng chu n m c qu c t . 2.3.3. Kh m u MARC Kh m u (format) là hình th c trình bày d li u trên m t bi u ghi đưc c u trúc hĩa. Kh m u MARC (MAchine-Readable Cataloging) là m t cu trúc dành riêng cho các d li u th ư m c đưc đưa vào máy tính đin t . Kh m u MARC đ u tiên đưc Th ư vi n Qu c h i M xây d ng vào n ăm 1968. Vào nh ng n ăm 1970 MARC đưc g i là USMARC đ phân bi t v i h ơn 20 kh m u c a các qu c gia khác nh ư CAN / MARC, UKMARC, RUSMARC, DenMARC Năm 2000, USMARC đưc k t h p v i CAN/MARC t o ra MARC21. MARC21 đưc xây d ng da trên tiêu chu n ANSI Z39.2 (tiêu chu n qu c t là ISO 2909:1996, Information and Documentation – Format for Information Exchange) Cu trúc c a kh m u MARC là c u trúc bi u ghi, trong đĩ các d li u th ư m c đưc sp x p trong các tr ưng. M i bi u ghi c a kh m u MARC bao g m nhi u tr ưng, mi tr ưng cĩ th đưc chia thành nhi u tr ưng con. Mi bi u ghi MARC bao g m các thành ph n c ơ b n là đu bi u, danh m c và các tr ưng d li u. ðu bi u ch a thơng tin c n thi t cho máy tính đ x lý d li u trong bi u ghi, ví d đ dài c a bi u ghi, tr ng thái c a bi u ghi (là m t bi u ghi m i hay m t bi u ghi đưc ch nh s a), lo i hình tài li u đưc mơ t , Danh m c ch a các m c cĩ đ dài c đ nh (12 ký t ) xác đ nh nhãn tr ưng, đ dài và v trí b t đ u c a t ng tr ưng trong bi u ghi. Các tr ưng d li u ch a d li u c th liên quan đn tài li u đưc biên m c. M t s trong các tr ưng này là tr ưng ki m tra cĩ đ dài c đ nh v i thơng tin đưc mã hĩa, cịn ph n l n là các tr ưng cĩ đ dài thay đi. Các tr ưng này th ưng ch a các d li u biên mc truy n thng và c ũng cĩ th ch a thơng tin b sung nh ư mã s c a m t vùng đa lý, mã s th i gian và đa đim c a m t s ki n M i tr ưng cĩ m t nhãn tr ưng b ng s đ nh n d ng d li u th ư m c (ví d , 245 là tr ưng mơ t nhan đ , 260 là tr ưng mơ t thơng tin v xu t b n, phát hành ) 2.4. Ngơn ng mơ t tài li u đin t 2.4.1. Ngơn ng SGML Ngơn ng đánh d u t ng quát chu n - SGML (Standard Generalized Markup Language) đưc cơng nh n nh ư m t tiêu chu n qu c t vào n ăm 1986 (ISO 8879:1986, Information Processing –Text and Office Systems – Standard Generalized Markup Language ). Tiêu chu n này bao g m các qui t c mơ t cu trúc c a tài li u đin t đ cĩ th trao đi qua các mơi tr ưng máy tính khác nhau. SGML c ũng cho phép ng ưi s dng th c hi n các cơng vi c như: - Liên k t các t p v i nhau đ to ra m t tài li u t ng h p; - To các phiên b n khác nhau c a m t tài li u trong m t t p đơ n; 31
  32. - Thêm các chú gi i vào m t t p; - Cung c p thơng tin v các ch ươ ng trình h tr ; SGML yêu c u ng ưi s dng ph i cung c p m t ph n t xác đnh c u trúc c a tài li u đưc x lý (DTD- Document Type Definition). DTD mơ t tng y u t ca tài li u và nh n d ng các m i liên quan gi a các y u t khác nhau trong tài li u. DTD giúp cho các ch ươ ng trình x lý t đng nh n bi t các y u t ca v ăn b n, cách th c trình bày SGML xác đnh d li u theo các y u t và thu c tính. M t thành ph n c th ca m t tài li u nh ư nhan đ, tĩm t t, tên nhà xu t b n đưc xem nh ư mt y u t . M t thu c tính cung c p thơng tin c th v mt y u t . SGML qui đnh các nhãn và du phân cách đ đánh d u các y u t . Các d u phân cách là các ký hi u đưc xác đ nh (ví d . là m t nhãn). Các nhãn th ưng xu t hi n tr ưc ho c sau m t y u t d ng: element (ví d , Jill Smith ). Các giá tr c a thu c tính đưc phân cách b ng “ ” ho c ` ` (ví d , Que pasa? . Các nhãn cĩ th l ng vào nhau, tươ ng t các tr ưng con c a MARC. Mt tài li u SGML bao g m ba ph n nh ư sau: - Khai báo SGML xác đnh b mã ca tài li u, đ dài tên g i c a các y u t và các thơng s cơ bn khác. - Ph n t xác đnh c u trúc tài li u DTD. - Tài li u th c t . 2.4.2. Ngơn ng HTML Ngơn ng đánh d u siêu v ăn b n - HTML (HyperText Markup Language) đưc phát tri n nh m h tr cho vi c t o l p các trang web. HTML đưc xem nh ư mt ngơn ng chung đ xu t b n siêu v ăn b n trên m ng tồn c u. HTML là mt ngơn ng đánh d u c ơ bn cho phép h u nh ư tt c mi ng ưi đu cĩ th to ra trang web. Nĩ cung c p m t c u trúc đơ n gi n đ to l p trang web, h tr hi n th hình nh và cho phép xây d ng các liên kt gi a các tài li u. Ng ưi s dng m t tài li u đưc mã hĩa d ng HTML cĩ th tìm ki m trong chính v ăn n u các liên k t bên trong đưc xây d ng, ho c cĩ th chuy n t văn b n này sang v ăn b n khác v i các liên k t bên ngồi. Ban đu HTML đưc thi t k nh ư mt ngơn ng đ trao đi các tài li u khoa h c và k thu t và thích h p v i ng ưi s dng khơng ph i là chuyên gia t ư li u. Vì vy, HTML kh c ph c tính ph c t p c a SGML b ng cách xác đnh m t t p nh các nhãn c u trúc và ng ngh ĩa thích h p v i vi c t o các tài li u t ươ ng đi đơ n gi n. Bên c nh vi c đơ n gi n hĩa c u trúc tài li u, HTML c ũng h tr các ch c n ăng siêu v ăn b n và đa ph ươ ng ti n. Nh tính đơ n gi n nên ch trong m t th i gian ng n HTML tr nên ph bi n. Nhi u ch ươ ng trình đưc thi t k đ x lý thơng tin trên web v i HTML. 2.4.3. Ngơn ng XML XML (eXtensible Markup Language) là mt ngơn ng đánh d u m rng đưc xây dng đ h tr s dng SGML mnh h ơn trên mng tồn c u. Khi mng tồn c u phát tri n, HTML khĩ đáp ng yêu c u c a nhi u ng d ng c n thi t trên web do nĩ quá đơ n gi n. Nhi u gi i pháp đưc đư a ra đ kh c ph c các h n ch ca HTML và XML là mt trong nh ng gi i pháp đĩ. 32
  33. XML bao g m các qui tc thi t k các kh mu v ăn b n cho phép ng ưi s dng t t ch c cu trúc d li u c a mình. Các thành ph n c a XML t ươ ng t ca SGML, tuy nhiên, XML khơng yêu c u ng ưi s dng cung c p m t DTD nh ư SGML. So v i HTML, XML cĩ nh ng khác bi t nh ư: ng ưi s dng cĩ th t đnh ngh ĩa các nhãn (tag) trong XML, cịn trong HTML thì khơng th ; XML nh m xây d ng c u trúc d li u trong khi các l nh c a HTML nh m trình bày d li u. XML th ưng đưc s dng thay th cho HTML đ tri n khai các ng d ng web chuyên nghi p. H XML là mt t p các mo đun ngày càng phát tri n và cung c p nhi u d ch v hu ích đ th c hi n các thao tác quan tr ng và th ưng xuyên đưc yêu c u. Ví d: - XML 1.0 là mt đc t xác đnh các nhãn và các thu c tính - Xlink mơ t cách b sung các siêu liên ki t vào m t t p XML - XML Schemas 1 and 2 h tr ng ưi s dng xác đnh chính xác c u trúc ca các kh mu d a trên XML c a mình. 2.5.Siêu d li u (metadata) 2.5.1. Khái ni m Cĩ nhi u đ nh ngh ĩa v siêu d li u, t đ nh ngh ĩa đơn gi n nh ư “ Siêu d li u là d li u v d li u” hay “Siêu d li u là d li u mơ t các đ c tr ưng c a ngu n tài nguyên thơng tin” [13] đn nh ng đ nh ngh ĩa ph c t p h ơn và dài h ơn nh ư đnh ngh ĩa ca FOLDOC: Free On-Line Dictionary of Computing ( ): “Siêu d li u là d li u mang tính đnh ngh ĩa và nĩ cung c p thơng tin ho c tài li u v d li u khác đưc qu n lý trong m t ng d ng ho c mơi tr ưng. Siêu d li u cĩ th bao g m thơng tin mơ t v ng c nh, ch t l ưng và điu ki n ho c các đ c tr ưng c a d li u”. Theo đ nh ngh ĩa này, siêu d li u khơng ch bao g m thơng tin mơ t th ưng cĩ trong các h th ng tìm tin truy n th ng, mà cịn bao g m thơng tin c n thi t cho vi c qu n lý, s d ng và b o qu n tài nguyên thơng tin ( ngh ĩa là thơng tin v n ơi l ưu tr tài li u, cách trình bày tài li u, quy n s h u, ch t l ưng và điu ki n ) Tĩm l i, siêu d li u là thu t ng đưc dùng đ ch thơng tin cĩ c u trúc mơ t các đ c tr ưng c a tài nguyên thơng tin nh m m c đích xác đ nh, khai thác và qu n lý tài nguyên thơng tin. Các ch c n ăng chính c a siêu d li u là h tr cho vi c nh n d ng, đ nh v , tìm ki m, x lý và s d ng các đ i t ưng s trong mơi tr ưng m ng. Mc dù thu t ng “siêu d li u” m i xu t hi n g n đây cùng v i s phát tri n c a Internet và các lo i hình tài li u đin t nh ưng trên th c t , siêu d li u đã đưc s d ng t lâu trong ho t đ ng c a các CQTT-TV. Các phi u mơ t th ư m c ch a các d li u mơ t đ i t ưng nên cĩ th đưc xem nh ư m t d ng siêu d li u. Bi u ghi th ư m c cĩ th đưc xem nh ư bi u ghi siêu d li u (metadata record) c a các đ i t ưng đưc qu n lý trong CSDL. Cĩ th phân đ ph c t p c a các h th ng siêu d li u thành ba m c. M c th nh t là kh m u đơn gi n, trong đĩ siêu d li u ch đơn gi n là m t s d li u khơng c u trúc cĩ ngay trong chính ngu n tài nguyên thơng tin. Các cơng c tìm ki m trên Web s d ng các k thu t đánh ch s t đ ng th ưng s d ng siêu d li u m c đ này. M c th hai 33
  34. là kh m u cĩ c u trúc, bao g m các b y u t siêu d li u chính th c đưc xây d ng cho ng ưi s d ng đ i chúng. M c đ này c a siêu d li u cĩ th cĩ m t m u c ơ b n đ t o siêu d li u và khơng yêu c u mơ t m c chuyên nghi p. Các bi u ghi siêu d li u cĩ th đưc t o l p b ng tay ho c t đ ng hĩa. Yu t siêu d li u c t lõi Dublin Core là mt ví d v siêu d li u m c đ này. M c đ th ba là các kh m u đưc s d ng đ đnh v , phân tích, đánh giá Các kh m u này ph c t p và chi ti t h ơn và địi h i ki n th c chuyên sâu đ t o l p và duy trì các bi u ghi siêu d li u. Các th ư vi n, c ơ quan l ưu tr , b o tàng th ưng s d ng các h th ng siêu d li u lo i này. Các chuyên gia thơng tin s d ng các kh m u này đ t o các mơ t đ y đ và chi ti t h ơn. MARC, TEI, EAD là nh ng ví d v siêu d li u m c đ này. Các y u t siêu d li u cĩ th đưc l ưu tr tách bit v i đ i t ưng đưc mơ t ho c cĩ th đưc l ưu tr ngay bên trong tài nguyên thơng tin đưc mơ t . Siêu d li u cĩ th là mt tiêu đ c a tài li u đin t , cĩ th đưc “nhúng” trong m t tài li u đin t ho c cĩ th là m t bi u ghi tách bi t v i tài nguyên thơng tin đưc nĩ mơ t . Các bi u ghi siêu d li u tách bi t cĩ th đưc tp h p trong m t CSDL ho c trong m t t p nh ư m t t p XML ho c cĩ th đưc phân b nhi u v trí khác nhau. Các bi u ghi siêu d li u th ưng dng các bi u ghi tách bi t, đưc mã hĩa, đưc s d ng đ mơ t và thay th cho tài nguyên thơng tin đưc mơ t . Các bi u ghi này đưc l ưu tr trong các cơng c tìm tin đ h tr ng ưi s d ng xem ho c tìm các bi u ghi thay vì tìm ki m t ng tài nguyên thơng tin trong b s ưu t p. Vì siêu d liu th ưng bao g m dng mã hĩa nên thu t ng này ít đưc áp d ng v i các bi u ghi trong các cơng c tìm tin trên gi y nh ư mc l c, th ư mc 2.5.2. S ơ đ siêu d li u ð cĩ th s d ng m t cách hi u qu , siêu d li u ph i đưc chu n hĩa và ki m sốt. Các thành ph n cơ b n c a siêu d li u là s ơ đ và yu t siêu d li u. Các y u t siêu d li u là các lĩnh v c ho c tr ưng riêng bi t ch a các ph n riêng bi t c a mơ t m t tài nguyên thơng tin. Các y u t d li u thơng th ưng bao g m nhan đ , ng ưi t o l p, th i gian t o l p, ch đ S ơ đ siêu d li u là t p h p các y u t siêu d li u đưc thi t k đ đáp ng nhu c u c a các c ng đ ng c th . Ch cĩ m t s s ơ đ t ng h p, cịn ph n ln các s ơ đ đưc thi t k đ mơ t các dng tài nguyên thơng tin c th . Vì vy, cĩ nhi u lo i s ơ đ siêu d li u và chúng khác nhau v s l ưng các y u t d li u, v cách s d ng các y u t b t bu c và l p l i, v cách mã hĩa và v cách s d ng các t v ng đưc ki m sốt. Phn l n các s ơ đ t p trung vào các y u t mơ t đ h tr vi c khai thác tài nguyên thơng tin và m t s s ơ đ ch a các y u t h tr m c đích qu n lý hành chính và c u trúc. Khơng th xây d ng m t s ơ đ d li u hồn h o, phù h p v i t t c đ đáp ng đưc nhu c u đa d ng c a các c ng đ ng khác nhau. Sơ đ d liu cĩ ba đ c tr ưng là (1) c u trúc, (2) cú pháp, và (3) ng ngh ĩa. Cu trúc liên quan đn mơ hình ho c c u trúc d li u (ví d nh ư RDF- Resource Description Framework và METS- Metadata Encoding and Transmission Standard) đưc s d ng đ ch a siêu d li u và cách trình bày siêu d li u. Cu trúc đây liên quan đn c u trúc c a siêu d li u. Khơng nên nh m l n v i “siêu d li u c u trúc” liên quan đn c u trúc c a ngu n tài nguyên đưc mơ t (s đưc đ c p ph n sau trong ch ươ ng này). Cú pháp liên quan đn vi c mã hĩa siêu d li u. ðĩ cĩ th là kh m u MARC cho các bi u ghi th ư 34
  35. mc ho c XML, SGML, DTD cho các lo i khác c a siêu d li u. Ng ngh ĩa ch ý ngh ĩa ca các y u t d li u khác nhau. Ví d , ng ngh ĩa giúp nh ng ng ưi t o l p siêu d li u hi u ý ngh ĩa c a “ph m vi bao quát” hay “th i gian ch nh s a” trong m t s ơ đ nh t đ nh. Ni dung đưc đưa vào các y u t d li u khơng đưc xác đ nh b i ng ngh ĩa c a m t sơ đ siêu d li u mà đưc xác đ nh b i các chu n n i dung và các t v ng đưc ki m sốt. Các chu n n i dung xác đ nh các v n đ nh ư cách nh p ngày tháng trong các y u t siêu d li u. T v ng đưc ki m sốt là danh m c các t trong đĩ m t s thu t ng nào đĩ đưc ch n nh ư nh ng thu t ng ưu tiên và các t đ ng ngh ĩa c a chúng đĩng vai trị nh ư nhng ch d n đ n các thu t ng ưu tiên, do đĩ gi i h n b t các giá tr cĩ th ph i nh p vào m t tr ưng. Các t v ng đưc ki m sốt th ưng đưc s d ng trong các y u t siêu d li u lo i đ i t ưng và yu t siêu d li u liên quan đn ch đ . 2.5.3. Các lo i siêu d li u Cĩ th phân lo i siêu d li u thành ba nhĩm chính là siêu d li u hành chính (Administrative metadata), siêu d li u c u trúc (Structural metadata) và siêu d li u mơ t (Descriptive metadata). Siêu d li u hành chính Siêu d li u hành chính đưc t o l p v i m c đích qu n tr và b o qu n bi u ghi. Nĩ cung c p thơng tin v các yêu c u l ưu tr và các quá trình chuy n đ i các đ i t ưng s . Siêu d li u hành chính h tr vi c qu n lý, x lý và sao l ưu các tài li u s . Siêu d li u hành chính bao gm các thơng tin nh ư: - Thơng tin b sung (ngh ĩa là th i gian và cách t o l p, ch nh s a và/ho c b sung tài nguyên thơng tin) - Thơng tin v ch s h u, b n quy n, gi y phép, các b n sao chép (quy n s d ng tài nguyên thơng tin ca t ch c, các b n sao hi n cĩ và hi n tr ng c a chúng) - Các yêu c u đ i v i vi c truy c p (ai cĩ th s d ng tài nguyên và v i nh ng m c đích gì) - Thơng tin v n ơi l ưu tr (URL, ký hi u x p giá) - Thơng tin s d ng (theo dõi vi c s d ng và ng ưi s d ng) - Thơng tin qu n lý (nh ng tài nguyên đưc s d ng, th i gian s d ng, hình th c s d ng và ng ưi s d ng) - Thơng tin b o qu n: thơng tin t ng h p; t ư li u v điu ki n v t lý; t ư li u v các ho t đ ng c n th c hi n đ b o qu n. Cĩ th phân siêu d li u hành chính thành ba lo i nh h ơn là bo qu n, truy c p và b n quy n và d li u v siêu d li u (meta-metadata.) Siêu d li u c u trúc Siêu d li u c u trúc cung c p thơng tin v thành ph n ho c c u trúc c a tài nguyên thơng tin đưc mơ t nh ư t p tin ho c các tài nguyên thơng tin khác. Siêu d li u c u trúc là thơng tin k thu t c n thi t h tr cho v ic tìm và trình bày tài nguyên đin t . Nĩ mơ t cách các t p quan h liên k t v i nhau và cách đi t ưng đưc hi n th và phân ph i trong các h th ng khác nhau. ðơi lúc, siêu d li u c u trúc đưc xem nh ư siêu d li u k 35
  36. thu t, siêu d li u hi n th ho c siêu d li u s d ng. Siêu d li u c u trúc bao g m các lo i thơng tin sau: - Tài li u v ph n c ng và ph n m m; - Thơng tin k thu t (kích th ưc t p tin, kh m u, các qui t c trình bày, thơng tin v s s p x p, các s ơ đ c u trúc, ) - Ki m sốt phiên b n (các phiên b n hi n t i và hi n tr ng c a tài nguyên thơng tin đưc mơ t ; các hình th c s thay th ) - D li u đ nh n d ng m t ki u c a m t hình nh và xác đnh điu ki n đ xem hình nh đĩ; - Thơng tin v vi c s hĩa (t l nén) - D li u liên quan vi c t o l p hình nh s (th i gian scan, đ phân gi i) - D li u b o m t và th m đ nh quy n (các khĩa mã hĩa, m t kh u) - Các giao th c tìm k t h p (Z39.50, qui t c đánh ch s chung ) Mt s yu t siêu d li u c u trúc cĩ th cĩ trong các tiêu đ c a m t s d ng tp nh ưng trong nhi u tr ưng h p ph i thu th p m t cách th cơng ho c ph i tri n khai các qui trình m i đ thu th p siêu d li u này v i chi phí th p. Siêu d li u mơ t Si êu d li u mơ t là siêu d li u mơ t các đ c tr ưng nh n d ng c a m t tài nguyên thơng tin. Siêu d li u mơ t bao g m các lo i thơng tin sau: - D li u xác đ nh m t tài nguyên thơng tin (nhan đ; tác gi ; th i gian t o lp ho c xu t b n ) - D li u v đim truy c p ( đ m c ch đ ; phân lo i) - D li u v t ch c (ki m sốt tiêu đ chu n; s s p x p cùng v i các tài li u liên quan, các ch đ , ; nh n d ng các m i liên h gi a các th c th ) 2.5.4. Mt s sơ đ siêu d li u ph bi n 2.5.4.1 Dublin Core Dublin Core (vi t t t c a Dublin Core Metadata Element Set - yu t siêu d li u ct lõi Dublin) đưc thi t k nh m t o ra m t b y u t siêu d li u th ng nh t mà ng ưi t o l p m t tài li u đin t b t k ỳ cĩ th s d ng. Nh ng ng ưi tham gia xây dng và phát tri n Dublin Core (DC) là các chuyên gia t nhi u l ĩnh v c khác nhau nh ư các nhà xu t b n, các chuyên gia máy tính, chuyên gia th ư vi n, các nhà s n xu t ph n m m Vì v y, đĩ là m t chu n liên quan đn nhi u l ĩnh v c và cĩ th là c ơ s cho siêu d li u ca mt lo i tài nguyên thơng tin bt k ỳ trong m t l ĩnh v c b t k ỳ. B y u t siêu d li u Dublin Core đưc ban hành thành tiêu chu n NISO Z39.85- 2001. B y u t siêu d li u Dublin Core bao g m 15 y u t ( Mi yu t đưc đ t tên và qui đnh nhãn đ ghi vào trong th meta. M i y u t đưc đ nh ngh ĩa rõ ràng đ mơ t đ i t ưng. Tên và nhãn ca các y u t đưc trình bày trong b ng 2.1. 36
  37. Yu t Nhãn ðnh ngh ĩa 1. Title TITLE Tên c a tài nguyên (Nhan đ) 2. Creator CREATOR Tên c a cá nhân ho c t ch c ch u trách nhi m (Ngu i t o l p) chính v n i dung c a tài nguyên (ví d tác gi , ngh s ĩ, nh c s ĩ ) 3. Subject SUBJECT Ch đ mơ t ni dung tài nguyên; nên s d ng (Ch đ ) các t v ng cĩ ki m sốt và các khung phân lo i chính th c 4. DESCRIPTION Mơ t n i dung tài nguyên. Cĩ th là tĩm t t, Description mc l c n i dung ho c m t đon v ăn b n (Mơ t ) 5. Publisher PUBLISHER Tên c a t ch c ho c cá nhân ch u trách nhi m (Nhà xu t b n) duy trì tài nguyên trên m ng (Ví d nh ư nhà xu t bn, tr ưng đ i h c ho c các khoa thu c tr ưng, ) 6. CONTRIBUTOR Tên c a cá nhân ho c t ch c cĩ đĩng gĩp quan Contributor tr ng vào n i dung tài nguyên (Ng ưi đĩng gĩp) 7.Date DATE Th i gian c a s ki n trong vịng đi c a tài (Th i gian) nguyên nh ư ngày t o l p, ngày ch nh sa Khuy n ngh dùng ISO 8601 (các m u ngày tháng và th i gian), đ c bi t là m u YYY-MM-DD (n ăm-tháng-ngày) 8.Type TYPE Mơ t b n ch t ho c lo i n i dung tài nguyên (Ki u) (ví d nh ư trang ch , báo cáo k thu t, t đin ). Khuy n ngh s d ng thu t ng ca các t vng cĩ ki m sốt 9. Format FORMAT Mơ t cách trình bày v t lý ho c s hĩa c a tài (Kh m u) nguyên, ví d nh ư ki u d li u, ph n m m, ph n cng , c n thi t đ s d ng tài nguyên; Khuy n ngh s d ng thut ng ca t v ng cĩ ki m sốt. 10. IDENTIFIER Là chu i ký t ho c s đ nh n d ng tài nguyên Identifier (ví d nh ư URL ho c ISBN) (ðnh danh) 11. Source SOURCE Thơng tin v ngu n ban đ u, t đĩ tài nguyên (Ngu n) hi n đang mơ t đưc t o ra. 12. LANGUAGE Mơ t ngơn ng chính v ăn ca tài nguyên. Language (Ngơn ng ) 13. Relation RELATION Mơ t tài nguyên liên quan và các m i quan h (Liên quan) ca nĩ v i tài nguyên đang đưc mơ t , ví d nh ư mt tài li u là c ơ s c a tài nguyên đang đưc mơ t. 14. COVERAGE Mơ t ph m vi ho c m c bao quát c a tài Coverage (Bao nguyên (ví d nh ư th i gian, v trí đ a lý ) 37
  38. quát) 15. Rights RIGHT Là m t đon v ăn bn, m t liên k t ho c m t t (Quy n) đnh danh cung c p thơng tin liên quan đn quy n đi v i tài nguyên (ví d nh ư vi c s d ng cĩ h n ch đ n m t th i đim nh t đ nh, th i đim khi tài nguyên s khơng đưc hi n th n a ) Bng 2.1. Các y u t siêu d li u Dublin Core Cĩ nhi u nhĩm ng d ng Dublin Core, ví d nh ư OCLC v i ng d ng trong CSDL WorldCat. Các chuyên gia biên m c s dng h th ng này cĩ th xem và ti v các bi u ghi d ng MARC ho c HTML ho c các ng d ng XML/RDF c a Dublin Core. 2.5.4.2. Các tiêu đ TEI (Text Encoding Initiative – Sáng ki n mã hĩa v ăn b n) Sáng ki n mã hĩa v ăn b n là mt d án qu c t ng d ng SGML (và hi n nay là XML) đ biên so n tài li u đin t . Ban đu TEI là mt ph n t xác đnh c u trúc tài li u c a SGML (SGML.DTD) đưc t o l p nh m cung c p m t ph ươ ng th c mã hĩa các v ăn b n c ũ, tài li u v ăn h c và/ho c tài li u khoa h c đ cĩ th trao đi d dàng các phiên b n đưc mã hĩa. Cĩ th s dng TEI đ to ra các tài li u m i. Ban đu TEI đưc t o l p cho các v ăn b n thu c l ĩnh v c khoa h c nhân v ăn nh ưng sau đĩ lĩnh v c s dng đưc m rng. Các hưng d n c a TEI cung c p m t khung cĩ th s dng đ mơ t nhi u lo i v ăn b n. Tiêu đ TEI (TEI Header) là mt b ph n ca TEI. Tiêu đ TEI cĩ 4 ph n, bao g m: mơ t tp, mơ t mã hĩa, mơ t profile, và mơ t v s ch nh s a. Mơ t tp là ph n bt bu c và ch a m t mơ t th ư mc c a v ăn b n. Mơ t mã hĩa nêu rõ các qui t c ho c qui đnh biên t p đưc s dng trong vi c x lý văn b n (ví d nh ư cách x lý các trích d n và các cách vi t khác nhau). Mơ t profile ch a thơng tin mơ t các ph ươ ng di n mơ t khác nhau c a m t v ăn b n và ch a các đim truy cp b sung. Nĩ cũng ch a thơng tin v ngơn ng , đ mc ch đ và ký hi u phân lo i. Mơ t v s ch nh s a ch a h sơ v tt c mi ch nh s a văn b n, bao g m th i gian ch nh sa và ng ưi ch nh sa. Mu n i dung đưa vào các tr ưng c a tiêu đ khơng đưc qui đnh trong các h ưng dn v tiêu đ TEI. Tuy nhiên, các h ưng d n v tiêu đ TEI đc l p cĩ các y u t bt bu c và tùy ch n và khuy n ngh s dng thơng tin cĩ cu trúc h ơn là thơng tin khơng cĩ cu trúc. 2.5.4.3. S ơ đ mơ t l ưu tr mã hĩa EAD (Encoded Archival Description) EAD là sơ đ mã hĩa đưc Th ư vi n Qu c h i M và Hi l ưu tr M phát tri n vi m c đích h tr to l p các cơng c tìm ki m và mơ t tài li u lưu tr . EAD là chu n đưc s dng ngày càng nhi u trong các c ơ quan l ưu tr và th ư vi n trên th gi i đ mã hĩa d li u mơ t các h sơ ca t ch c và h sơ cá nhân. Ban đu, EAD đưc xây d ng d a trên SGML và vi phiên b n EAD 1.0 đưc đư a ra vào n ăm 1998, EAD c ũng d a trên XML. EAD cĩ cu trúc t ươ ng t tiêu đ TEI, bao g m 145 yu t . EAD th ưng đưc s d ng k t h p v i tiêu chu n mơ t tài li u l ưu tr m i ISAD(G) (General International Standard Archival Description) 38
  39. CH ƯƠ NG 3 T CH C THƠNG TIN TRONG H TH NG TÌM TIN H th ng tìm tin t ư li u là h th ng tìm tin đưc ph bi n r ng rãi nh t trong các CQTT-TV. Vì vy, ch ươ ng này ch yu đ cp đn cách t ch c thơng tin trong các h th ng tìm tin t ư li u. Thành ph n chính c a m t h th ng tìm tin b t k ỳ là các t p tin ch a thơng tin v các th c th đưc ph n ánh trong h th ng. Thc th cĩ th là các đi t ưng (nh ư con ng ưi, t ch c, tài li u, v t li u ) ho c quá trình, hi n t ưng trong th gi i khách quan mà con ng ưi cĩ th nh n d ng và mơ t đưc. Mi m t th c th đưc mơ t bng m t t p h p các thu c tính khác nhau (b thu c tính). Thu c tính là nh ng đc tr ưng, tính ch t ph n ánh n i dung ho c hình th c c a th c th mà con ng ưi cĩ th nh n d ng và trình bày đưc. Mi thuc tính cĩ mt tên và mt/nhi u giá tr ho c n i dung . Ni dung cĩ th t ươ ng đươ ng vi giá tr c a m t thu c tính ho c ch đ c p m t ph n c a giá tr . Giá tr là các ký t ho c b ký t cĩ ý ngh ĩa, đưc s dng đ th hi n ni dung các thu c tính. Ví d, “ðHQG Tp.HCM” là mt giá tr ca thu c tính “Nhà xu t b n” ca tài li u. Trong tr ưng h p mt thu c tính cĩ nhi u giá tr thì giá tr đĩ đưc g i là giá tr lp. Tr ưng h p m t thu c tính cĩ th nh n m t trong hai giá tr (cĩ hai giá tr kh d ĩ ) thì g i là giá tr nh phân. Th c th đưc ph n ánh trong h th ng tìm tin t ư li u là tài li u. Các t p tin trong h th ng tìm tin t ư li u ch a thơng tin v tài li u – là t p h p các giá tr c a các thu c tính hình th c và n i dung c a tài li u. Thu c tính hình th c c a tài li u đưc th hi n bng các yu t nh ư tên tác gi , nhan đ , các y u t xu t b n, d ng tài li u, s ký hi u Thu c tính n i dung ca tài li u đưc th hi n b ng các thu t ng ca ngơn ng tìm tin đưc s dng trong h th ng tìm tin. Tp h p c ác gi á tr ca các thu c t ính ni dung ch ính l à mu t ìm. Quá trình tìm tin trong h th ng tìm tin t ư li u là quá trình so sánh l nh tìm v i m u tìm c a tài li u. Vì v y, các m u tìm c a tài li u trong các t p tin ph i đưc t ch c sao cho vi c so sánh gi a m u tìm và l nh tìm cĩ th th c hi n m t cách d dàng. M t tài li u đưc xem là “tìm đưc” khi m u tìm c a nĩ t ươ ng thích v i l nh tìm đưc nh p vào h th ng. Sau khi tài li u đưc x lý, thơng tin v tài li u đưc t ch c trong các t p tin và đưc l ưu tr trong b nh c a h th ng tìm tin. B nh là m t h th ng v t mang tin đưc s d ng đ ghi l i và l ưu tr thơng tin theo th i gian nh m m c đích tìm kim và cung c p thơng tin theo yêu c u. H th ng này cĩ th là h th ng m c l c truy n th ng, các b phi u l mép, phi u l soi, các thi t b nh nh ư b ăng t , đĩ a t , đĩ a quang Thành ph n c a b nh bao g m các bi u ghi. Bi u ghi c a b nh trong h th ng tìm tin là v t mang tin đưc s d ng đ l ưu tr các y u t thơng tin v tài li u. Bi u ghi c a b nh trong h th ng tìm tin cĩ th là phi u mơ t trong h th ng m c l c th cơng, bi u ghi trong các t p d li u Cĩ hai nguyên t c l ưu tr thơng tin trong h th ng tìm tin t ư li u, bao g m: 39
  40. 1) Lưu tr theo tài li u: mi tài li u tươ ng ng v i m t bi u ghi ch a mu tìm c a tài li u đĩ. 2) Lưu tr theo n i dung c a tài li u: mi thu t ng ca NNTT th hi n ch đ ca tài li u (ví d mt t khĩa/m t ðMC ð) t ươ ng ng vi m t bi u ghi trên đĩ li t kê s ký hi u c a tt c các tài li u cĩ ni dung đ cp đn ch đ đĩ. Nhìn chung, cĩ th cĩ ba cách t ch c các bi u ghi trong b nh ca h th ng tìm tin t ư li u, tươ ng ng v i hai nguyên t c l ưu tr thơng tin nĩi trên nh ư sau: Pi > Di, Pi - -> ai, di - -> ai1 , ai2 , ai3 , , ain Trong đĩ Pi - mu tìm c a tài li u; Di – tài li u ho c b n sao tài li u; ai - s ký hi u/đa ch l ưu tr tài li u ho c b n sao tài li u; di - thu t ng ca NNTT; ai1 , ai2 , ai3 , , ain - các s ký hi u/ đ a ch l ưu tr các tài li u cĩ ch a di trong m u tìm. V b n ch t, hai cách đ u tiên là hai tr ưng h p c a cùng m t s ơ đ t ch c. Vì vy, cĩ th cĩ hai sơ đ t ch c thơng tin trong b nh c a h th ng tìm tin tư li u là sơ đ t ch c tuy n tính và s ơ đ đ o. 3.1.Ma tr n tài li u/thu t ng Cĩ th bi u di n quan h gi a các tài li u và thu t ng trong m u tìm ca tài li u bng ma tr n tài li u/thu t ng (đưc g i là ma tr n t ư li u) Gi A là t p h p các tài li u. D là t p h p các t khĩa th hi n các ch đ c a n i dung các tài li u. A = a 1, a 2, a 3, , a i, , a n , trong đĩ a i là s ký hi u c a tài li u D= d 1, d 2, d 3, , d j, ,d m , trong đĩ d j là t khĩa Mi dịng trong ma tr n t ươ ng ng v i m t s ký hi u c a tài li u a i, mi c t t ươ ng ng v i m t t khĩa d j – là m t thu t ng c a ngơn ng tìm tin đưc s d ng trong h th ng tìm tin. Ta cĩ : 0 n u trong m u tìm c a tài li u a i khơng ch a d j dij = 1 n u trong m u tìm c a tài liu a i ch a d j Nu trong m u tìm c a tài li u a i cĩ ch a t khĩa d j thì t i ơ giao nhau gi a dịng a i và c t d j trong ma tr n s đưc đánh d u X. 40
  41. Từ khóa d1 d2 d3 d4 dj Tài liệu a1 X X X a2 X X a3 XX X X a4 X . . . ai XXX Hình 3.1 Ma tr n t ư li u Nu c t ma tr n trên theo chi u ngang, cĩ th th y đây th hi n nguyên t c l ưu tr theo tài li u - mi tài li u ng v i m t bi u ghi ch a mu tìm g m t p h p các t khĩa th hi n các ch đ c a ni dung tài li u. Ví d : Tài li u v i s kí hi u a 1 cĩ m u tìm ch a các t khĩa d 1, d 4, d j; Tài li u vi s kí hi u a 2 cĩ m u tìm ch a t khĩa d 1,d 3 Tài li u v i s kí hi u a i cĩ m u tìm ch a các t khĩa d 3, d 4,d j Nu c t ma tr n trên theo chi u d c, cĩ th th y đây th hi n nguyên t c l ưu tr theo n i dung tài li u - mi t khĩa th hi n ch đ c a tài li u ng v i m t bi u ghi ch a tp h p các tài li u cĩ n i dung đ c p đ n ch đ đĩ. Ví d : T khĩa d 1 tươ ng ng v i t p h p các tài li u a 1, a 2, a 3 T khĩa d 3 tươ ng t ng v i t p h p các tài li u a 2, a 4, a i T khĩa d j tươ ng ng v i t p h p các tài li u a 1, a 3, a i Nh ư v y, v b n ch t cĩ th xem các t p tin trong h th ng tìm tin tư li u nh ư m t ma tr n tài li u – thu t ng th hi n m i liên quan gi a tài li u và thu t ng . Ma tr n 41