Giáo trình Kỹ thuật số hóa tài liệu

pdf 283 trang hapham 9210
Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình Kỹ thuật số hóa tài liệu", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfgiao_trinh_ky_thuat_so_hoa_tai_lieu.pdf

Nội dung text: Giáo trình Kỹ thuật số hóa tài liệu

  1. GIÁO TRÌNH KỸ THUẬT SỐ HÓA TÀI LIỆU
  2. Mục lục Kỹ thuật số hoá Chương 1: Khái quát lý thuyết Chương 2: Khái quát kỹ thuật Chương 3: Nghiên cứu trường hợp Chương 4: Tạo siêu dữ liệu: từ các ảnh số đến cơ sở dữ liệu của các tư liệu Chương 5: Sử dụng các dịch vụ ảnh Chương 6: Quét ảnh chụp Chương 7: Quét phim Chương 8: Giải pháp kết hợp Chương 9: Duy trì khai thác và tiếp tục bổ sung kiến thức
  3. Chương này sẽ trình bày về những khái niệm và thuật ngữ cơ bản; ảnh hưởng của độ phân giải, số bit và độ nén đến chất lượng ảnh; các đặc tính của văn bản và những yếu tố khác ảnh hưởng đến quá trình chuyển đổi chất lượng và lựa chọn cho quá trình số hoá. Định nghĩa Ảnh số là các "ảnh điện tử" được quét từ các tài liệu gốc. Một ảnh số có thể thể hiện chính xác nội dung, bố cục và cách trình bày của văn bản gốc bao gồm kiểu chữ, chú thích và ảnh minh hoạ. Quá trình quét Một ảnh số được lấy mẫu và vẽ dưới dạng một hệ thống các điểm hay các nguyên tố ảnh được gọi là các pixel. Mỗi pixel thể hiện một đơn vị màu (đen, trắng hoặc các gam màu khác) và về mặt số được biểu diễn dưới dạng các mã nhị phân (mã chỉ gồm các số 0 và/ hoặc 1). Các chữ số nhị phân (bit) trong mỗi pixel được ghi theo một trình tự nhất định trong máy tính, hoặc được rút gọn thành một công thức toán học. Các số nhị phân này sẽ được máy tính dịch và đọc để tạo ra một hình ảnh analog hiện trên màn hình hoặc bản in. Các ảnh số khác với các dạng tệp điện tử khác. Mặc dù cũng được gọi là "ảnh mành" ("raster image") hoặc "ảnh nhị phân" ("bitmapped
  4. image") song ảnh số khác với các ảnh vectơ ở chỗ đồ hoạ của chúng không được thể hiện dưới dạng các đường thẳng và đường cong toán học xác định mà được thể hiện dưới dạng hệ thống các điểm. Ảnh vectơ nhìn chung là có thể được tạo ra với kích cỡ và độ chính xác bất kỳ, còn chất lượng của ảnh số lại phụ thuộc vào độ phân giải được ấn định từ trước khi quét. Khác với các tệp văn bản chữ - số như ASCII, các ảnh số là những tệp "câm" bởi vì thông tin chứa trong đó không thể duyệt hoặc điều chỉnh được. Tuy nhiên, chúng lại có thể được sử dụng làm tệp nguồn để tạo ra các tệp văn bản có thể đọc được thông qua các chương trình nhận dạng chữ quang học (ORC). Độ chính xác của những chương trình như vậy vô cùng khác nhau, tuỳ thuộc vào thuộc tính của nguyên bản và các ảnh số được quét. Tổng hợp các khả năng kỹ thuật Mặc dù kỹ thuật ảnh số đã được biết đến từ khá lâu nhưng nó mới bắt đầu được sử dụng rộng rãi từ thập niên 1990, khi những tiến bộ kỹ thuật cho ra đời những hình ảnh rõ nét hơn, chi phí thấp hơn và khả năng truy cập cao hơn. Các nhân tố đã tạo ra những điều kiện thuận lợi đó là: - Sự phát triển kỳ diệu của máy tính cá nhân - Các hệ thống mạng rộng lớn có tốc độ cao trở nên phổ biến - Chi phí kỹ thuật giảm, đặc biệt là trong việc lưu trữ
  5. - Sự ra đời của các máy quét có độ phân giải cao - Sự xuất hiện của kiến trúc phục vụ khách hàng và mạng quốc tế (World Wide Web) Lợi ích của ảnh số Ảnh số mang những đặc điểm ưu việt hơn hẳn ảnh analog về mặt độ nét, độ chính xác, độ trung thực so với nguyên bản, chi phí bộ nhớ và khai thác Trong lưu trữ + trung thực so với nguyên bản - tương đương với kỹ thuật ánh sáng thấu kính - thay đổi được kích cỡ ảnh - có thể chỉnh sửa ảnh + trung thực trong sao chép - sản phẩm phong phú và có chất lượng - truy cập thông tin liên tục mà không phải bảo quản phương tiện Trong khai thác - có thể nối mạng
  6. - có thể truy cập nhiều ảnh cùng một lúc - có thể tạo ra nhiều ảnh phái sinh - có thể thao tác và sử dụng ảnh - ít tốn kém - tiết kiệm không gian Những mặt hạn chế của ảnh số Mặc dù ảnh số là một kỹ thuật mới đầy hứa hẹn, nhưng vẫn còn có rất nhiều điều bất lợi làm hạn chế khả năng được sử dụng của nó trong công tác thư viện và văn thư hiện nay, bao gồm: - cơ sở kỹ thuật thay đổi nhanh chóng - đang ở giai đoạn giao thời nên phải chấp nhận cả những cái truyền thống và những cái mới - chịu nhiều sức ép về mặt pháp luật, trong đó có luật bản quyền - chưa có các tiêu chuẩn cụ thể - chất lượng và khả năng của các phần cứng, phần mềm rất không đồng nhất - có những yêu cầu cao về sao chép, lưu trữ và di nhập - nhu cầu và khả năng của các cơ sở lưu trữ chưa cao
  7. - thiếu tính ổn định và sự hỗ trợ của các hãng dịch vụ Khi nào vượt qua được những trở ngại này, kỹ thuật ảnh số sẽ bước vào giai đoạn thực nghiệm tại các cơ sở văn hoá. Tuy nhiên, các cơ sở này hiện nay đã có cơ hội để tạo điều kiện phát triển cho kỹ thuật mới này theo hướng đáp ứng được những nhu cầu cụ thể của họ. Sự tăng số lượng thư viện và cơ sở lưu trữ hiện đang giúp kỹ thuật ảnh số tiến đến gần những mục đích hiện nay và trong tương lai. Song vì tiềm lực của các cơ sở còn hạn chế, các dự án đều phải được xây dựng một cách cẩn thận nhằm đảm bảo cho khả năng thành công cao nhất và hạn chế thất bại. Điều này đòi hỏi các cơ sở phải đặt ra những mục tiêu không quá tham vọng, dựa trên cơ sở đã hiểu biết đầy đủ về những thuộc tính của các văn bản sẽ được quét, các thao tác phức tạp của quá trình quét và mọi mặt hữu dụng của ảnh số. Quét ảnh: chuyển từ analog sang số Các thuộc tính của tư liệu Khi quét ảnh số phải tính toán đến các quy trình kỹ thuật liên quan đến việc chuyển từ ảnh analog sang ảnh số cũng như các thuộc tính của chính các văn bản gốc như: kích thước, mức độ chi tiết, thang màu. Các văn bản có thể được định tính bằng các quy trình kỹ thuật được sử dụng để tạo ra nó, bao gồm các phương pháp bằng tay, bằng máy, chụp ảnh hay mới nhất là điện tử. Hoặc toàn bộ các văn bản bằng giấy hoặc bằng phim có thể được chia thành 4 loại sau:
  8. + Bản văn/Dòng (Text/line art): Gồm những hình ảnh đồng màu có ranh giới rõ ràng, thường đơn sắc, có thể được tạo ra bằng tay, máy chữ hoặc máy in, bao gồm: bản văn, bản viết tay, đồ thị, bản khắc gỗ, văn bản được đánh máy hay in laser, bản thiết kế, bản đồ và bản chép nhạc. + Tông màu chuyển tiếp (Continuous tone): Những văn bản gồm các gam chuyển tiếp nhau, có thể đơn sắc hoặc đa sắc, bao gồm ảnh chụp, một số loại tranh (như bản phác hoạ bằng chì, tranh màu nước) và các tác phẩm đồ hoạ có các thuộc tính gam chuyển tiếp như bản khắc đồng, in đá, in chụp. + Nửa tông hoặc kiểu nửa tông (Halftone or halftone-like): Những hình ảnh tạo thành từ các điểm hoặc đường nằm cách đều, có thể đơn hoặc đa sắc, bao gồm những ảnh đồ hoạ được tạo thành từ các nét hoặc đường kẻ song song sít nhau nằm cách đều, ví dụ bản chạm khắc hoặc khắc axit. + Hỗn hợp (Mixed): Tổng hợp cả 3 loại văn bản trên, đơn hoặc đa sắc, bao gồm báo, tạp chí, sách có tranh minh hoạ. Ba loại kỹ thuật quét + "đen trắng" ("bitonal"): một pixel gồm một số nhị phân thể hiện màu trắng hoặc đen, thích hợp với các loại bản văn và một số loại nửa tông. + "dải xám" ("grayscale"): một pixel gồm nhiều số nhị phân thể hiện các gam màu xám khác nhau, thích hợp với các văn bản gam chuyển tiếp đen trắng, nửa tông, hỗn hợp và một số bản viết tay.
  9. + "màu" ("color"): một pixel gồm nhiều số nhị phân thể hiện các màu sắc khác nhau, thích hợp với tất cả các loại văn bản trong đó màu sắc giữ vai trò quan trọng. Chất lượng ảnh số được quét chịu ảnh hưởng của: + độ phân giải và ngưỡng + kỹ thuật chỉnh sửa ảnh + quá trình nén + thiết bị sử dụng và hiệu suất của thiết bị đó + vận hành hợp lý, cẩn thận Độ phân giải (Resolution) được xác định bằng số lượng pixel tạo ra ảnh theo đơn vị dpi (số điểm trên 1 insơ). Số lượng pixel càng lớn thì độ phân giải càng cao và khả năng thể hiện các chi tiết của ảnh càng cao. Tuy nhiên, đến một mức độ nào đó, độ phân giải cao hơn cũng không cải thiện đáng kể chất lượng ảnh mà chỉ làm tăng kích thước của tệp. Vấn đề mấu chốt khi quét ảnh là phải xác định được độ phân giải vừa đủ để thể hiện được tất cả những chi tiết quan trọng của nguyên bản. Ngưỡng (threshold) là thuật ngữ được dùng trong kỹ thuật quét đen trắng để chỉ một điểm trên thước đo mà tại đó các giá trị thể hiện màu xám được dịch thành các pixel trắng hoặc đen. Điểm này thường nằm trong khoảng từ 0 đến 255. Dưới đây là ví dụ về ảnh hưởng của các
  10. ngưỡng khác nhau lên bản đánh máy được quét ở cùng một độ phân giải. Trong kỹ thuật quét đen trắng, độ phân giải và ngưỡng là mấu chốt của chất lượng ảnh. Kỹ thuật này phù hợp nhất với các văn bản có độ tương phản cao như bản văn, đồ hoạ. Những văn bản gam chuyển tiếp hoặc có độ tương phản thấp như ảnh chụp cần đến kỹ thuật quét dải xám hoặc nhiều màu. Trong 2 loại kỹ thuật quét này, độ phân giải và số bit là 2 yếu tố cấu thành nên chất lượng ảnh. Số bit (bit depth) được xác định bằng số lượng chữ số nhị phân được sử dụng để thể hiện mỗi pixel. Số bit càng lớn thì càng nhiều sắc màu được thể hiện. Dải biến động (dynamic range) là thuật ngữ chỉ toàn bộ mức biến đổi các gam màu - được đo bằng mật độ kế- từ vùng sáng nhất đến vùng tối nhất của văn bản. Các vật liệu trong suốt có dải biến động rộng hơn, do đó thể hiện được nhiều gam màu hơn các vật liệu phản quang. Khả năng bắt được tất cả các sắc màu của máy quét, bao gồm những chi tiết trong vùng sáng và vùng tối, phụ thuộc vào dải biến động của máy và số bit. Máy quét drum thường bắt màu tốt nhất và máy quét flatbed thường bắt màu kém nhất (Xem chương 2 và chương 6). Số bit tăng lên sẽ ảnh hưởng đến độ phân giải cần thiết, kích thước tệp và phương pháp nén. Chỉnh sửa ảnh (Image enhancement) là quá trình cải thiện chất lượng ảnh. Tuy nhiên, việc chỉnh sửa rất có thể sẽ ảnh hưởng đến độ trung thực của ảnh. Chỉnh sửa còn làm tăng chi phí quét ảnh. Các đặc điểm
  11. chỉnh sửa điển hình có thể được thực hiện trong quá trình quét hoặc trong phần mềm biên tập ảnh gồm lọc (filter), các đường cong tái tạo tông màu (tonal reproduction curves) và quản lý màu (color management). Dưới đây là ví dụ về sử dụng bộ lọc ở một bản viết tay được quét với cùng một ngưỡng và độ phân giải, và một bức ảnh được "hiệu chỉnh" bằng chương trình biên tập ảnh. Nén (Compression) làm giảm kích thước tệp trong quá trình xử lý, lưu trữ và chiếu ảnh. Chất lượng ảnh có thể bị ảnh hưởng bởi kỹ thuật nén và mức độ nén. Thiết bị sử dụng và hiệu suất của nó qua thời gian sẽ ảnh hưởng đến chất lượng hình ảnh. Những công nghệ quét khác nhau có ảnh hưởng rõ rệt đến sản phẩm và độ chính xác của kỹ thuật xác định chuẩn chất lượng sẽ được trình bày ở phần sau. Vì vậy, những đòi hỏi của các nhà sản xuất về các khả năng của hệ thống (độ phân giải, số bit, các kỹ thuật chỉnh sửa, sản lượng đầu vào, tuổi thọ phần cứng, độ tin cậy) cần phải được xem xét cẩn thận. Bạn hãy đảm bảo rằng những yêu cầu về chất lượng ảnh đã được đáp ứng bằng cách kiểm tra các sản phẩm qua màn hình và giấy, sử dụng kết hợp các vị trí kiểm tra kỹ thuật và các mẫu nguyên bản. Tính hợp lý và cẩn trọng của người điều hành cùng với các phương tiện quét có ảnh hưởng rất lớn đến chất lượng hình ảnh thu được. Những quyết định hợp lý của người điều hành là vô cùng quan trọng khi quét đen trắng vì ở đó chất lượng ảnh hoàn toàn phụ thuộc vào ngưỡng và độ
  12. phân giải. Quá trình quét xám phụ thuộc ít hơn vào những quyết định đó. Tuy nhiên, vẫn cần phải thực hiện thường xuyên một chương trình bảo hiểm chất lượng ảnh để kiểm tra sản phẩm của mọi kỹ thuật quét. Đảm bảo ghi được đầy đủ thông tin Trường Đại học Cornell đã áp dụng một nguyên tắc quét ảnh đảm bảo chất lượng và tính thực dụng cao nhất với chi phí thấp nhất. Các yêu cầu về lưu trữ, khai thác và tính kinh tế đòi hỏi phải có một tệp số chủ (digital master) chứa đầy đủ mọi thông tin có trong nguyên bản. Chuyển đổi bằng kỹ thuật số hay analog chỉ là các cách khác nhau để ghi lại nội dung thông tin chứa trong nguyên bản dưới dạng cất giữ hay trưng bày. Còn về mặt giá trị thực hay giá trị nhân văn thì bản copy chỉ có thể đại diện chứ không thể thay thế được nguyên bản. Lưu trữ Nếu ảnh số được sử dụng với mục đích lưu trữ thì chất lượng ảnh là yếu tố quan trọng, bởi vì nó sẽ được sử dụng để thay thế cho nguyên bản, còn nguyên bản sẽ được cất giữ ở một nơi khác, trong môi trường phù hợp. Số lượng ảnh phải đủ để giảm hoặc loại bỏ hoàn toàn khả năng người đọc dùng đến nguyên bản. Ảnh số có thể thay thế nguyên bản trong một số trường hợp nhất định, ví dụ khi nguyên bản là sách dễ hư hỏng. Khi đó ảnh số phải mang được đầy đủ những thông tin quan trọng của nguyên bản để có thể đáp ứng được mọi yêu cầu về nghiên cứu, pháp luật và tài chính. Như sẽ nói ở
  13. phần sau, các tiêu chuẩn và thông lệ đối với việc bảo quản các tư liệu vi phim phải được đặt ra để xác định các yêu cầu về chất lượng trong số hoá. Khai thác Ảnh số là công cụ để thuận tiện hoá việc khai thác, nhưng trong mọi trường hợp, một ảnh số không thể thoả mãn được tất cả các nhu cầu của người sử dụng. Một tệp số chủ cần được tạo ra và sử dụng để nhân bản hàng loạt hình ảnh vì các nguyên nhân sau: - với những khả năng khác nhau của máy tính, tất cả các nhu cầu sử dụng có thể được đáp ứng thông qua các bản phái sinh - các yêu cầu và khả năng về in ấn, hiển thị và xử lý ảnh vô cùng đa dạng - khó có thể cùng một lúc đáp ứng được tất cả các nhu cầu về sự hoàn chỉnh, chi tiết của ảnh và tốc độ xử lý - quá trình quét càng tốt thì chất lượng bản phái sinh càng tốt - những đòi hỏi của người sử dụng ngày càng cao, phải có đủ các tệp số chủ để cung cấp cho những ứng dụng trong tương lai Chi phí Chi phí sản xuất những ảnh số có chất lượng cao sẽ ít hơn chi phí dành cho những ảnh chất lượng thấp và không đáp ứng được những yêu cầu lâu dài. Tạo ảnh số là một công việc tốn kém; chi phí vào nhân lực và
  14. việc tìm kiếm, chuẩn bị, kiểm tra và ghi kỹ hiệu thông tin số cao hơn nhiều so với chính chi phí quét ảnh. Trong những năm tới, giá quét và lưu ảnh sẽ hạ xuống và làm giảm bớt sự chênh lệch nói trên. Chất lượng ảnh cao không đồng nghĩa với độ phân giải và số bit cao nhất, mà chính là sự phù hợp giữa quá trình quét ảnh với nội dung của nguyên bản và quét ở mức độ đảm bảo bắt được đúng những thông tin đó, không nhiều hơn cũng không ít hơn. Bằng cách đó, có thể tránh được khả năng phải quét lại ảnh sau này; chi phí cho lưu trữ và di nhập thông tin không phải là nhỏ nhưng ở mức độ hợp lý và có thể được bù lại bằng giá trị lâu dài của thông tin số. Giá trị đó nên được xác định bằng nội dung tri thức chứa trong các ảnh số chứ không bị hạn chế bởi những phán quyết về mặt kỹ thuật tại thời điểm quét. Độ phân giải, kích thước tệp và chất lượng ảnh Độ phân giải thường được đo bằng số lượng điểm thể hiện ảnh trên một insơ vuông(ký hiệu: insơ = in hoặc "). Ví dụ: 100 điểm/ in (dpi) = 100 x 100 (1002) hay 10 000 điểm/ in2 200 dpi = 2002 hay 40 000 điểm/ in2 Chú ý: Cấp số nhân tăng nhanh hơn cấp số cộng. Số lượng điểm được sử dụng ở độ phân giải 200 dpi gấp 4 lần số lượng điểm được sử dụng ở độ phân giải 100 dpi.
  15. Quan hệ giữa độ phân giải và kích thước tệp Tổng số điểm được sử dụng trên bề mặt ảnh được xác định bằng cách nhân chiều cao ảnh với chiều rộng và dpi2. Trong kỹ thuật quét đen trắng, 1 số nhị phân (bit) thể hiện 1 pixel. Khi chuyển đổi, kích thước tệp chứa ảnh được tính bằng byte, mỗi byte được cấu thành từ 8 bit. Do đó, để tính kích thước tệp chứa ảnh được quét bằng kỹ thuật đen trắng theo byte, ta lấy tổng số bit (h . w . dpi2) chia cho 8. Công thức 1: xác định kích thước tệp của ảnh đen trắng: Ví dụ kích thước của tệp quét một trang giấy viết thư (khổ 8,5'x11') với dộ phân giải 100 dpi là 116.875 byte So sánh với tệp văn bản giãn dòng đơn chứa một trang giấy viết thư có kích thước 2000 đến 3000 byte. Do các tệp ảnh số thường có kích thước lớn, người ta thường dùng một số đơn vị rút gọn của byte như: 1 KB = 1000 byte 1 MB = 1 000 000 byte = 1000 KB 1 GB = 1 000 000 000 byte = 1000 MB
  16. Kích thước pixel, kích thước vật lý và dpi Nguyên bản được xác định bằng kích thước vật lý và mức độ chi tiết của nó, còn một ảnh số được xác định bằng kích thước pixel, "kích thước vật lý" và dpi. Máy quét, máy in và màn hình cũng được mô tả bằng 3 thuộc tính này. Bạn có thể hình dung chúng như những hình chữ nhật gồm các pixel xếp theo hàng và cột, trong đó: - kích thước pixel tính = số pixel nằm theo hàng ngang x số pixel nằm theo cột dọc (màn hình VGA có kích thước pixel 640 x 480). - kích thước vật lý được đo bằng không gian tính bằng insơ theo chiều ngang và chiều thẳng đứng mà các pixel đó chiếm (phần lớn các máy quét flatbed đều thích hợp với các văn bản có kích thước 8,5" x 14"). - dpi thể hiện số lượng pixel trên 1 insơ. Các máy quét flatbed quét ở một độ phân giải đặt sẵn với các tư liệu có kích thước khác nhau nhưng không vượt quá 11" x 17". ở loại thiết bị này, mảng quét (scanning array) được đặt ở kích thước cố định đó, và tất cả các văn bản phù hợp với máy đều được quét ở cùng một độ phân giải (dpi) được đặt sẵn đó. Độ phân giải sẽ chỉ thay đổi khi thiết định dpi được thay đổi, ví dụ, chuyển từ 300 dpi lên 600 dpi. Ví dụ: Máy quét được đặt ở độ phân giải 300 dpi trên mảng quét 11" x 17". Kích thước pixel của máy được xác định bằng cách nhân tích số của độ phân giải và kích thước pixel thứ nhất (300 x 11) với tích số của độ phân giải và kích thước pixel thứ hai (300 x 17), ta có kết quả là là 3300 x
  17. 5100. Nếu đặt lại độ phân giải ở mức 600 dpi, kích thước pixel của máy quét sẽ là (600 x11) x (600 x 17) = 6600 x 10200. Các máy quét khác, trong đó có camera số, không đặt sẵn độ phân giải. Các camera số có kích thước pixel đặt sẵn (ví dụ 2000 x 3000) nhưng không có tấm ép (platen) cố định. Về mặt lý thuyết thì loại máy này có thể quét được văn bản ở mọi kích cỡ. Camera số hoạt động tương tự như máy quay vi phim. Kích thước pixel của mảng quét được điều chỉnh theo kích thước vật lý của nguyên bản bằng cách tăng hoặc giảm khoảng cách giữa camera và tư liệu (hoặc sử dụng một thấu kính khác). Do đó, độ phân giải sẽ thay đổi theo các kích thước khác nhau của các tư liệu. Nếu tư liệu có kích thước nhỏ, độ phân giải có thể ở mức cao. Khi kích thước tư liệu tăng lên, khoảng cách giữa camera và tư liệu đó cũng phải tăng lên, làm tăng khoảng cách giữa các pixel và vì vậy độ phân giải sẽ giảm. Ví dụ, một tư liệu kích thước 4x5 in có độ phân giải thích hợp lớn gấp 10 lần độ phân giải thích hợp của tư liệu kích thước 40 x 50 in với cùng một kích thước pixel. Xác định dpi từ kích thước pixel Để xác định dpi từ kích thước pixel, trước hết ta phải xét tỉ lệ cạnh (aspect ratio) của cả vật liệu nguồn và mảng pixel của máy quét. Tỉ lệ cạnh là đại lượng liên hệ giữa các số đo cạnh của một hình chữ nhật. Trong trường hợp một văn bản, tỉ lệ cạnh là tỉ lệ giữa chiều cao và chiều rộng. Còn đối với một camera số thì đại lượng này thể hiện quan hệ giữa kích thước pixel theo chiều này với kích thước kia. Mối quan hệ giữa tỉ lệ
  18. cạnh của nguyên bản và kích thước pixel của camera sẽ ảnh hưởng đến cách tính dpi. Để đạt được dpi cao nhất khi quét toàn bộ một văn bản thì kích thước vật lý của văn bản đó phải nằm trong giới hạn kích thước pixel của camera (hay chính là nằm gọn trong khu vực quét). Vì hình ảnh có thể được xoay sau khi đã xử lý nên định hướng tư liệu (theo chiều nằm ngang hay dựng đứng) không phải là một khâu trong quá trình quét. Tư liệu có thể được đặt ở theo một trong hai hướng trên trong camera số. Có thể tạo được một tư liệu kích thước lớn ở các độ phân giải cao hơn bằng cách quét từng phần văn bản đó và xếp hoặc đính các ảnh rời rạc vào với nhau sau khi đã xử lý. Công thức 2: Xác định các tỷ lệ cạnh khi quét: Ví dụ 1: Xét một văn bản có kích thước 4 x 6 in được quét với mảng quét 2000 x 3000 pixel. Tỉ lệ cạnh của tư liệu sẽ = 6/ 4 = 1,5; tỉ lệ cạnh của mảng quét = 3000/ 2000 = 1,5. Vì có cùng tỉ lệ cạnh nên văn bản sẽ trùm khít mảng quét, và toàn bộ mảng quét được sử dụng để quét văn bản. (Khi hai tỉ lệ cạnh như trên không trùng nhau, hai hình chữ nhật tạo thành do văn bản và mảng quét sẽ không trùng khớp và hoặc chỉ có một phần mảng quét được sử dụng, hoặc chỉ có một phần văn bản được quét. Xem các ví dụ 2 và 3)
  19. Ví dụ 2: Xét trường hợp tư liệu có tỉ lệ cạnh nhỏ hơn tỉ lệ cạnh của mảng quét. Một văn bản có kích thước giấy viết thư sẽ có tỉ lệ cạnh là 11/ 8,5 = 1,29. Nếu được quét bằng camera số có tỉ lệ cạnh 3072/ 2048 = 1,5 thì kích thước của văn bản sẽ nhỏ hơn mảng quét. (Hình vuông có tỉ cạnh = 1) Nếu kích thước pixel thứ nhất của camera được đặt để quét chiều rộng của văn bản thì chiều chiều dài của văn bản sẽ ngắn hơn cạnh thứ hai của pixel. Toàn bộ văn bản sẽ được quét nhưng chỉ có một phần mảng quét được sử dụng. Ví dụ 3: Xét trường hợp tư liệu có tỉ lệ cạnh lớn hơn tỉ lệ cạnh của mảng quét (ví dụ: văn bản có kích thước 7" x 14", tức là có tỉ lệ cạnh = 2), được quét bằng camera số với mảng quét 2048 x 3072. Nếu kích thước thứ nhất của pixel tương ứng với chiều rộng của văn bản và kích thước pixel thứ hai đặt tương ứng với chiều dài (ví dụ 3a) thì văn bản sẽ dài hơn mảng quét và chỉ có một phần văn bản được quét. Nhưng nếu xoay lại thì xét về chiều rộng, văn bản vẫn ngắn hơn mảng quét và toàn bộ văn bản sẽ được quét (ví dụ 3b). Khi nào văn bản và mảng quét đã phù hợp với nhau thì độ phân giải để quét toàn bộ văn bản có thể được xác định bằng cách chia kích thước pixel của máy quét (xem công thức số 3). Công thức tương tự có thể được sử dụng để tính độ phân giải hữu hiệu khi quét phim của một văn bản bằng kỹ thuật quét trượt. Lưu ý là bạn phải sử dụng kích thước thật của nguyên bản chứ không phải kích thước của phim (Xem chương 7). Công thức 3: xác định độ phân giải từ kích thước pixel của máy quét:
  20. Xác định độ phân giải cần thiết để bắt được đầy đủ thông tin Chúng ta đã biết làm thế nào để xác định độ phân giải và kích thước tệp từ kích thước pixel, song làm thế nào để biết liệu độ phân giải đó có phù hợp để bắt được đầy đủ thông tin trong nguyên bản hay không? Tại Cornell, chúng tôi đã xây dựng một phương pháp đặt chuẩn để tính toán các yêu cầu về độ phân giải khi tạo ra và hiển thị ảnh số, trong đó áp dụng những tiêu chuẩn về chất lượng ảnh của công nghiệp vi đồ hoạ. Xác định chuẩn số là gì? Xác định chuẩn số là một thủ tục không thể thiếu để dự đoán về sản phẩm. - trước hết là xác định rõ các thuộc tính của tư liệu nguồn và các nhu cầu sử dụng hiện thời cũng như trong tương lai. - xác định các nhân tố trong các biến số liên quan (cả chủ quan lẫn khách quan) - sử dụng những công thức bắt nguồn từ vi đồ hoạ
  21. - cần sự khẳng định Bằng cách xác định chuẩn số, ta có thể: - đưa ra những phán quyết đáng tin cậy - xác định và thu hẹp phạm vi lựa chọn - xác định những nhu cầu ở mức vĩ mô - hiểu đúng thông tin các nhà kinh doanh đưa ra để quảng cáo - hợp tác về mặt dịch vụ và sản phẩm - đầu tư một cách hiệu quả - đặt ra được những mục tiêu có tính khả thi Áp dụng các tiêu chuẩn ảnh analog vào ảnh số Các chỉ số cổ điển về độ phân giải và chất lượng Công nghiệp vi đồ hoạ đã xây dựng những tiêu chuẩn để đánh giá chất lượng hình ảnh dựa trên Chỉ số chất lượng (ANSI/AIIM MS23 - 1991). Chỉ số chất lượng (QI- Quality Index) là đại lượng liên hệ giữa độ phân giải của hệ thống và độ nét của văn bản. Đại lượng này liên quan đến số đo chiều cao của những kí tự nhỏ nhất trong văn bản, gồm cả các dấu trên và dưới, được gọi là "cao x". Trong kỹ thuật vi phim, QI được tính bằng tích số của cao x (kí hiệu là h) với p - số cặp dòng loại nhỏ nhất trên bảng kiểm tra kỹ thuật chuẩn được máy quay phân giải (Xem hình 1).
  22. Chỉ số chất lượng được sử dụng để dự báo mức chất lượng của hình ảnh, gồm các mức: thấp (3,6); trung bình (5,0) và cao (8,0). Công thức 4: Chỉ số chất lượng cổ điển: QI = h x p p = QI/h Sử dụng QI trong lĩnh vực số hoá Trong báo cáo kỹ thuật AIIM TR26 - 1993 mang tên Resolution as it relates to Photographic and Electronic Imaging, các tác giả đã đề xuất rằng QI có thể được sử dụng để đặt chuẩn chất lượng cho các bản số hoá và cho biết nhiều phân tích đã được tiến hành để tìm ra sự khác nhau giữa các cách bắt chi tiết của máy quay vi phim và máy quét. Trường Đại học Cornell đánh giá cao ý kiến trên và đã thực nghiệm sử dụng phương pháp này trong vòng 5 năm để khẳng định các kết quả nghiên cứu sau khi đã chuyển đổi hơn 1 triệu ảnh. Để chuyển đổi giữa độ phân giải ảnh chụp và ảnh số, ta phải tiến hành các bước sau: - thiết lập các mức chất lượng ảnh tương ứng với nhau - hợp lý hoá hệ thống đo ( chuyển từ U.S. sang hệ mét) - tương ứng các điểm với các cặp đường
  23. - điều chỉnh "sự đọc lệch"(trong kỹ thuật quét đen trắng) 1. Thiết lập các mức chất lượng ảnh tương đương Việc đầu tiên là phải đặt ra các mức chất lượng có thể chấp nhận được trong việc quét ảnh số dựa trên mô hình tiêu chuẩn được AIIM áp dụng đối với vi phim. Các ảnh phóng đại ở các độ phân giải khác nhau của các chữ được số hoá dưới đây được so sánh với các chữ được chụp bằng vi phim với QI ở các mức thấp (3,6), trung bình (5,0) và cao (8,0). Theo đánh giá của Cornell thì các ảnh trên có sự tương ứng về mức chất lượng. Lưu ý rằng sự thay đổi các mức chất lượng trong kỹ thuật quét đen trắng thể hiện ở các cấu trúc hình răng cưa - thường được gọi là "aliasing" hay "jaggies". Còn trong kỹ thuật vi phim và quét xám, chất lượng ảnh giảm thể hiện ở chỗ các nét chữ mờ. 2. Hợp lý hoá hệ thống đo: chuyển từ điểm/ in sang điểm/ mm Khi đã thiết lập được những mức độ tương ứng về chất lượng ảnh số, ta cần phải tính đến sự khác nhau giữa các cách đo độ phân giải. Độ phân giải số được đo bằng số điểm trên 1 in, còn độ phân giải của ảnh chụp hay còn gọi là độ phân giải cổ điển được đo bằng số cặp dòng trên 1 mm (p). Để tính QI dựa vào độ phân giải, ta phải đổi các đơn vị từ in sang mm và điểm sang cặp dòng. 1mm » 0,039 in, vì vậy số điểm trên 1mm (dpm) » 0,039 x dpi. Để xác định số điểm trên số mm chiều cao của kí tự, ta phải nhân độ phân giải với 0,039 lần chiều cao (h) của kí tự (công thức 5).
  24. Công thức 5: Xác định số điểm trên 1 kí tự: dpm = 0,039 dpi x h 3. Tương ứng giữa số điểm và số cặp dòng Đường kính của một điểm = chiều ngang của một đường (xem hình 1, tr. 13). Vì vậy trong bài tập thực hành số 3, 3,9 điểm sẽ tạo ra 1mm kí tự, xấp xỉ với 4 đường hay 2 cặp dòng/ mm và QI = 2. Theo tiêu chuẩn đối với chỉ số chất lượng cổ điển, QI = 2 không cho chất lượng ảnh cao. Qua đó chúng ta có thể dự đoán được rằng độ phân giải 100 dpi là không không đủ để thể hiện tốt 1mm kí tự. Điều này được thấy trong hình bên. Chú ý: Nếu chỉ có độ phân giải qui định chất lượng ảnh thì QI = 8 đạt được với ảnh được thể hiện bằng ít nhất 16 điểm trên 1mm chiều cao kí tự. Do đường kính của một điểm tương đương với chiều ngang của một đường nên hai điểm mới tương đương với một cặp dòng, nghĩa là số điểm trên 1mm phải được chia đôi thì mới tương ứng với số cặp dòng trên 1mm. Đến đây chúng ta đã nắm được 3 bước trong việc áp dụng QI cổ điển để xác định QI số trong kỹ thuật quét đen trắng. Nhớ lại rằng trong kỹ thuật vi phim, QI = p x h. Tương ứng ta có:
  25. Từ đó ta có công thức tính độ phân giải dpi=2QI/0,0039 4. Điều chỉnh sự đọc lệch trong kỹ thuật quét đen trắng Trong công thức trên, dpi là độ phân giải ở đầu vào của máy tính. Ví dụ, nếu QI = 8 cần cho một tư liệu gồm những ký tự có kích thước từ 1mm trở lên, thì độ phân giải cần thiết là (2x8)/ (0,039x1) = 410. Tuy nhiên, do các lỗi lấy mẫu cùng với sự không ăn khớp giữa bộ phận dò (detector) của máy quét và chi tiết ảnh, được gọi là "sự đọc lệch" ("misregistration"), độ phân giải ở đầu vào của máy quét đen trắng thường không nhất quán với độ phân giải ở đầu ra. Trường Đại học Cornell đã áp dụng giải pháp được AIIM TR26- 1993 đưa ra: tăng độ phân giải đầu vào lên ít nhất 50% để bù vào "sự đọc lệch". Trong ví dụ trên, độ phân giải 410 có thể được tăng 50%, tức là lên 615 dpi. Phần tăng này là cần thiết dù máy quét có hay không sử dụng độ phân giải "thực" hay "nội suy". (Xem chương 2 về máy quét.) Sự đọc lệch là một vấn đề đặc biệt khó giải quyết khi xử lý những hoạ tiết đều đặn như các đối tượng phân giải chuẩn (standard resolution targets) (xem hình trang sau) hay các văn bản nửa tông và kiểu nửa tông (xem bản khắc dưới). Vì vậy, ANSI/ AIIM MS 44-1998 đã tuyên bố rằng các mô hình kiểm tra tiêu chuẩn độ phân giải không nên áp dụng với những máy quét có độ phân giải từ 600 dpi trở xuống. Mô hình kiểm tra độ phân giải
  26. Các công thức về độ phân giải (trong kỹ thuật quét đen trắng) Khi đọc lệch và các lỗi lấy mẫu có khả năng xảy ra, công thức cơ bản để tính độ phân giải của máy tính trong kỹ thuật quét đen trắng biến thành: dpi = [(2 x QI)/ (h x 0,039)] x 1,5 Công thức này có thể được giản ước thành: dpi = 3 QI / 0,039 h. Từ công thức cơ bản này, chúng ta có các công thức tính h và QI. Công thức 6: Tính độ phân giải theo chuẩn trong quét đen trắng:
  27. dpi = 3QI / 0.039h Bảng 1 cung cấp những ước lượng về độ phân giải cần thiết đối với các mức chất lượng ảnh và cao x khác nhau. Bảng 2 cho biết mối quan hệ giữa kích thước điểm, cao x và QI trong số hoá với đánh giá bằng mắt thường về các kiểu chữ thường được sử dụng trong in ấn thương mại trong thế kỷ 19 và đầu thế kỷ 20. Các chỉ số chất lượng số được tính cho quá trình quét các trang mẫu ở độ phân giải 600 dpi 1 bit, và đánh giá được dựa vào một báo cáo tổng kết về các ảnh in Xerox Docutech 600 dpi được phóng đại 5 lần. Nhìn chung những đánh giá này khẳng định QI số là một chỉ thị chính xác về chất lượng ảnh. Bảng 1: ước lượng độ phân giải cần thiết trong kỹ thuật quét đen trắng cao x QI = 3,6 QI = 5 QI = 8 0,5 mm 554 dpi 769 dpi 1231 dpi 1,0 mm 277 dpi 385 dpi 615 dpi 1,5 mm 185 dpi 256 dpi 410 dpi
  28. 2,0 mm 138 dpi 192 dpi 308 dpi 2,5 mm 111 dpi 154 dpi 246 dpi 3,0 mm 92 dpi 128 dpi 205 dpi 4,0 mm 69 dpi 96 dpi 153 dpi Số bit, kích thước tệp, độ nén và chất lượng ảnh Kỹ thuật quét đen trắng thích hợp nhất với những tư liệu có độ tương phản cao như các bản văn in. Đối với những văn bản có gam chuyển tiếp hay nhiều màu thì kỹ thuật quét dải xám và nhiều màu phù hợp hơn. Như đã nói từ đầu chương, trong quá trình quét, các gam màu được đại diện bằng số lượng chữ số nhị phân được sử dụng để thể hiện mỗi pixel, gọi là số bit (bit depth). Số bit càng lớn thì dải biến động của thông tin màu càng lớn. Ảnh đen trắng (bitonal image) được thể hiện bằng những pixel chỉ gồm 1 bit, chỉ mang 2 giá trị, hay 2 mức độ (chữ số 0 thể hiện màu đen, chữ số 1 thể hiện màu trắng). Khi số lượng chữ số nhị phân tăng lên, các giá trị màu khác có thể được biểu hiện.
  29. Ảnh xám (grayscale image) được đại diện bằng những pixel gồm từ 2 đến 8 bit. Sự kết hợp 2 bit trong 1 pixel tạo ra 4 tổ hợp: 00, 01, 10 và 11. Nếu 00 biểu hiện màu đen và 11 biểu hiện màu trắng, thì 01 biểu hiện màu xám sẫm và 10 biểu hiện màu xám nhạt. Số bit ở đây chỉ là 2 nhưng giá trị màu, hay mức độ màu được biểu hiện là 22 = 4. Với số bit là 8, tức là một tổ hợp 8 chữ số nhị phân thể hiện một thông tin màu, ta có 28 = 256 giá trị màu. Với chừng đó giá trị màu được phân bố hợp lý, mọi thông tin của thang màu xám đều có thể được biểu hiện. Một số máy tính hiện nay quét ảnh màu xám ở mức 10 bit hoặc hơn và đưa ra sản phẩm 8 bit để hợp hơn với mắt thường. Hơn nữa, tương tự như quét ảnh đen trắng với yếu tố đọc lệch, để đạt được một mức độ xám nhất định ở đầu ra thì mức độ xám ở đầu vào phải cao hơn để bù vào yếu tố "nhiễu" thường gặp ở các máy quét. Ảnh màu (color image) điển hình thường có số bit từ 8 đến 24. Số chữ số nhị phân trong một ảnh màu 24 bit được chia thành 3 nhóm: 8 bit thể hiện màu đỏ, 8 bit thể hiện màu xanh lá cây và 8 bit thể hiện màu xanh lơ. Các tổ hợp khác giữa những số nhị phân này thể hiện các màu sắc khác. "Màu thực" cần đến 24 chữ số nhị phân, tức 224 = 16,7 triệu giá trị màu. Tương tự như trường hợp ảnh màu xám, để có sản phẩm đúng màu 24 bit cần sử dụng số bit màu cao hơn. Một số máy quét ngày nay sử dụng màu 30 bit hoặc hơn để đưa ra sản phẩm 24 bit. bảng 2: ảnh của một số kiểu chữ phổ biến trong in ấn thương nại thế kỷ 19 và 20 ở 600 dpi 1-bít
  30. Số gam màu thể hiện được tương ứng với một vài số bit thường gặp như sau: 21 = 2 28 = 256 22 = 4 224 = 16,7 triệu
  31. 24 = 16 Trong một ảnh đen trắng, mỗi pixel được đại diện bởi 1 số nhị phân; trong một ảnh "đủ màu xám" (full grayscale), mỗi pixel được đại diện bằng 8 số nhị phân. Như vậy ảnh xám có số bit lớn hơn ảnh đen trắng 8 lần và do đó có kích thước tệp lớn hơn 8 lần. Mỗi pixel của một ảnh "màu thực" (true color) chứa 24 số nhị phân, vì vậy kích thước tệp của nó lớn hơn tệp ảnh 1 bit 24 lần và lớn hơn tệp ảnh 8 bit 3 lần. Để xác định kích thước tệp của các ảnh xám hoặc ảnh màu, ta sử dụng công thức được cải biến từ công thức tính của ảnh đen trắng: công thức 7: xác định kích thước tệp ảnh xám hoặc ảnh màu: Số gam màu thể hiện được tương ứng với một vài số bit thường gặp như sau: Nén (Compression) Như chúng ta đã biết, kích thước tệp ảnh số khá lớn nên thường gây khó khăn cho hoạt động máy tính và mạng của nhiều hệ thống. Các kỹ thuật nén được sử dụng để giảm bớt kích thước tệp ảnh số, tạo điều kiện cho lưu trữ, xử lý và chuyển tải. Song kiểu nén và mức độ nén cũng sẽ ảnh hưởng đến chất lượng ảnh.
  32. Có rất nhiều kỹ thuật nén. Một số chỉ được sử dụng với những loại ảnh nhất định (ví dụ: chỉ với ảnh 1 bit), hoặc với những loại ảnh nhất định (ví dụ: chỉ với đĩa compact ảnh của Kodak). Có rất nhiều kỹ thuật nén có thể sử dụng với các ảnh đen trắng, ảnh xám và ảnh màu. Về tính đặc hiệu của các kỹ thuật nén được sử dụng rộng rãi ngày nay, các bạn có thể tham khảo tài liệu Encyclopedia of Graphics File Formats (Bách khoa thư về các cấu hình đồ hoạ) của James D. Murray và William vanRyper (O'Reilly & Associates, 1994). Nhìn chung, tất cả các kỹ thuật nén đều dựa vào các thuật toán phức tạp, chuyên biệt để rút gọn các chuỗi mã số nhị phân của một ảnh chưa nén thành ký hiệu toán học. Có thể chia thành 2 loại kỹ thuật nén chính: 1. Nén không mất (lossless compression): Một số hệ thống nén có các thông tin được lặp dưới dạng một thuật toán để có thể được đọc ngược (hay "giải nén" - "decompressed") một cách chính xác với ảnh gốc. Loại nén này được gọi là "nén không mất" vì không có một thông tin nào bị bỏ đi trong quá trình nén . Nén không mất ban đầu được sử dụng với ảnh đen trắng. Ảnh bên lề trái là một ví dụ về loại kỹ thuật nén không mất. 2. Nén mất (lossy compression): Các hệ thống nén khác sử dụng một phương tiện nào đó để xác định thông tin nào không quan trọng và có thể bị dung hoà hoặc loại bỏ mà ảnh hưởng không đáng kể đến chất lượng ảnh. Ví dụ, mắt thường nhạy cảm với các thông tin về quang hơn với các thông tin về màu, vì vậy một số kỹ thuật nén hay thiên về loại bỏ
  33. các thông tin màu. Loại kỹ thuật nén này được gọi là "nén mất" vì ảnh đã được nén không còn giống hệt ảnh gốc nữa. Nén mất được sử dụng trong quét xám và màu, đặc biệt với những ảnh phức tạp đến mức việc rút gọn thông tin gần như không có ý nghĩa trong việc thu nhỏ tệp. Đối với các tệp số chủ, tốt nhất là nên sử dụng kỹ thuật nén không mất, sau đó sử dụng các kỹ thuật nén mất phù hợp với từng dạng tệp phái sinh sao cho đảm bảo được tốc độ và chất lượng hiển thị cao. Bạn có thể sử dụng nhiều loại kỹ thuật nén chuẩn và không chuẩn, song tốt nhất bạn nên chọn loại chuẩn và phổ biến, không nên chọn một loại quá đặc hiệu, dù nó có khả năng nén hiệu quả hơn mà lại ảnh hưởng đến chất lượng ảnh ít hơn đôi chút, vì rất có thể bạn sẽ không sử dụng được nó lâu dài. Nếu bạn sử dụng những kỹ thuật nén không chuẩn để quét ảnh, hãy cân nhắc xem liệu ảnh đó có khả năng di nhập vào một dạng hoặc kỹ thuật nén khác hay không, ví dụ như trường hợp đĩa compact ảnh Kodak (ảnh Pac). Khi lựa chọn kỹ thuật nén, bạn cũng nên cân nhắc đến các thuộc tính của nguyên bản. Một số kỹ thuật như ITU Group 4 được thiết kế cho nén bản văn, trong khi một số loại khác như JPEG và ảnh Pac lại được thiết kế để nén dưới dạng tranh "thiên nhiên". Đối với các văn bản hỗn hợp (ví dụ ảnh chụp có thuyết minh), thì cần phải cân nhắc. (Xem các ảnh hưởng của JPEG lên bản văn trong các ví dụ trang 25.) Các kỹ thuật nén đen trắng, xám và màu thông dụng Các kỹ thuật nén đen trắng, xám và màu thông dụng
  34. + Với tệp số chủ và tệp phái sinh quét đen trắng - International Telecommunications Union (Hiệp hội Viễn thông Quốc tế), ITU T.6 (Nhóm 4) chuẩn (trước đây là CCITT 84b-1998); ANSI/ AIIM MS53-1993 chuẩn khi chuyển đổi giữa các ảnh thuộc nhóm 4; nén không mất - Joint Bi-level Image Group (JBIG) (ISO 11544), nén không mất + Với tệp số chủ và tệp phái sinh quét xám / màu - Lempel-Ziv-Welch (LZW), không chuẩn nhưng được sử dụng rộng rãi; chỉ thích hợp với quét đen trắng, nén không mất - Joint Photographic Experts Group (JPEG) (ISO 10918-1), được coi là không mất đến mức 2-3:1, nhưng mất ở các mức cao hơn; mức độ ứng dụng của JPEG phụ thuộc vào sở thích về chất lượng của người sử dụng - Kodak Image Pac, không chuẩn nhưng được sử dụng rộng rãi trong công nghiệp, nén không mất "theo chuẩn mắt thường" Do kích thước tệp ảnh nén thay đổi theo loại và mức độ nén; độ phân giải, số bit và dạng tệp chứa ảnh quét; và mức độ phức tạp của nguyên bản, ta không thể dự đoán được một tỉ số chính xác. Nói cách khác, ta không để đòi hỏi người bán máy quét cung cấp một tỉ số nén toàn bộ cụ thể, ví dụ 5:1. Công thức số 8 là công thức ước lượng kích thước của một tệp nén dựa vào các mức nén trung bình giả sử và các hệ thống chuẩn.
  35. Cornell đã tìm ra giới hạn của tỉ số nén không mất trung bình của quét các trang văn bản ở mức 600 dpi 1-bit. Giới hạn đó nằm trong khoảng từ 5:1 đối với các ảnh phức tạp nhất đến 40:1 đối với các bản văn đơn giản. Phát hiện này dựa vào thử nghiệm sử dụng kỹ thuật nén ITU nhóm 4 cho các ảnh TIFF 5.0. Ước lượng về yêu cầu lưu trữ dựa vào tỉ số trung bình giả sử là 20:1 đối với các trang văn bản. ở những thử nghiệm đầu tiên trên các mẫu ảnh xám được quét tại trường, ảnh JPEG dường như không mất chi tiết khi nhìn bằng mắt thường ở độ nén 8:1 đối với bản văn/ dòng và ở độ nén từ 10 đến 15:1 đối với các ảnh gam chuyển tiếp. công thức 8: đánh giá kích thước tệp chứa ảnh nén Ảnh hưởng của dải xám và nén đến độ phân giải -chất lượng ảnh phụ thuộc vào tổ hợp dải xám và độ phân giải - đọc lệch không phải là một yếu tố quan trọng đối với dải xám - độ phân giải đầu vào = độ phân giải đầu ra - ảnh hưởng của độ nén lên chất lượng ảnh - tính độ phân giải cần thiết khi quét 8-bit - chuỗi số hoá
  36. - nghiên cứu tại Thư viện của Quốc hội và Cornell Các công thức tính chỉ số chất lượng số trong kỹ thuật quét đen trắng có thể được áp dụng vào kỹ thuật quét xám (và màu), nhưng cần phải điều chỉnh rất nhiều. Với mỗi pixel gồm nhiều số nhị phân, quét xám dường như dịch các ký tự cũng như những chi tiết khác của văn bản một cách trung thực hơn quét đen trắng ở cùng một độ phân giải. Ví dụ, Cornell đã tìm ra rằng để đạt được QI = 8 khi quét đen trắng có bù vào sự đọc lệch, cần 24 điểm trên 1mm chiều cao ký tự (615 dpi). Với quét xám, chỉ cần 12 điểm trên 1 mm chiều cao ký tự (308 dpi). Trong quét xám, độ phân giải đầu vào dường như là một chỉ thị chính xác để tính được độ phân giải đầu ra nếu như các tệp không bị nén hoặc bị nén không mất theo tiêu chuẩn mắt thường bằng kỹ thuật JPEG. Các công thức về độ phân giải (trong quét xám) Những công thức sau đây được sử dụng để dự tính những độ phân giải trong quét xám tương ứng với các mức chất lượng như ở quét đen trắng. Các công thức này dành cho ảnh chưa nén, hoặc nén không mất theo tiêu chuẩn mắt thường. Công thức 9: xác định độ phân giải theo chuẩn trong quét xám: dpi = 1,5QI / 0,039h QI = 0,039dpi x h /1,5 h = 1,5QI / 0,039dpi
  37. Bảng 3: ước lượng độ phân giải cần thiết trong kỹ thuật quét xám 8-bít và nén không mất JPEG cao x QI = 3,6 QI = 5 QI = 8 0,5 mm 277 dpi 385 dpi 615 dpi 1,0 mm 138 dpi 192 dpi 308 dpi 1,5 mm 92 dpi 128 dpi 205 dpi 2,0 mm 69 dpi 96 dpi 154 dpi 2,5 mm 55 dpi 77 dpi 123 dpi 3,0 mm 46 dpi 64 dpi 103 dpi 4,0 mm 35 dpi 48 dpi 77 dpi
  38. Nghiên cứu tiếp theo, bắt đầu từ Thư viện của Quốc hội (Các nhân tố ảnh) và một số nơi khác cho thấy quét xám có khả năng bắt được nhiều loại tư liệu nguồn mà các máy quét đen trắng chưa xử lý được. Ví dụ, quét xám cần cho các bản viết tay, ảnh gam chuyển tiếp, và các trang văn hư hỏng quá nhiều hoặc không đồng đều. Ngoài ra nó còn bắt được các văn bản nửa tông hoặc kiểu nửa tông mà quét đen trắng nâng cao cũng không cho được sản phẩm thoả đáng. ở cùng một độ phân giải, sự bổ sung màu xám vào các bản văn với kỹ thuật quét xám có thể cải thiện chất lượng ảnh, nhưng chỉ khi màu xám được dịch ở đầu ra hoặc được sử dụng để tăng độ phân giải ở quá trình in. Tuy nhiên, những phát hiện ban đầu từ các thử nghiệm ở Cornell cho thấy ngay cả khi thêm màu xám, vẫn nên lựa chọn độ phân giải 400 dpi ở đầu vào để bù vào nén, như vậy các ký tự và các chi tiết nhỏ sẽ được dịch tốt hơn. Bảng 4 đưa ra một số kết quả thử nghiệm quét các ký tự 0,6mm (chữ đậm, nghiêng 4 pt) từ máy quét AIIM Scanner Test Chart. Bạn để ý rằng theo chuẩn mắt thường thì các mức độ chất lượng ảnh đạt được như nhau (ở mức trung bình) với ảnh không nén 300 8-bit , ảnh 400 8-bit nén 10:1 và ảnh 6001-bit nén 9:1. Trong khi đó, với kích thước 8,3 MB, ảnh 300 8-bit lớn hơn ảnh 400 8-bit xấp xỉ 6 lần và lớn hơn ảnh 600 1-bit 17 lần. Nếu chất lượng như nhau, kích thước tệp và độ nén là 2 yếu tố cần cân nhắc khi tạo một tệp số chủ. Vì vậy, theo ý kiến của Cornell thì nên sử dụng quét đen trắng với bản văn/ dòng bất kỳ khi nào có thể.
  39. Bảng 4: Chất lượng ảnh và kích thước tệp với quét đen trắng và quét xám bằng máy quét AIIM scaner Test chart #2 độ phân Kích thước QI QI màn độ nét giải tệp số hình 300dpi, 8- 8,3 MB không nén 4,68 Med. bít . 0,85 MB JPEG ở . Mảg. 10:1 . 0,47 MB JPEG ở . Poor. 18:1 400dpi, 8- 14,7 MB không nén 6,24 High. bít . 1,49 MB JEPG ở . Med. 10:1
  40. . 0,72 MB JPEG ở . Narg. 20:1 600dpi, 1- 4,2 MB không nén 4,68 Med. bít . 0,47 MB nhóm 4 ở . Med. 9:1 Xác định những chi tiết quan trọng trong các vật liệu không phải là bản văn Đến đây chúng ta đã biết sử dụng những công thức tính độ phân giải cần thiết đối với các tư liệu dạng bản văn. "h" là chiều cao của ký tự nhỏ nhất có ý nghĩa trong văn bản, thường là chữ "e". Đối với những tư liệu không phải là bản văn, có thể tính độ phân giải cần thiết bằng cách coi "h" là số đo toàn bộ một chi tiết, tức là phần nhỏ nhất có ý nghĩa đối với nội dung của tư liệu. Chi tiết của tư liệu thường được cấu thành từ những phần nhỏ hơn, ví dụ như đường kính của một nét chữ. Số đo "h" là chiều cao tính bằng mm của toàn bộ một chi tiết chứ không phải là số đo của những tiểu phần của nó.
  41. Xác định thế nào là một chi tiết quan trọng là một quyết định mang tính chủ quan, vì vậy cần phải được đưa ra bởi những người có trách nhiệm quản lý và có hiểu biết sâu sắc về tính chất và ý nghĩa của tư liệu đó. Các nhà chuyên môn sẽ cân nhắc đến những thuộc tính của chính tư liệu và ý nghĩa sử dụng nội dung thông tin của tư liệu đó trong nghiên cứu. ở một khối chạm trổ, chi tiết quan trọng có thể là một phần nhỏ hoặc một hoa văn nền; trong một bức ảnh chụp, đó có thể là đôi mắt, hay một khuôn mặt trong đám đông. Một lỗ chân lông trên da ở một ảnh chân dung có lẽ không được coi là một chi tiết quan trọng, trừ khi người sử dụng ảnh đó là một bác sĩ da liễu. Khi bắt chi tiết, không nhất thiết phải đảm bảo rằng cấu trúc, hoặc quá trình tạo ra tư liệu nguồn phải được dịch lại đầy đủ bằng số hoá. (Xem chương 6, "Quét ảnh chụp".) Xác định chuẩn chất lượng ảnh đối với những tư liệu không phải bản văn Các công thức về độ phân giải chuẩn đã được thiết lập để đảm bảo rằng những ký tự mang chi tiết tinh xảo có thể được thể hiện ở nhiều mức dộ chất lượng khác nhau. Đối với những ký tự đơn giản, ví dụ những chữ cái viết hoa không có chân, những công thức đó có vẻ quá cẩn thận. Ví dụ Spartan Medium, một kiểu chữ thẳng, không chân được thể hiện ở cùng một mức chất lượng đối với mọi chỉ số chất lượng cao hơn mức dự kiến. (Xem bảng 2, tr.20.) Cũng tương tự như vậy đối với các chi tiết của tư liệu không phải bản văn. Những công thức đó là phù hợp khi được dùng để ước lượng độ phân giải cần thiết đối với các chi tiết sắc nét và mảnh chứ không phải các chi tiết mờ nhạt.
  42. Gợi ý: Mức độ chính xác khi tính toán theo một chuẩn đặt sẵn phụ thuộc vào tính "dễ đọc" của các tư liệu nguồn. Khi tính độ phân giải cần thiết theo chuẩn đối với các ký tự viết hoa và/ hoặc những chi tiết không sắc nét, hãy bắt đầu bằng cách đặt QI = 5 (mức chất lượng trung bình) trong công thức tính độ phân giải. Trường hợp đặc biệt: xử lý tư liệu nửa tông và kiểu nửa tông Mặc dù nội dung của loại tư liệu này mang tính chủ quan, độ phân giải và số bit được sử dụng vẫn phải đủ lớn để tránh khả năng xảy ra đọc lệch. Mặt khác, răng cưa, vân sóng và những cấu trúc xuyên tạc khác vẫn có thể xảy ra. Đối với tư liệu nửa tông, mành (screen ruling) - khoảng cách giữa các điểm nằm chéo nhau (độ mành = 1/ d) - là một đại lượng quan trọng để xác định độ phân giải cần thiết tối thiểu. ở Cornell, chúng tôi đã tìm ra rằng đặt dpi dải xám cao hơn độ mành 1,5 lần sẽ làm giảm hoặc trừ bỏ hẳn vân sóng ở ảnh số. Đối với các tư liệu kiểu nửa tông, bạn hãy đo khoảng cách tính bằng mm giữa các trung điểm của các đoạn nằm kề nhau để tính độ mành "hiệu dụng" - "d". Chuyển phép đo sang đơn vị insơ bằng cách nhân kết quả với 0,039. Công thức 9a: Xác định dpi theo chuẩn trong quét xám các bản nửa tông nửa tông: dpi = độ mảnh x 1,5 kiểu nửa tông: dpi tối thiểu = 1/0,039 x 1,5 Nghiên cứu cụ thể: Chuyển đổi các vật liệu đồ hoạ
  43. Vào mùa hè năm 1995, Jenny Monesson, một sinh viên đang làm luận án tốt nghiệp của trường Đại học Phụ nữ Texas đã đến thực tập tại Bộ môn Lưu trữ của Cornell. Sinh viên này điều tra về chất lượng ảnh được quét bằng kỹ thuật số từ các vật liệu đồ hoạ. Cô đã nghiên cứu 11 trường hợp điển hình của các quy trình in tranh minh hoạ phổ biến trong thương mại cuối thế kỷ 19, đầu thế kỷ 20. Monesson đã đánh giá các ảnh trên màn hình và bản in của 11 cuốn sách minh hoạ được quét ở 3 mức: cơ bản, chi tiết và cấu trúc. Cơ bản (essence) là thuật ngữ mô tả mức độ thể hiện của bản in những chi tiết có thể được phát hiện thấy trong nguyên bản bằng mắt thường ở khoảng cách bình thường khi đặt bản sao và nguyên bản cạnh nhau. Cũng có thể so sánh với chất lượng của một bản sao lưu trữ. Chi tiết (detail) là khả năng ảnh số trên màn hình hoặc bản in thể hiện những phần nhỏ nhất có ý nghĩa của nguyên bản, điển hình là những phần có thể quan sát thấy dưới mức phóng đại nhẹ (ví dụ: 5x). Đối với vật liệu đồ hoạ, chi tiết có thể là một tài liệu cụ thể và rất dễ biến đổi. Điều đó có nghĩa là chi tiết thường không phụ thuộc vào quy trình tạo ra ảnh gốc, trừ các ảnh nửa tông, mà được xác định bằng mục đích sử dụng của chính bức đó ảnh. Hơn nữa, các phiên bản trên màn hình hoặc in thể hiện chi tiết theo những cách khác nhau. Cấu trúc (Structure). Do nghiên cứu của Monesson tập trung vào các ảnh minh hoạ, chúng tôi đặc biệt quan tâm đến việc xác định quá trình tạo ảnh số hoá lặp lại biểu hiện vật lý của quy trình hay kỹ thuật tạo ảnh
  44. gốc như thế nào. Chúng tôi đã yêu cầu Monesson xác định liệu quá trình tạo ảnh số có hay không có khả năng thể hiện chính xác những vết đục trên một bản khắc gỗ, những hoạ tiết điểm hay độ mành của một ảnh nửa tông, những vết châm trên một bản chạm chấm, các vết ăn mòn trên một bản khắc axit và các hoa văn rua đen trên bản khắc đồng. Hệ phương pháp quét. Tất cả các mẫu ban đầu đều được quét đen trắng ở mức 300 và 600 dpi trên hệ XDOD. Sản phẩm nào không thoả đáng khi quét đen trắng sẽ được quét lại ở mức 8-bit màu xám với độ phân giải 300, 400 và 600 dpi trên máy quét HP ScanJet 3c. Các phiên bản giấy của ảnh số được in bằng các máy in laser, máy in- copy và máy in thăng hoa màu nhuộm (dye sublimation printer). Do hạn chế của các thiết bị, độ phân giải cao nhất cho bản in màu xám chỉ là 400 dpi ở máy in- copy và 300 dpi trên máy in thăng hoa màu nhuộm bằng nhiệt. In đen trắng ở mức 300 và 600 dpi. Phải thừa nhận rằng số lượng tranh mẫu chưa nhiều và các phương pháp quét còn hạn chế, song nghiên cứu tiên phong này đã mở ra một hướng nghiên cứu đáng chú ý về tác động tương hỗ giữa chi tiết, hoạ tiết và sự thay đổi màu sắc. Monesson cũng đã đưa nghiên cứu này vào luận án của cô (1996). Xem bảng tóm tắt của nghiên cứu này và nghiên cứu của John Dean: Topography of Graphic Materials (Đặc tính của các vật liệu đồ hoạ) cùng các ảnh minh hoạ ở phần Phụ lục của chương. Kiểm tra chất lượng dự đoán
  45. Mặc dù các công thức vê độ phân giải số là những chuẩn dự báo chất lượng rất hữu ích nhưng chúng vẫn cần được khẳng định chắc chắn. ANSI/ AIIM MS44-1998 đưa ra một số lời khuyên trong việc thiết lập một chương trình kiểm soát chất lượng để đảm bảo chất lượng sản phẩm tốt nhất của một hệ thống quét, và khẳng định rằng máy quét hoạt động tốt lâu dài. Đánh giá chất lượng khách quan lẫn chủ quan Như Timothy Binhkley đã chỉ rõ, "ảnh số" là một từ nghịch hợp ("Digital Dilemas", Phụ chương tạp chí Leonardo, 1990). Mặc dù các số 1 và 0 của ảnh không mang nội dung thông tin thị giác bên trong, một số phần mềm kỹ thuật chuyên sâu (như ImageXpertTM) vẫn có khả năng kiểm tra hiệu suất của hệ thống một cách khách quan, không lệ thuộc vào người vận hành. Tuy nhiên, những chương trình như vậy và các đối tượng kỹ thuật đi kèm với nó lại đắt tiền và chưa phát triển ở mức cao. Cho đến khi những hệ thống đó trở nên thông dụng, hiệu suất của hệ thống vẫn phải được đánh giá một cách chủ quan bằng thị giác qua các ảnh quét hiện trên màn hình hoặc bản in và các đối tượng kiểm tra kỹ thuật chuẩn. Kiểm tra bằng thị giác ANSI/ AIIM MS44-1998 đưa ra lời khuyên rằng những đánh giá về chất lượng nên được tiến hành trên các bảng chuẩn thích hợp với tư liệu được quét mỗi khi máy quét được hiệu chỉnh. Sau đây là một số ví dụ về những bảng chuẩn như vậy:
  46. Đối tượng kiểm tra chữ-số RIT Biểu đồ kiểm tra bản sao chính xác IEEE Std 167A.1-1995 (bản cải tiến của IEEE Std 167 A-1987) AIIM Scanner Test Chart #2 Thanh kiểm soát dải xám Kodak Q13 Bảng màu chuẩn Kodak Q60 Lưu ý: Xem danh sách các đối tượng chuẩn ở trang 196-197. Cornell dựa vào RIT và AIIM Scanner Test Chart #2 (hình bên trái) để đo hệ thống độ phân giải. RIT có khả năng đánh giá sản phẩm theo những độ đo tăng dần, vì vậy có thể được sử dụng rộng rãi với nhiều loại tư liệu bản văn. Tuy nhiên, do những chữ cái thiếu chân và các nét chữ đồng đều về độ đậm nhạt nên RIT không phải là một phương tiện hoàn hảo để dự đoán về khả năng bắt chi tiết của máy quét. Vì lý do đó, Cornell sử dụng RIT phối hợp với AIIM Scanner Test Chart #2 - loại bảng chuẩn có chứa những ký tự có chân, chi tiết và có nhiều kiểu chữ. Màn hình và máy in có thể làm lệch lạc chất lượng của ảnh quét. Nhiễu của ảnh (như những đường lượn sóng, những chấm đen hay sáng, răng cưa và/ hoặc vân sóng) có thể xuất hiện khi màn hình hoặc máy in không được hiệu chỉnh một cách thích hợp, hoặc không có khả năng đưa ra ảnh ở độ phân giải số và/ hoặc số bit đầy đủ. Vì vậy, mục tiêu của dự án phải được xác định rõ và cần phải kiểm tra thị giác các tệp số chủ cũng như
  47. các ảnh phái sinh được sử dụng trong khai thác. Cần phải kiểm tra: các ảnh có độ phân giải cao được hiển thị trên màn hình có độ phân giải cao; các ảnh có độ phân giải thấp và các bản phái sinh từ các ảnh có độ phân giải cao được hiển thị trên màn hình có độ phân giải thấp; các bản in có độ phân giải cao và thấp và sản phẩm vi phim của máy tính (COM). Nên kiểm tra 100% sản phẩm, đặc biệt là trong những trường hợp ảnh số sẽ thay thế nguyên bản, hoặc các nguyên bản không thống nhất. Cornell đã tổng kết rằng khi đánh giá về ảnh trên màn hình, nên sử dụng các màn hình có độ phân giải cao để mỗi pixel của ảnh được đại diện bằng một điểm sáng trên màn hình (xem phần sau). Các bản in nên được xem bằng mắt thường và kính phóng đại. COM nên được xem trên hộp sáng, sử dụng kính phóng đại 50x. Tìm cái gì? Đối với ảnh quét từ bản văn, mỗi hoặc mọi thuộc tính sau đây đều phải được cân nhắc khi kiểm tra trang in không dùng kính phóng đại: độ rõ bằng hoặc trên mức QI dự đoán; toàn bộ trang được hiển thị với các nét chữ và dòng có màu đồng đều; độ tương phản thoả đáng giữa phần chữ với nền; các ký tự có cùng kích cỡ với nguyên bản; và các bề dầy khác nhau của từng nét (dầy, trung bình hay mỏng) phải được thể hiện đúng với nguyên bản. Kính phóng đại được sử dụng khi kiểm tra viền nét và các đặc điểm đặc trưng khác của từng ký tự. Khi so sánh với nguyên bản, phải xem chân chữ và các chi tiết nhỏ khác có được thể hiện trung thực hay không, các ký tự có rõ ràng và nét không, những chữ nằm kề
  48. nhau có bị dính vào nhau không và những vùng mở của các ký tự thấp có đảm bảo không. Đối với tư liệu nửa tông và gam chuyển tiếp, những thuộc tính sau đây cần phải được định lượng bằng hoặc không dùng kính phóng đại: sự tương ứng giữa các gam màu với nguyên bản và/ hoặc bảng chuẩn; sự đồng nhất của các giá trị xám; sự thể hiện chi tiết phù hợp ở những vùng sáng và tối của ảnh; không xuất hiện vân sóng và các yếu tố xuyên tạc khác; và, đối với những tư liệu gam chuyển tiếp và tư liệu nửa tông (như các bản khắc), cần sự có mặt của những chi tiết tinh vi có trong văn bản nguồn. Những điều cần lưu ý khi kiểm tra trên màn hình Không như các bản in thường có tỉ lệ 1:1 với nguyên bản, các ảnh số hiển thị trên màn hình phần lớn luôn được mở rộng. Đó là vì các pixel của màn hình rộng hơn và chiếm nhiều không gian hơn các điểm tương ứng trên bản in (Xem chương 2 về hiển thị trên màn hình). Khi dpi của màn hình nhỏ hơn pdi quét ảnh thì ảnh hiển thị sẽ được phóng đại. Ví dụ, một ảnh 600 dpi hiển thị trên màn hình có độ phân giải 120 sẽ lớn gấp 5 lần nguyên bản. Chỉ khi nào dpi máy quét và dpi của màn hình bằng nhau thì ảnh mới được xem theo tỉ lệ 1:1. Kích thước và dpi của màn hình có thể được dùng để đánh giá chất lượng ảnh hiển thị trên màn hình. Khi đánh giá ảnh trên màn hình, phải có đối chiếu với tư liệu nguồn ở từng pixel một. Cornell gợi ý rằng khi tiến hành so sánh giữa ảnh màn hình và nguyên bản, bạn nên điều chỉnh
  49. các tầm nhìn hoặc điều chỉnh độ phóng đại để các ảnh mà bạn nhìn được "tương đương" với nhau. - để đánh giá cơ bản, hãy xem nguyên bản bằng mắt thường ở khoảng cách trung bình (12-14 in), nhưng tăng tầm nhìn đến màn hình để bù vào độ phóng đại, ví dụ: đối với ảnh phóng đại 3x, hãy đứng cách màn hình 3- 4 phit (» 1m) - để đánh giá chi tiết, đứng ở tầm nhìn trung bình so với màn hình, nhưng xem các chi tiết của nguyên bản qua kính lúp với độ phóng đại xấp xỉ độ phóng đại của màn hình. Trong quét đen trắng, cần xét đến các nét gấp khúc (jaggies) để xác định mức độ hiển thị những chi tiết nhỏ. Ví dụ: Một ảnh 600 dpi hiển thị trên màn hình 120 dpi lớn gấp 5 lần so với nguyên bản. Để đánh giá cơ bản, ta đứng cách màn hình 5- 6 phít và so sánh ảnh nhìn thấy với nguyên bản được nhìn bằng mắt thường ở tầm nhìn trung bình. Để đánh giá chi tiết, ta đứng cách màn hình ở khoảng cách trung bình và xem các chi tiết của nguyên bản qua kính lúp 5x. (Độ phóng đại của kính lúp tương ứng với tỉ lệ 600/ 120 để xem được các chi tiết ảnh trên màn hình.) công thức 9: xác định độ phóng đại của ảnh trên màn hình
  50. Nếu không chú ý đến các nhân tố phóng đại - đặc biệt nếu không có bản in - ta có thể có những phán xét sai lầm. Ví dụ, khi nhìn ở khoảng cách trung bình so với màn hình, viền nét của một ký tự cao 2mm quét ở 300 dpi có vẻ gấp khúc trên màn hình 60 dpi. Sau khi đánh giá một số ký tự khác của ảnh, người quét ảnh có thể suy luận rằng chất lượng ảnh số chưa đủ và sẽ quét lại tư liệu ở độ phân giải 400 dpi. Lần này các chi tiết của ảnh lại có vẻ kém mịn hơn so với nguyên bản. Nếu nhà kỹ thuật nhìn ảnh 300 dpi ở tầm nhìn 5 insơ thì các vết gấp khúc đã được thu nhỏ và anh ta đã có được đánh giá chủ quan chính xác hơn về chất lượng ảnh. Trong thực tế, các kỹ thuật viên quét ảnh giàu kinh nghiệm có khả năng đánh giá các đường gấp khúc ở tầm nhìn bình thường, nhưng tốt hơn cả là bạn hãy tập nhìn đúng bài bản trước. Chọn lọc để chuyển đổi Các thư viện và cơ sở lưu trữ ngày càng có nhiều dự án ảnh để đáp ứng các nhu cầu thực tế. Tuy nhiên, động cơ mạnh nhất vẫn là thử nghiệm kỹ thuật này. Có nhiều thứ để nói khi trau dồi kiến thức qua thực hành, nhưng một điều quan trọng là ảnh số chỉ có ích khi nào những nhu cầu của người sử dụng được xác định rõ ràng, các thuộc tính của tài liệu được biết rõ và cơ sở kỹ thuật (để chuyển đổi, giữ gìn và phân phối ảnh) thoả đáng với các nhu cầu của dự án. Hãy cân nhắc những nhân tố sau đây khi chọn vật liệu để số hoá Phát triển sưu tập số
  51. - giá trị thông tin của từng tư liệu - giá trị sưu tập của bộ tư liệu - các nguồn tư liệu với loại hình khác nhau - phù hợp với các nguồn khác (cả dữ liệu và siêu dữ liệu) - chủ đề thống nhất / số lượng đáng kể - được nhiều cơ sở quan tâm Các thuộc tính vật lý - kích thước vật lý - mức độ chi tiết/ cao x - dạng tờ rời hay quyển - chất lượng và tình trạng của nguyên bản - công dụng và tình trạng của các tư liệu trung gian (ví dụ bản sao bằng phim đèn chiếu 35 mm) - các phương tiện phản quang hay trong suốt - các quy trình sản xuất đã được sử dụng (in máy, làm bằng tay tay, bố cục nửa tông)
  52. - mối quan hệ giữa các phương tiện (mực, chì, màu nước v.v ) với các vật liệu phụ trợ (giấy, màu giấy) - số lượng tư liệu - sự khác nhau về kiểu và thể loại tư liệu Cân nhắc về vấn đề lưu trữ - mức độ nội dung thông tin có thể được quét (cơ bản, chi tiết hay cấu trúc) - sử dụng để thay thế/ đại diện hay tham khảo t- ính trung thực và độ rõ - các chuẩn chất lượng để chuyển đổi (lưu trữ vi phim hay bản photocopy) - phẩm chất của nguyên bản Chi phí thực hiện - chi phí quét và sách dẫn ảnh - khối lượng vật liệu được quét - cơ sở kỹ thuật cần thiết để đáp ứng những nhu cầu sử dụng khác nhau - khả năng và thực tế của các cơ sở (như việc lưu trữ)
  53. - hiệu quả lâu dài của chi phí (ví dụ: tiết kiệm không gian) Khai thác - mức độ sử dụng thường xuyên cách thức tư liệu được sử dụng (xem lướt trên màn hình, lấy ra để chỉnh sửa, đọc, vào mạng, in, sử dụng lâu dài/ ngắn hạn) - nhu cầu, nhận thức của người sử dụng và các phương tiện kỹ thuật - cân nhắc về tính an toàn - hạn chế về mặt pháp luật Bắt đầu từ đâu? Khi chọn tư liệu để thực hiện một dự án chuyển đổi, hãy cân nhắc đến phần tư liệu có giá trị thông tin cao, có kết cấu chặt chẽ, có thể quản lý và xử lý, nằm trong khả năng tài chính và không liên quan đến những vấn đề làm hạn chế khả năng khai thác như bản quyền. Hãy chọn những tư liệu đang hoặc sẽ có nhu cầu sử dụng lớn (một lễ kỉ niệm sắp tới, một giáo trình mới hay một loại tư liệu chưa được khai thác). Liệu kiểu sắp xếp và mức độ trình bày thư mục có tạo điều kiện thuận lợi cho người sử dụng tiếp cận với các phiên bản số hoá hay không? Hãy cân nhắc đến những khả năng kỹ thuật ở nơi lưu trữ và các khách hàng đầu tiên của bạn. Nếu bạn đã số hoá những tư liệu quý hiếm, thì một phần giá khai thác phải được tính vào giá lưu trữ.
  54. Một số đề xuất về quét ảnh Hiện nay, chưa có tiêu chuẩn chất lượng ảnh chính thức đối với ảnh số. Như bạn thấy, có nhiều loại tư liệu cần được những quy trình quét khác nhau. Những mức độ chất lượng có thể chấp nhận được phải được xác định qua những chuẩn mà ta đặt ra và khẳng định qua các sản phẩm quét. Sau đây là một số kinh nghiệm về nhiều loại tư liệu khác nhau của các cơ sở đã tiến hành một số dự án thí điểm: Tư liệu bản văn đã được xuất bản - 600 dpi quét đen trắng đối với các ảnh thay thế (Cornell) - là độ phân giải đủ để bắt tất cả các thông tin quan trọng và tránh được phí tổn về tiền và lao động để kiểm tra lại từng phần. Tư liệu bản văn có tranh minh hoạ - 600 dpi quét đen trắng có chỉnh sửa - đủ để quét thay thế phần lớn các tranh minh hoạ nếu vi phim và bản photocopy có độ tương phản cao được chấp nhận. Trong trường hợp vi phim và bản photocopy không được chấp nhận, hãy bắt đầu bằng quét xám 8-bit ở độ phân giải 300- 400 tuỳ vào mức độ chi tiết của nguyên bản. Đối với những tranh minh hoạ kiểu nửa tông, hãy theo chỉ dẫn đối với tư liệu nửa tông trình bày ở phần dưới. - các tranh minh hoạ màu cần quét màu 24-bit
  55. - các bản đồ màu cỡ lớn, quét màu 24-bit 200 dpi là đảm bảo độ rõ thoả đáng (Columbia, xem Gertz) Tư liệu nửa tông - 600 dpi quét đen trắng hoặc quét xám ở độ phân giải = 1,5 lần độ mành (Cornell) - tư liệu màu nửa tông cần quét màu 24- bit; bắt đầu ở độ phân giải = 1,5 lần độ mành (Cornell) Tư liệu văn thư lưu trữ - các bản đánh máy/ in laser/ viết bằng bút bi: chỉ cần quét 2-bit ở độ phân giải tối thiểu là 300 dpi - bản viết bằng chì/ bút lông ngỗng/ bút dạ: quét xám 300 dpi 2-bit - bản viết bị hỏng, ố, mờ: quét xám hoặc màu ở 300 dpi 2-bit - bản viết tay: quét màu 600 dpi, 24 bit (Hệ thống Thông tin Thảo bản học tiên tiến, xem Bagnall) Ảnh chụp - quét xám 8-bit, độ phân giải cần thiết phụ thuộc vào chất lượng, chi tiết của nguyên bản và mức độ sử dụng. Ảnh chụp màu cần quét 24 bit, yêu cầu về độ phân giải phụ thuộc vào chất lượng, chi tiết của nguyên bản và mức độ sử dụng
  56. - Viện Lưu trữ ảnh (Image Permanence Institute) đang nghiên cứu về chuẩn chất lượng cho các vật liệu đồ hoạ trong dự án được NEH tài trợ Cân bằng giữa chất lượng và năng suất đầu vào Độ phân giải, số bit và các cấu hình thể hiện phức hợp của thời gian quét ảnh, chi phí, kích thước tệp và các tỉ số nén, sự trung thực, hiển thị màn hình, in và khả năng của các thiết bị. Tăng độ phân giải hoặc màu xám/ màu sẽ làm tăng thời gian quét, xử lý, lưu trữ, truy cập và in trong chuỗi số hoá, và nâng cao những đòi hỏi về mặt hệ thống. Dựa vào phần lý thuyết cơ bản được trình bày ở chương I, chương II sẽ cung cấp kiến thức khái quát về kỹ thuật để hiểu về ứng dụng của công nghệ ảnh số trong thư viện và lưu trữ văn thư. Chương này sẽ đề cập đến hình thái các phần cứng, phần mềm cũng như các tính toán về mặt quản lý. Giống như các dạng thông tin đọc bằng máy khác, việc sử dụng các sưu tập ảnh số phụ thuộc vào cơ sở hạ tầng kỹ thuật phục vụ cho việc tạo ra, duy trì và sử dụng những sưu tập đó. Cơ sở hạ tầng kỹ thuật Một chương trình số có thể chỉ là tạo một đĩa CD-ROM được sử dụng ở một máy tính đơn lẻ, song cũng có thể là cả một thư viện số hoá được sử dụng rộng rãi. Dù có kích thước và phạm vi nào thì một chương trình ảnh vẫn phải cần đến:
  57. - phần cứng và phần mềm - các nguyên tắc và chuẩn ngôn ngữ chi phối mối quan hệ tương hỗ giữa các phần chức năng khác nhau (như chuyển đổi, truy cập) - các giao thức trong giao tiếp và phân phối - trung thành với những thông lệ và những tiêu chuẩn đã có - những cá nhân có khả năng và trình độ phù hợp với công việc Về mặt lý tưởng, mục tiêu đặt ra cho một chương trình ảnh là tăng cường khả năng hiện có để đáp ứng những nhu cầu hiện tại và trong tương lai. Những chương trình ngắn hạn có thể bị hướng theo những nhu cầu và yêu cầu sử dụng hiện tại, song những chương trình dài hạn phải theo mục tiêu bảo đảm giá trị lâu dài của thông tin số. Song sẽ không có một giải pháp nào đủ linh hoạt để thoả mãn được tất cả các tình huống. Vì vậy, các mục tiêu đặc biệt của chương trình ảnh phải dung hoà với cơ sở hạ tầng của chương trình đó. Chương này sẽ cung cấp cho các nhà quản lý thư viện và lưu trữ những kiến thức cần thiết để đưa ra những quyết định có cơ sở về cái gì có thể và không thể làm được trong quá trình phát triển chương trình ảnh dự định. Các cấu hình của hệ thống
  58. Một hệ thống ảnh đầy đủ gồm 6 phần cứng và phần mềm đi kèm có chức năng kiểm soát hoạt động riêng lẻ cũng như phối hợp của các phần cứng đó. Các phần sẽ lần lượt được trình bày cùng với những lưu ý riêng khi sử dụng trong thư viện và lưu trữ, gồm: - máy quét - máy tính - hệ thống lưu trữ - mạng - hệ thống hiển thị - máy in Lưu ý: Các nhà kết nối hệ thống, các đại lý cung cấp phục vụ các trung tâm máy tính (VAR) và các hãng dịch vụ đang ngày càng cung cấp nhiều kiến thức kỹ thuật trên các trang web dành cho các dịch vụ và sản phẩm của họ. Conduct web tìm các trang trắng và cập nhật thông tin trên các cấu hình hệ thống cụ thể. Chuỗi số hoá Các cấu hình được liệt kê ở trên là những phần cứng và mềm riêng biệt. Song các phần chức năng của một chương trình ảnh lại có quan hệ chặt chẽ với nhau. Các cấu hình phải được chọn lọc một cách thống nhất với mục tiêu sử dụng hữu hiệu tất cả các nguồn, kể cả nhân lực. Ví dụ, cơ sở
  59. lưu trữ có kế hoạch tự quét, nhưng cơ sở kỹ thuật lại chỉ có các máy tính lỗi thời và mạng lưới làm việc chậm, thì mua một máy quét năng suất cũng chẳng có mấy ý nghĩa. Hiệu quả làm việc của hệ thống luôn phụ thuộc vào những mắt xích yếu nhất của "chuỗi số hoá." Dưới đây là biểu đồ trình bày trật tự lô gíc của các phần chức năng từ chuyển đổi đến hiển thị. Hình 1: Chuỗi số hoá đầy đủ: Cấu hình 1: Máy quét / Thiết bị bắt ảnh Các máy quét khác nhau về chất lượng ảnh bắt được, hiệu suất và tính thực dụng. Dưới đây là các loại tư liệu thư viện và lưu trữ với những loại máy quét phù hợp: Tư liệu tờ rời, kích thước bình thường
  60. - Máy quét flatbed - các loại máy quét sheetfeed không làm hỏng tư liệu Tư liệu tờ rời, kích thước lớn - máy quét drum - máy quét sheetfeed - camera số Sách đóng thành quyển - các máy quét flatbed loại righ angle, prism và overhead - camera số Vật liệu trong suốt - máy quét slide - máy quét phim - một số loại máy quét flatbed - camera số Những điều cần cân nhắc khi chọn máy quét - loại văn bản và quyển được quét
  61. - các thuộc tính của tư liệu, bao gồm kích thước vật lý - độ phân giải / số bit cần thiết - những nâng cấp trong phần cứng và phần mềm - sự tương thích với phần mềm biên soạn ảnh và quản lý màu - hiệu chỉnh hệ thống - hiệu suất - tốc độ ước lượng và chu kỳ làm việc ngày - đặc tính dễ sử dụng Các máy quét làm việc như thế nào Các máy quét hoạt động rất giống quy cách của các camera thông thường và cũng có nhiều đặc tính tương tự, trước hết là đặc tính quang học. Mỗi thiết bị sử dụng một thấu kính để hội tụ ánh sáng, một lỗ ống kính để điều chỉnh lượng ánh sáng và một lá chắn sáng để điều chỉnh thời gian ánh sáng được phép chiếu qua lỗ ống kính. Ngoài ra mỗi thiết bị còn có một phương tiện thu, nơi ánh sáng hội tụ tạo ra ảnh. ở camera thông thường, phương tiện thu là phim, gồm nền phim và lớp bắt sáng. Lớp bắt sáng gồm những tinh thể nhạy cảm với ánh sáng. Chúng sẽ phản ứng hoá học với sự có mặt hay thiếu ánh sáng bằng cách giải phóng điện tử trong các ion bromua. Sau đó, các điện tử này sẽ
  62. hút các phân tử bạc tụ lại với nhau một cách ngẫu nhiên. Độ phân giải ở đây được xác định ở mức tinh thể nên vô cùng cao. Ảnh ghi được sẽ qua xử lý hoá học rồi lưu vào phim. ở hầu hết các máy quét, bộ phận cảm quang là một vi mạch điện tử gọi là CCD (charged coupled device - bộ ghép nối điện tích). Mỗi CCD gồm nhiều lớp. Lớp ngoài là một mạng điện cực, hay cảm biến (sensor), chia bề mặt thành các pixel. Các điện cực này được nối với các dây dẫn mang điện áp. Một màng lọc màu có chức năng quy định màu cho các pixel và ảnh được tạo thành trên lớp silic nhạy sáng, nơi các điện tử tập trung tại các điểm ảnh trên phân tử silic. Ánh sáng được "cảm nhận" ở mỗi điểm càng nhiều thì giá trị sáng ghi lại càng cao. Các tín hiệu điện tử được khuyếch đại trước khi chuyển sang dạng số. Mức đánh giá chất lượng ảnh đầu tiên là "tỉ lệ tín hiệu - nhiễu", là độ đo sự khác nhau giữa thông tin đúng và lượng "nhiễu" hay "tín hiệu xuyên tạc" xảy ra trong quá trình khuyếch đại tín hiệu. Sự số hoá xảy ra tại thiết bị chuyển analog sang số. Thiết bị này lấy giá trị số là số lượng điện tử có trong mỗi điểm ảnh - thể hiện mức độ sáng tối của mỗi pixel. Nếu máy quét tạo ra ảnh đen trắng, các con số ứng với các giá trị xám sẽ được bộ xử lý ảnh chuyển thành 0 (màu đen) hoặc 1 (màu trắng) tuỳ vào ngưỡng đặt trước và sự chỉnh sửa. Do detector của các CCD hiện nay lớn hơn các cụm tinh thể trên phim, và do CCD đăng ký sự có mặt hay thiếu ánh sáng dưới các mẫu rời rạc và đồng dạng nên độ phân giải số có xu hướng thấp hơn phim. Ảnh thu được sẽ qua xử lý điện từ rồi ghi vào đĩa từ.
  63. Lưu ý: Chất lượng ảnh phụ thuộc vào các đặc tính quang học, những tiến bộ trong kỹ thuật quét (gồm cả khả năng của phần mềm) và tính chính xác của các bộ phận cơ khí / điện tử. Các kỹ thuật quét - điểm - dòng - vùng Trong quét điểm, thông tin của ảnh được bắt liên tục từ pixel này đến pixel khác. Các dụng cụ quét điểm có tính chính xác cao về mặt không gian và tỉ lệ tín hiệu - nhiễu thấp, nhưng năng suất đầu vào thấp. - Ví dụ: máy quét drum đồ hoạ Trong quét dòng, thông tin ảnh được thu bằng một dãy detector có chức năng dò soát bề mặt tư liệu theo từng dòng một. Một số hệ thống có mảng quét 3 dòng (tri-linear array) để bắt các dải màu đỏ, xanh lá cây và xanh lơ của thông tin. Đây là dạng máy quét phổ biến nhất trên thị trường vì nó cân bằng giữa độ chính xác và tốc độ quét. - Ví dụ: máy quét drum đồ hoạ Trong quét dòng, thông tin ảnh được thu bằng một dãy detector có chức năng dò soát bề mặt tư liệu theo từng dòng một. Một số hệ thống có mảng quét 3 dòng (tri-linear array) để bắt các dải màu đỏ, xanh lá cây
  64. và xanh lơ của thông tin. Đây là dạng máy quét phổ biến nhất trên thị trường vì nó cân bằng giữa độ chính xác và tốc độ quét. - Ví dụ: máy quét flatbed Trong quét vùng, thông tin được bắt bởi một ma trận detector. Máy quét có mảng quét vùng mạnh về tốc độ hơn là độ chính xác; khi xảy ra nhiễu hay lỗi lấy mẫu trên vùng quét thì chất lượng ảnh bị ảnh hưởng đáng kể. - Ví dụ: camera số Các loại máy quét - flatbed - sheetfeed - drum - camera số - slide - quét vi phim Máy quét flatbed - là loại máy quét thông dụng nhất, có thể sử dụng rộng rãi, giá hợp lý - có các loại: quét đen trắng, quét đen trắng và xám, quét xám và màu
  65. - chấp nhận các vật liệu phản quang và trong suốt - kích thước vật liệu tối đa là 11"x17", những loại lower-end chỉ quét được đến 8,5"x11". - độ phân giải quang học và nội suy được điều chỉnh qua tấm ép - các CCD trên mảng quét dòng hoặc 3 dòng, thường nằm dưới tấm ép - thao tác thủ công và đơn điệu - giá: $ 500 - $ 50 000+ Giống như máy photocopy, máy quét flatbed có tấm ép bằng kính và tư liệu sẽ được đặt úp trên đó khi sao chụp. CCD và nguồn sáng sẽ chuyển động dưới tấm ép, còn tư liệu vẫn nằm yên. Khi CCD chuyển động qua tư liệu thì từng dòng pixel sẽ được ghi lại. Khoảng cách giữa các dòng bằng khoảng cách giữa các điện cực trên CCD (độ phân giải quang học hay độ phân giải "thực") hoặc được tăng lên một lượng chính xác nhằm tạo ra độ phân giải cao hơn ("nội suy"). Sự chính xác và tốc độ chuyển đổi ảnh hưởng đến chất lượng ảnh. Rất nhiều kiểu máy quét đã sử dụng tay cầm tư liệu tự động nhằm tăng năng suất đầu vào. Các loại máy quét góc vuông (right-angle), lăng trụ (prism),và planetary/ overhead (hành tinh) có thể quét sách đã đóng thành quyển. Sự khác biệt chủ yếu giữa các máy quét fladbed high- end và low- end là ở năng suất đầu vào và các khả năng chỉnh sửa của phần mềm. Ưu điểm
  66. - quét trực tiếp từ nguyên bản - tính năng chỉnh sửa ảnh mạnh - tốc độ và bền (các kiểu high- end) Nhược điểm - hạn chế về kích thước - không kiểm soát được ánh sáng - dải biến động hạn chế - các máy quét loại low- end không quét được chi tiết mức độ đậm nhạt ở các vùng tối, thậm chí các loại high- end cũng không bắt được đầy đủ dải biến động của các phim dương - không phù hợp với các loại vật liệu quá mỏng hoặc rất nhạy sáng - nhìn chung cường độ ánh sáng của các máy quét flatbed không cao hơn máy photocopy. Công trình - Making of America, trường Đại học Cornell và trường Đại học Michigan, quét 600 dpi 1-bit, http:// moa.cit.cornell.edu - Duke Papyrus Archive, quét màu 600 dpi 24-bit, http:// odyssey.lib.duke.edu/ papyrus/
  67. Máy quét sheetfeed Các máy quét sheetfeed cũng sử dụng kỹ thuật giống như máy quét flatbed, nhưng tư liệu không được đặt trên tấm kính phía trên CCD và thanh ánh sáng mà được chuyển qua mảng quét CCD và nguồn sáng cố định nhờ các phương tiện như con lăn, băng tải, trống hoặc chân không. Có hai loại máy quét sheetfeed: - Loại cung cấp vật liệu tự động, xử lý tập tư liệu gồm các tờ có cùng kích thước và không đóng thành quyển; được thiết kế để sử dụng trong thương mại - Loại có tốc độ chậm hơn, cung cấp vật liệu thủ công, có thể xử lý các bản vẽ cỡ lớn Ưu điểm (loại cung cấp vật liệu tự động) - năng suất rất cao đối với các máy high- end - có thể quét đơn và quét đôi Nhược điểm (loại cung cấp vật liệu tự động) - không thích hợp với các vật liệu mỏng hoặc dễ hỏng, hoặc có kích thước phức tạp - kích thước hạn chế - quá trình quét ảnh hưởng đến chất lượng ảnh
  68. - khả năng chỉnh sửa ảnh hạn chế Công trình - Chemistry Online Retrieval Experiment (CORE), Cornell, OCLC và cộng sự, quét 300 dpi 1-bit, http:// www.oclc.org: 5047/oclc/research/projects/core/ Máy quét drum - được thiết kế để phục vụ đồ hoạ - quét xám và màu với độ phân giải cao - sử dụng PMT (photo-multiplier (vacuum) tube) thay cho CCD - các phương tiện được gắn vào một xi lanh quay (trống) - phù hợp với các phương tiện phản quang và trong suốt (gồm cả âm bản ảnh chụp ) - trống quay nhanh khi PMT chuyển động qua tư liệu - giá: $10 000 (máy để bàn) đến $100 000+ Ưu điểm - có độ phân giải cao nhất - PMT cho số bit cao hơn (12 đến 16 bit), tỉ lệ tín hiệu - nhiễu thấp nhất và do đó có dải biến động cao hơn CCD
  69. Nhược điểm - đắt, năng suất đầu vào thấp, có ảnh hưởng đến những vật liệu mỏng/ dễ hỏng - kích thước hạn chế (tối đa thường chỉ là 12"x17") - ứng dụng vào dịch vụ văn phòng là chủ yếu (do chi phí và kỹ năng vận hành cao) Công trình - Dự án ảnh màu kích thước lớn, trường Đại học Columbia, http:// www.culumbia.edu/~klimley/oversized1.html Camera số - máy quét kết hợp với camera quang - CCD dòng và vùng - độ phân giải được đặt theo mảng quét và kích cỡ tư liệu - gồm các loại camera quay phim (studio), thực địa (field) và nghiệp dư (consumer) - là loại máy quét có nhiều khả năng ứng dụng vào thư viện và lưu trữ nhất Ưu điểm
  70. - quét trực tiếp từ nguyên bản - không hạn chế về hình dáng, kích thước chỉ bị hạn chế do yêu cầu về độ phân giải - có thể tăng độ phân giải bằng cách ghép mảnh - kiểm soát được hệ thống chiếu sáng, phản ứng màu tốt - không làm hỏng sách trong quá trình quét - N hược điểm - sử dụng khó, chưa phát triển rộng rãi trên thị trường - tốc độ lấy nguyên liệu và quét chậm - kích thước tệp của các ảnh ghép lớn - yêu cầu ánh sáng liên tục, không nhấp nháy - yêu cầu cao về kỹ năng vận hành máy Ví dụ sản phẩm - Kontron ProgRes 3012 - độ phân giải tối đa là 3072 x 2320 pixel; diện tích mảng quét 512 x 290 pixel, có thể tăng độ phân giải bằng cách vi chỉnh 2 kích thước của mảng quét; bắt được 4 kênh màu, mỗi kênh gồm 12 bit: 1 kênh đỏ, 2 kênh xanh lá cây và 1 kênh xanh lơ; quét mỗi ảnh 8 giây; giá $33 500
  71. - Zeutschel Omniscan 3000 - 5000 x 7000 pixel, kích cỡ lớn nhất 16"x23"; độ phân giải hiệu dụng 300 dpi (400 dpi quét được kích thước tối đa 14"x20"); chỉ quét đen trắng; quét 5 giây/ ảnh với kích thước tối đa 14"x20"; 10 giây/ ảnh với 23"x16"; thế hệ sau (có thể ra đời vào năm 1996) sẽ có mảng quét 7200 x10 000 pixel, quét xám. - Leaf Systems Leaf DCBII - 2048 x 2048 pixel; 14 bit mỗi kênh; giá $27 995. - Kodak DCS 465 Professional Digital Camera Back - 2036 x 3060 pixel; tương hợp với các camera khổ trung bình, thị trường 4x5; 12 bit mỗi kênh; tốc độ quét 8giây/ ảnh; giá $27 995. Công trình - The Electronic Beowulf Project, Thư viện Anh quốc và trường Đại học Kentucky, Máy quét slide - mảng quét CCD dòng hoặc 3 dòng - một số kiểu có khả năng lắp phim với số lượng lớn - chỉ sử dụng với các vật liệu trong suốt và trung gian ảnh của những nguyên bản có tính phản quang - được thiết kế ưu tiên cho thị trường đồ hoạ
  72. - có dải biến động cao hơn máy quét flatbed - độ phân giải đặt sẵn cho các phương tiện trong suốt; khi sử dụng các trung gian ảnh thì độ phân giải hiệu quả phụ thuộc vào kích thước của vật liệu phản quang Ưu điểm - không hạn chế về kích thước, hình dạng (đối với nguyên bản) - sao lưu trên loại phương tiện đáng tin cậy - có dải biến động cao, phù hợp với phương tiện Nhược điểm - ảnh tái tạo đối với trung gian ảnh - thêm chi phí trung gian ảnh đối với các vật liệu phản quang - chất lượng của trung gian có thể không tốt - độ phân giải có thể không đủ để tạo ra các tệp số chủ hoặc để đáp ứng một số yêu cầu sử dụng (như kiểm tra chi tiết) - năng suất đầu vào chậm, đặc biệt là ở những kiểu low-end (30 giây trở lên) - ngoại lệ:PhotoCD imaging workstation (xấp xỉ 5 giây) Ví dụ sản phẩm
  73. - Máy quét Kodak PCD 4045 (một bộ phận của Kodak Pro Photo CD Imaging Workstation 4220); các kích thước: 35mm, 120mm và 4x5; 4096 x 6144 pixel, 12 bit mỗi kênh; giá xấp xỉ $30 000 - Nikon LS3510; kích thước 35 mm; 2000 x 3000 pixel, 12 bit mỗi kênh; giá $7000 - Leaf Systems Leafscan 45; các kích thước: 35 mm, 2-1/4", 6x9 cm, và 4x5, 16 bit mỗi kênh; giá $17 000 Công trình - L.A Fuertes, The Harriman Expedition, Bộ môn Tư liệu hiếm và Bản viết tay, maps/ LAFOpening/LAFap.scr Máy quét vi phim - dùng để chuyển đổi phim cuộn, phích thư viện và phiếu đục lỗ - ứng dụng cao trong thư viện và lưu trữ - cần thiết khi sử dụng phương pháp lai Ưu điểm - không hạn chế về kích thước và hình dạng (đối với nguyên bản) - năng suất đầu vào cao
  74. - sao lưu trên loại phương tiện đáng tin cậy Nhược điểm - ảnh thế hệ 2 hoặc 3 - chất lượng và tình trạng của phim có thể không tốt - độ phân giải của máy quét có thể không đủ Ví dụ sản phẩm - Máy quét phim cuộn Mekel M500XL, mảng quét 6000 dòng; năng suất đầu vào 130 ppm; giá $90 000 (kèm tài liệu, phần mềm và bảo hành) - Máy quét nhiều kiểu phim SunRise SPI-50 (phim cuộn 6 và 35mm, phích nhỏ và phiếu đục lỗ) mảng quét 7500 dòng; năng suất 120ppm khi quét phim cuộn ở 200 dpi; giá $65 000; máy quét xám 8 bit: thêm $10 000 - Máy quét số đa phương tiện Lenzpro 2000, mảng quét 1000 x1000 hoặc 2000x2000 tạo thành các mảnh nhập vào nhau để đạt được độ phân giải tối đa là 8500 dpi trên phim; 1 triệu (8 bit) pixel mỗi giây; quét đen trắng, xám và màu; giá $240 000 Lưu ý: Mặc dù không thực sự là một máy quét phim nhưng máy quét Minolta MS 3000 vẫn có thể quét các ảnh vi phim phóng to kích thước 11"x17" khi chiếu trên màn hình; bắt ở độ phân giải 200, 300 và 400 dpi; 4-5 giây/ ảnh; giá xấp xỉ $15 000
  75. Công trình - Sáng kiến trong truy cập: số hoá vi phim, Thư viện Anh quốc, uk/access/microfilm-digitisation.html Phần mềm quét Bên cạnh các cấu hình phần cứng, hệ thống quét còn có phần mềm với chức năng kiểm soát các tính năng khác nhau của máy quét, bao gồm: - độ phân giải, số bit và ngưỡng - kích thước ảnh - chỉnh sửa (các đường cong tái tạo màu, các bộ lọc) - thao tác ảnh (điều chỉnh kích cỡ, quay) - định dạng và nén tệp Các máy quét lower- end thường được bán cùng phần mềm có chức năng hạn chế và có thể cần đến một phần mềm bổ sung như Adobe Photoshop nếu muốn tạo ra ảnh có chất lượng thoả đáng. Nếu cần điều chỉnh cả tốc độ thì có thể bạn sẽ phải tính đến những phần mềm có chức năng cao hơn để thay thế phần mềm nguyên bản của máy quét. Để đánh giá các phần mềm như vậy, bạn hãy kiểm tra những đặc tính sau đây:
  76. - các thông số ngầm định để phù hợp được với nhiều dạng tư liệu với những tình trạng khác nhau (ví dụ: các tư liệu có độ tương phản thấp, trung bình, cao; ảnh nửa tông có độ mành khác nhau; ảnh chụp) - phân trang và phân vùng (tự động và/ hoặc bằng tay) đối với những tư liệu hỗn hợp - các tính năng xử lý ảnh (ví dụ: đặt ngưỡng dải biến động, tăng độ nét, làm lại, cắt xén, chỉnh) - các tính năng điều chỉnh kích cỡ và biên tập trong mục xem trước (preview) - tính năng tạo ra và ghi lại các thiết định tuỳ biến dành cho người sử dụng - các dạng nén và cấu hình tệp - các tính năng nén và ghi vào đĩa tự động - kiểm soát các đường cong gama, điểm trắng và điểm đen - biểu đồ để xem và biên soạn các thang màu - hệ thống quản lý màu - các tính năng đặt tên tệp và kết cấu tư liệu Các chuẩn
  77. - ISIS (Image and Scanner Interface Specification), phần mềm xử lý ảnh và giao diện máy quét được tạo ra năm 1990 bởi Pixel Translations (chuẩn de facto hiện được hơn 25 nhà sản xuất của khoảng 125 loại máy quét áp dụng) - ANSI/AIIM MS44-1998, Các thông lệ đề xuất để kiểm soát chất lượng các máy quét ảnh, còn được gọi là FIPS PUB 157. (Chuẩn này đang được cập nhật thành ANSI/AIIM MS50 -199x.) Cho phép sử dụng đối tượng kiểm tra máy quét X440. - ANSI/AIIM MS49-1993, Các thông lệ đề xuất để quét phim cuộn và Microfiche - Các tiêu chí kiểm tra chất lượng ảnh của máy quét (AIIM Scanner Test Chart #2, IEEE 167A.1-1995 Standard Facsimile Test Chart, RIT Alphanumeric Test Object, Kodak Q-60 targets, các thanh xám và màu), Kodak Color Separation Guide and Gray Scale (Small), Publication Q- 13 Cấu hình 2: Máy tính Mục đích của việc xác định các yêu cầu về máy tính là tìm cách tránh các vướng mắc ở mọi công đoạn: quét, lưu ảnh vào đĩa, tạo ra các ảnh phái sinh dành cho khai thác, vận chuyển ảnh qua mạng, hoặc gửi ảnh đến màn hình hoặc máy in. Các yêu cầu đối với hệ thống sẽ trở nên rất cao khi nó phải xử lý tệp số chủ, những tệp phái sinh có độ phân giải cao hoặc một lượng ảnh lớn.
  78. Hiệu suất của máy thường được đánh giá theo tốc độ xử lý, nhưng lượng bộ nhớ truy xuất ngẫu nhiên (RAM), cấu trúc buýt (bus architecture) và các giao diện trong máy tính giữ những vai trò quan trọng như nhau trong việc tối đa hoá năng suất đầu vào. Những bộ phận này có tuổi thọ sử dụng lâu dài và làm giảm nhẹ nhu cầu nâng cấp máy tính mỗi khi có một thế hệ máy mới "nhanh nhẹn" hơn ra đời. Những cấu hình được giới thiệu sau đây là cần cho cả môi trường quét và truy cập. Nếu máy tính của bạn còn được sử dụng để tạo ra các ảnh phái sinh hoặc được hoạt động như một máy chủ dung tích lớn thì cần phải đi kèm với một máy trạm nhỏ như SunSparc. Bạn hãy tham khảo ý kiến của những người có chuyên môn. Máy tính quét/ QC (không kèm theo màn hình) Năng suất thoả đáng đạt được với máy tính có những chi tiết kỹ thuật tối thiểu như sau: Cấu hình 2: Máy tính Mục đích của việc xác định các yêu cầu về máy tính là tìm cách tránh các vướng mắc ở mọi công đoạn: quét, lưu ảnh vào đĩa, tạo ra các ảnh phái sinh dành cho khai thác, vận chuyển ảnh qua mạng, hoặc gửi ảnh đến màn hình hoặc máy in. Các yêu cầu đối với hệ thống sẽ trở nên rất cao khi nó phải xử lý tệp số chủ, những tệp phái sinh có độ phân giải cao hoặc một lượng ảnh lớn.
  79. Hiệu suất của máy thường được đánh giá theo tốc độ xử lý, nhưng lượng bộ nhớ truy xuất ngẫu nhiên (RAM), cấu trúc buýt (bus architecture) và các giao diện trong máy tính giữ những vai trò quan trọng như nhau trong việc tối đa hoá năng suất đầu vào. Những bộ phận này có tuổi thọ sử dụng lâu dài và làm giảm nhẹ nhu cầu nâng cấp máy tính mỗi khi có một thế hệ máy mới "nhanh nhẹn" hơn ra đời. Những cấu hình được giới thiệu sau đây là cần cho cả môi trường quét và truy cập. Nếu máy tính của bạn còn được sử dụng để tạo ra các ảnh phái sinh hoặc được hoạt động như một máy chủ dung tích lớn thì cần phải đi kèm với một máy trạm nhỏ như SunSparc. Bạn hãy tham khảo ý kiến của những người có chuyên môn. Máy tính quét/ QC (không kèm theo màn hình) Năng suất thoả đáng đạt được với máy tính có những chi tiết kỹ thuật tối thiểu như sau: - CPU: Pentium hoặc 486/ 66MHz (PC tương hợp của IBM); 68030 hoặc 040 (Mac LC, Performa, PowerMac, Quadra) - Buýt ra/ vào (I/ O bus): EISA hoặc MCA là đủ để quét đen trắng; PCI, EISA- VL Bus, MCA VL- Bus để quét xám hoặc màu - RAM: 16 MB đổi quét đen trắng; tối thiểu 32 MB để quét xám hoặc màu
  80. - Bộ điều khiển (controller): SCSI, IDE (tuỳ vào lượng lưu trữ ổ cứng cần thiết và các phụ kiện sẽ được sử dụng) - Giá năm 1996: xấp xỉ $2500 (gồm ổ dứng 1GB) Hiệu suất cao hơn (giá phải chăng) với hệ thống gồm: - Một Pentium, 68040 hoặc Power PC RISC CPU - RAM đủ để chứa các chương trình cần thiết và 2 bản sao của một ảnh không nén - I/ O 64-bit (PCI) - Bộ điều khiển: SCSI-II Máy tính truy cập - CPU: 486 đối với PC, và 68030 hoặc 40 đối với Mac - I/ O và cấu hình hệ thống cần tương thích hoặc lớn hơn tốc độ truyền số liệu của mạng và các thiết bị ngoại vi - RAM: 8 MB - Bộ điều khiển: IDE hoặc SCSI ( tuỳ vào các phụ kiện) - Giá năm 1996: xấp xỉ $1200, gồm ổ cứng 500 MB và màn hình 14" Lưu ý: Hãy phát triển các hệ thống quét/ QC và truy cập. Kiểm tra cơ sở của hệ thống hiện hành và nâng cấp có chọn lọc khi cần thiết.
  81. Các bộ phận của máy tính - CPU (central processing unit): bộ xử lý trung tâm - RAM (random- access memory): bộ nhớ truy xuất ngẫu nhiên - I/ O (input/ output bus): buýt ra/ vào - Bộ điều khiển các thiết bị ngoại vi (các bo mạch giao diện) CPU CPU thực hiện tất cả các chức năng xử lý ảnh chính của máy tính. Các hãng dịch vụ máy tính có thể thuyết phục chúng ta rằng một máy tính mạnh là cần thiết để xử lý ảnh, nhưng thực ra một Pentium Pro hoặc một PowerPC Chip trong máy không thể đảm bảo rằng các thiết bị ngoại vi sẽ hoạt động với tốc độ tối đa. Vì vậy, nên đánh giá máy tính bằng cách cân nhắc xem mua máy mới hay nâng cấp máy cũ sẽ đỡ tốn kém hơn. Nói chung, phải thừa nhận rằng các máy tính mua trước năm 1994 chỉ thích hợp để truy cập các ảnh có độ phân giải màn hình thấp, còn để sử dụng vào những mục đích cao hơn như quét thì tốt nhất là nên mua máy mới. Tốc độ phát triển nhanh của các CPU, cùng với nhu cầu cao về những chương trình chạy trên nền đồ hoạ mới dựa trên khả năng xử lý và RAM, ít nhiều đã hạn chế tuổi thọ sử dụng vào xử lý ảnh high- end của các máy tính ở mức khoảng 3 năm. Mặc dù Pentium Pro chip thế hệ thứ 6 của Intel hiện đang ở vị trí thống soái, nhưng đến cuối năm 1996 có thể
  82. các chip đa phương tiện mới có thể ra đời, được tối ưu hoá về mặt đồ hoạ, âm thanh và video. Sau đó có thể sẽ đến lượt những phát triển mới của các I/ O và bộ điều khiển (xem phần sau) góp phần cải thiện đáng kể tốc độ lưu trữ, hiển thị và in ảnh. Bộ nhớ truy xuất ngẫu nhiên (RAM) Như định nghĩa của Từ điển tin học minh hoạ Prentice- Hall, RAM là vùng nhớ đầu tiên của máy tính để viết, ghi và gọi thông tin cũng như các lệnh của chương trình có thể được CPU sử dụng. Nếu các lệnh chưa sẵn sàng được truy xuất trong RAM đối với CPU thì chúng phải được truy xuất từ vùng nhớ thứ hai của máy tính (tức là ổ cứng). Vùng nhớ thứ 2 này vận chuyển dữ liệu chậm chạp hơn. Về mặt hiệu suất, RAM là một bộ hiệu chỉnh xuất sắc. Một máy tính cá nhân được cấu hình với bộ nhớ lớn hơn mức tối thiểu nhất định (2MB để chạy DOS và Windows 3.1) thông thường sẽ vận hành tốt hơn một hệ thống với bộ nhớ hạn chế ở mức đó, dù hệ thống đó có CPU tốc độ cao hơn. Tăng RAM sẽ cải thiện năng suất trong các quá trình: Tăng RAM sẽ cải thiện năng suất trong các quá trình: - quét - biên soạn và xử lý ảnh - truyền qua mạng
  83. - hiển thị - duyệt và truy cập - in Tác giả cuốn Real World Scanning cho rằng nếu đưa một ảnh vào bộ nhớ và xử lý ảnh ở đó (hiển thị , biên soạn hoặc in) thì quá trình xử lý sẽ nhanh gấp 5 - 50 lần so với đĩa cứng (Blatner, tr. 126). Để quét với tốc độ thoả đáng, bộ nhớ RAM phải đủ để chứa một ảnh chưa nén và các chương trình để xử lý ảnh đó. Ví dụ, nếu sử dụng Adobe Photoshop trên máy tính cá nhân với phần mềm HP DeskScan, cần bộ nhớ 16 MB để hỗ trợ riêng hệ thống phần mềm (Windows 3.1, DeskScan và PhotoShop) Các chương trình biên soạn ảnh cần bộ nhớ RAM cực lớn. Để hoạt động tốt, Adobe Photoshop cần bộ nhớ lớn gấp 3 - 5 lần kích thước tệp, hoặc phải sử dụng ổ cứng. Do đó, quét một ảnh 8"x10" (7,2 MB) ở 300 dpi 8- bit cần ít nhất 21,6 MB của RAM, cùng với 16 MB cần cho các chương trình - và tổng số bộ nhớ cần thiết là xấp xỉ 38 MB. Vì vậy, để quét xám hoặc màu cùng biên tập ảnh, cần RAM có dung lượng từ 32 MB trở lên. Dữ liệu sách dẫn của các sưu tập ảnh cũng nằm trong RAM để đẩy nhanh tốc độ kiểm tra. Như sẽ thảo luận trong Chương 4, cần phải tạo ra các siêu dữ liệu (metadata) đơn giản, lôgíc và chính xác cho các sưu tập ảnh, không phải chỉ để cho dễ hiểu mà còn để giảm mức sử dụng RAM xuống tối tiểu khi truy cập.
  84. - Chi phí: Giá 1MB của RAM thay đổi tuỳ thuộc vào thị trường và số lượng mua, nhưng nhìn chung giá cả đang ngày càng hạ. Giá RAM điển hình từ $40- $50/MB vào năm 1995, nhưng một báo cáo tháng 5 năm 1996 cho thấy giá RAM thời gian đó là $20 - $25 đối với Mac và PC. Buýt I/ O Máy tính gửi thông tin đến CPU thông qua các I/ O. Như định nghĩa của Tạp chí PC, buýt gồm phần mềm, phần cứng và mạng điện có khả năng vận chuyển dữ liệu giữa các phụ kiện bên trong, bên ngoài (ổ cứng, ethernet card, máy quét, màn hình và máy in) và CPU. ở các máy tính cá nhân và Macintoshe mới, có rất nhiều cấu trúc buýt thông nhau. Ví dụ CPU và RAM được nối với nhau bởi một buýt nội bộ chạy ở tốc độ đồng hồ CPU cao nhất. Giống như các mạng, cấu trúc buýt có dải thông (bandwidths) giới hạn lượng dữ liệu tối đa có thể được gửi đến một số địa chỉ bit (bit adresses) cố định mỗi giây. Tốc độ đồng hồ CPU (166MHz) và buýt xác định tốc độ truyền dữ liệu. Để tránh "ùn tắc", cần hệ thống tối thiểu là 32 bit , còn để truyền thông tin với tốc độ nhanh, cần các hệ thống 64 bit. Những hệ thống như vậy gồm: - MCA (Micro Channel Architecture), 32 bit - EISA (Extended Industry Standard Architecture), 32 bit - PCI (Peripheral Component Interface) 32 và 64 bit Bộ điều khiển
  85. Bộ điều khiển có chức năng kiểm soát khả năng hoạt động phối hợp của nhiều thiết bị khác nhau (ví dụ: ổ cứng, màn hình, CD-ROM, máy quét). Những giao thức quy định các bộ điều khiển là: IDE (Intgrated Drive Electronics) - sức chứa tối đa của ổ cứng IDE là 528 MB; "IDE nâng cấp" có thể hỗ trợ các ổ đĩa có sức chứa tới 8,4 GB - hỗ trợ tối đa 2 thiết bị SCSI (Small Computer Systems Interface) - SCSI- 1 cho phép tốc độ chuyên chở tối đa là 5MB/ giây. SCSI- 2 cho phép 40 MB/ giây - cần card điều khiển SCSI - ví dụ: Adaptec AHA- 2940 PCI (SCSI- 2) - SCSI-1 và SCSI- 2 có khả năng hỗ trợ 7 thiết bị - Giao diện lập trình SCSI tiên tiến (ASPI) là phần mềm SCSI chuẩn có khả năng chia sẻ một giao diện với nhiều điều hợp chủ và trình điều kiển thiết bị (device drivers). - ví dụ: máy quét với card SCSI (xem phần sau) gồm một trình điều kiển (driver) ASPI đã được sắp xếp phù hợp trong quá trình lắp đặt
  86. Mặc dù bộ điều khiển SCSI hoặc IDE xử lý các lệnh từ CPU, các bộ điều khiển khác, hay "bo mạch giao diện" thực tế lại được truyền đến các phụ kiện bên ngoài. Những bo mạch như vậy hỗ trợ cho những bộ phận khác nhau: bo mạch phụ trợ cho máy quét gọi là bo mạch giao diện máy quét; cho màn hình gọi là bộ điều khiển màn hình, video card hay bộ phận tăng tốc đồ hoạ; và cho máy in gọi là bo mạch giao diện máy in. Trước đây, các bo mạch giao diện với bộ xử lý chuyên dụng được sử dụng để hỗ trợ CPU trong nhiều chức năng ảnh đặc biệt (như nén, giải nén, thay đổi kích thước). Ngày nay, các CPU tốc độ cao có khả năng thực hiện tất cả các chức năng đó (xem phần sau). Các bo mạch giao diện máy quét Không có một giao thức chuẩn nào trong giao tiếp giữa máy quét và máy tính. Nhiều nhà sản xuất khác nhau đã phát triển những giao thức riêng và các card giao diện, với "hương vị riêng" của các bo mạch dành cho mỗi máy quét (ví dụ: Fujitsu tương thích). Bản thân các máy quét thường không nén ảnh hoặc ghi các header mà thường phần mềm quét hoặc card nén thực hiện công việc này trong PC chủ. Những card giao diện đơn giản được sử dụng để truyền dữ liệu ảnh đến RAM; một chương trình phần mềm nén sau đó sẽ nén và ghi ảnh. Ngày càng nhiều máy quét có bo mạch nén đi kèm được sản xuất. Những máy này có khả năng sử dụng một giao diện giao tiếp chuẩn hơn, như SCSI để chuyển dữ liệu vào PC chủ. Bộ điều khiển SCSI có hiệu suất và tính hữu dụng cao hơn các bo mạch giao diện có sẵn. Ví dụ, có thể đạt được năng suất cao
  87. hơn 10 - 15% bằng cách nối trực tiếp một máy quét HP ScanJet với bộ điều khiển SCSI. Ví dụ sản phẩm: bo mạch giao diện máy quét DUNORD I-3000 PCI (tốc dộ truyền 133MB/ giây), hỗ trợ các máy quét đen trắng và xám, giá $1800 Bộ điều khiển màn hình Số lần khai thác ảnh trong một môi trường trực tuyến bị ảnh hưởng không chỉ bởi dải thông của mạng, tốc độ của CPU và buýt PC mà còn bởi tính hiệu quả của bộ điều khiển màn hình khi biên tập ảnh và xử lý các lệnh. Sự phát triển của các bộ điều khiển màn hình gắn liền với những cải thiện trong thiết kế buýt I/ O. Năm 1993, các bộ điều khiển VLB (VESA Local Bus) ra đời, làm tăng tốc độ truyền dữ liệu từ CPU đến màn hình lên 4 lần trong các máy EISA. Tháng 1 năm 1995, video card PCI có chức năng hỗ trợ truyền dữ liệu 64 bit xuất hiện. Các bộ điều khiển màn hình gây tắc nghẽn hệ thống khi chúng không giữ nổi lượng thông tin gửi từ CPU đến màn hình. Đặc biệt là các màn hình rộng thường gây khó khăn cho bộ điều khiển bởi vì chúng cần nhiều thông tin với tốc độ truyền cao. Do vậy, ảnh sẽ được hiển thị nhanh nhất khi giao diện buýt của video card rộng bằng buýt PC, và bộ nhớ của nó (xem trang 89) đủ để hỗ trợ độ phân giải cao nhất của màn hình ở các tốc độ trên 70 Hz.
  88. Các video card tốc độ cao được thiết kế sao cho một chip CPU nằm trên chính bộ điều khiển. Các bộ điều khiển với những chip như vậy, thường do công ty S3 sản xuất, đôi khi được gọi là "bộ tăng tốc đồ hoạ" (graphics accelerator) hay "bo mạch tăng tốc" (accelerator board). Nếu không có chip CPU, video card sẽ truyền dữ liệu với tốc độ như một buýt I/ O. - Ví dụ sản phẩm: Diamond Stealth 64 PCI (1MB DRAM), giá $299; ATI Graphics Pro Turbo PCI (4MB VRAM), $499; Cornerstone ImageAccel 2 1600/75 (2MB VRAM), %595. Các bo mạch giao diện máy in Những bo mạch này cho phép in ảnh có độ phân giải cao ở tốc độ cao nhất của máy in. Không có chúng, các máy in lade thông thường có thể bị đình trệ hàng phút hoặc hàng giờ khi in ảnh số, và hệ thống in cần đến một máy chủ dành riêng cho việc in. - Ví dụ sản phẩm: Bộ gia tốc mạng in ảnh Xionics Xip Print II dành cho loạt máy in HP LaserJet 4 và 5, giá $795 Hệ điều hành Có 4 hệ điều hành phổ biến nhất là Macintosh, Windows 3.1 hoặc Windows 95, WindowsNT và Unix. Mỗi hệ đều có thể được sử dụng hữu hiệu trong xử lý ảnh. Khi sử dụng Unix và WindowsNT, cần chi phí cao về nhân lực và thiết bị, nhưng những hệ này lại cung cấp bộ nhớ rộng và có khả năng thực hiện nhiều chức năng - những đặc điểm cần thiết trong
  89. quản lý những tệp phức tạp, và các tính năng xử lý đợt cần cho những dự án quy mô lớn. Trong chuỗi số hoá, khi cần tạo ra các ảnh phái sinh cho khai thác (xem trang 81), môi trường Unix có ưu thế rõ ràng, bởi vì rất nhiều phần mềm miễn phí và các thư viện chuyển đổi ảnh thương mại đã có sẵn trong Unix. Cả 4 hệ thống có thể được sử dụng ở máy chủ trong một môi trường mạng, miễn là có đủ bộ nhớ và hệ thống sẽ làm việc chủ yếu với các tệp ảnh "tĩnh" (tức là đã được tạo ra, đặt tên và ghi lại). Nếu máy chủ làm việc với việc chuyển đổi số liệu và ảnh động ("on-the-fly") thì WindowsNT và Unix là những môi trường phù hợp. Các hệ thống Macintosh và Windows chiếm đa số trong các chương trình được sử dụng và có khả năng hỗ trợ hàng loạt chương trình quét, biên tập và xử lý ảnh (ví dụ: OCR). Ngoài thiết kế giao diện sử dụng (user-interface design), những hệ thống này chủ yếu khác nhau ở khả năng thể hiện các gam xám và màu (xem trang 89). Kết hợp toàn bộ Đã có những tiêu chuẩn cho từng bộ phận và giao diện trong chuỗi số hoá, nhưng cho đến nay, có rất ít mối liên kết giữa các hãng sản xuất nhằm đảm bảo rằng tất cả các bộ phận trên sẽ hoạt động phối hợp một cách hiệu quả. SCSI là một bước đột phá với khả năng cho phép nhiều thiết bị cùng liên kết với một bộ phận kiểm soát. Tương tự, sự phát triển của chuẩn TWAIN ("Technology Without An Important Name" - Công nghệ không tên) cũng tạo khả năng cho phần mềm của những hãng sản
  90. xuất khác nhau hoạt động phối hợp với nhau. Một bước phát triển nhiều hứa hẹn nữa là Cornerstone's InputAccel với giao diện chuẩn hoá hỗ trợ một loạt phần cứng và phần mềm được sử dụng vào kỹ thuật ảnh số. Khối tương hợp mà phần mềm này cung cấp giúp các nhà kết nối và phát triển ứng dụng đưa ra những cấu hình hệ thống ảnh đáp ứng được những yêu cầu đặc biệt mà không phải viết "mã dính". Vào mùa xuân năm 1996, hơn 30 hãng cung cấp ảnh hàng đầu đã công bố dự án phát triển và kinh doanh các sản phẩm tương hợp InputAccel. Chuẩn xử lý thông tin Liên bang FIPS (The Federal Information Processing Standard) dành cho FIPS 194 là một bước tiến quan trọng khác trong việc mở ra các hệ thống ảnh có cấu trúc. FIPS 194 mô tả một kiến trúc hệ thống ảnh gắn với các dạng tệp chuẩn như được mô tả trong ANSI/ AIIM MS 53-1993. Các hãng liên kết được khuyến khích sử dụng chuẩn này khi mua các sản phẩm ứng dụng được quét mành để tránh các cấu hình độc quyền. Mặc dù các chuẩn đều cho phép khả năng hoạt động phối hợp cao của các phần mềm và phần cứng, bạn vẫn không thể xem thường vấn đề giá cả. Hãy cố gắng tạo ra những hệ thống đơn giản: - giảm số lượng thiết bị đến mức tối thiểu - sử dụng phần mềm lắp đặt và trọn gói thích hợp
  91. - chọn những thiết bị và phần mềm thông dụng trên thị trường để các hãng dịch vụ có thể cung cấp các bộ phận và / hoặc tiến hành nâng cấp khi cần thiết. Cấu hình 3: Các phương tiện và thiết bị lưu trữ Cấu hình này, bao gồm các phương tiện lưu trữ và các thiết bị đi kèm với nó, có chức năng hỗ trợ cho việc khai thác và bảo dưỡng lâu dài các ảnh số. Sau đây là một số so sánh về mặt hiệu suất, tính an toàn, độ tin cậy và chi phí; một nghiên cứu cụ thể về nhớ có hệ thống để ứng dụng trong thư viện và lưu trữ; các công thức ước lượng mức độ nhớ cần thiết đối với một chương trình ảnh. Các cấu hình nên sử dụng Các cấu hình của bộ nhớ bao gồm các phương tiện trên đó thông tin số được ghi và các thiết bị được sử dụng để ghi, đọc và xử lý thông tin đó. Trong một chương trình ảnh hoàn thiện, một trong 3 nhân tố thiết yếu là "cơ sở hạ tầng sâu" được xác định rõ (CPA/RLG Task Force) bao gồm các chính sách, hỗ trợ nhân lực và các quy chế quản lý nhằm đảm bảo tính thống nhất, an toàn, phổ biến, và phân phối được các thông tin số. Do các sưu tập số lớn bé khác nhau nên sự lựa chọn về bộ nhớ và các tiêu chuẩn cho khai thác sẽ có ảnh hưởng rõ rệt đến việc tính toán những yêu cầu về xử lý và phân phối các ảnh số. Những vấn đề trong việc duy trì ảnh số lâu dài sẽ được thảo luận trong Chương IX.
  92. Có rất nhiều khả năng lựa chọn khi nhớ, nhưng những gợi ý được đưa ra sau đây phù hợp với thiết kế và hoạt động chung của toàn bộ hệ thống: - các thiết bị và phương tiện lưu trữ có tốc độ đọc và/ hoặc viết ổn định ("tốc độ truyền") phù hợp với các yêu cầu về năng suất đầu vào trong suốt chuỗi số hoá - dựa vào nhiều mức độ nhớ để truy cập, in, lưu trữ và khai thác - thực hiện các giao thức và thủ tục phần mềm để nhớ cả khối và lưu trữ - đầu tư vào những kiến trúc có thể tăng giảm nhằm đảm bảo sự phát triển thoả đáng và tốc độ với chi phí tối thiểu - hãy chỉ mua các phương tiện khi cần thiết nhằm giảm được chi phí và tăng sức chứa - cân nhắc cả chi phí cho những bổ sung ban đầu - gồm cả nâng cấp máy tính khi cần thiết (ví dụ thêm RAM) - và bảo dưỡng Các tiêu chuẩn đánh giá (phương tiện và thiết bị) - tính năng - tốc độ - tốc độ viết và đọc thông tin số (tính bằng đơn vị MB/ giây) - độ tin cậy - độ bền của phương tiện và hiệu suất của thiết bị
  93. - tính an toàn - những rủi ro nào có thể xảy ra với giải pháp nhớ thông tin và có những chế độ bảo vệ dữ liệu nào (ví dụ: sửa và phát hiện lỗi, chi tiết thừa, và chế độ bảo vệ khi xoá, viết đè hoặc sửa) - chi phí - chi phí ban đầu, chi phí thêm cho các hệ thống phụ, đào tạo, bảo dưỡng, mức độ khai thác (ví dụ: khai thác trực tuyến 24h/ ngày) và di nhập dữ liệu ("khai thác lâu dài") Các phương tiện lưu trữ Cho đến thời gian gần đây, đĩa quang và các thiết bị đi kèm của chúng vẫn là những phương tiện duy nhất mang lại lợi nhuận để khai thác các ảnh số trên mạng với tốc độ tương đối ( ví dụ: phù hợp với dải tần của mạng). Ngày nay, giá cả hạ nhanh khiến cho các đĩa từ tốc độ cao trở nên phù hợp với các mục đích khai thác cấp I. Điều này đặc biệt đúng trong các chương trình ảnh mạng có tầm cỡ. Các phương tiện khác nên được sử dụng vào lưu trữ, phân phối ngoài mạng và khai thác mạng cấp II, bao gồm in ấn và đưa các ảnh có độ phân giải cao lên màn hình hoặc các sách báo xuất bản. Do giá của các đĩa từ tiếp tục hạ, những gì được sử dụng trong khai thác mạng cấp II có thể được lưu giữ bằng đĩa từ. Những loại phương tiện sau đây là phù hợp nhất để ứng dụng trong thư viện và lưu trữ Đĩa từ Đĩa cứng