SlideShare a Scribd company logo
1 of 17
DIGITAL LIBRARY STANDARDS & TECHNOLOGY
(minhtri.itp@gmail.com)
I. CHUẨN DỮ LIỆU.......................................................................................................................2
II. DIGITAL LIBRARY OPEN SOURCCE...................................................................................8
III. YÊU CẦU VỀ KỸ THUẬT....................................................................................................13
IV. KẾT LUẬN.............................................................................................................................15
V. THAM KHẢO..........................................................................................................................17
I. CHUẨN DỮ LIỆU
A. ĐỊNH NGHĨA VỀ CÁC LOẠI SIÊU DỮ LIỆU (METADATA)
1. Siêu dữ liệu mô tả (Descriptive Metadata)
 Siêu dữ liệu dạng này cung cấp thông tin mà, (a) cho phép phát hiện các
bộ sưu tập hoặc đối tượng số thông qua sử dụng công cụ tìm kiếm, và (b)
cung cấp một ngữ cảnh nhằm giúp người dùng hiểu được thông tin gì đang
tìm kiếm.
 Khi một bộ sưu tập số trở lên ngày càng lớn, hoặc khi người dùng tìm
kiếm trên nhiều bộ sưu tập cùng một lúc (như tìm kiếm qua Internet), thì
việc phát hiện ra một đối tượng số quan tâm trở thành một bài tập “tìm
kiếm một mũi kim trong bể nước”. Vậy, nếu không có những tiêu chuẩn
siêu dữ liệu thống nhất và các nguyên tắc thu thập và lưu trữ siêu dữ liệu
mô tả, thì tất cả các bộ sưu tập số, cho dù là nhỏ nhất cũng trở lên vô
dụng.
 Siêu dữ liệu cho mỗi đối tượng số cụ thể sẽ khác nhau tuỳ thuộc vào đối
tượng số đó, nhưng thường bao gồm những phần tử thông tin như nhan đề
hay tiêu đề - nó là cái gì, ai tạo ra nó, người cộng tác là ai (Contributors),
ngôn ngữ, nó được tạo ra khi nào, vị trí của nó ở đâu, chủ đề, vv … Ở cấp
độ của bộ sưu tập, người dùng thường có thể quyết định phạm vi, sự sở
hữu, những hạn chế truy cập, và nhiều đặc tính quan trọng khác nhằm giúp
người dùng hiểu được bộ sưu tập số đó.
 Một tiêu chuẩn siêu dữ liệu mô tả nổi tiếng cho thư viện đó là biên mục có
thể đọc máy - MARC (MAchine-Readable Catalog) đã được sử dụng cho
biên mục sách và nhiều ấn phẩm khác, và MARC đã đáp ứng tốt cho công
tác biên mục điện tử của một thư viện truyền thống, song tiêu chuẩn này
không được thiết kế để mô tả hình ảnh, tệp tin âm thanh, cũng như nhiều
dạng và phương tiện lưu trữ mới khác.
 Một tiêu chuẩn siêu dữ liệu mô tả quan trọng đang nổi lên cho mô tả hình
ảnh và nhiều đối tượng đa phương tiện khác là Dublin Core, đó là một
nhóm 15 phần tử thông tin được phát triển để dễ dàng hiểu và sử dụng.
 Tiêu chuẩn Dublin Core được thiết kế sao cho nó cung cấp một cơ chế
được chấp nhận rất rộng rãi để cho phép phát hiện thông tin, song có lựa
chọn cho phép nhiều cộng đồng sử dụng khác nhau dễ dàng thích nghi và
tùy biến nó bằng việc đưa thêm vào các trường thông tin có giá trị cho
cộng đồng sử dụng đó. Theo cách này, một tiêu chuẩn cơ sở tương tự có
thể được sử dụng cho nhiều mục đích và mô hình kinh doanh.
2. Siêu dữ liệu cấu trúc (Structural Metadata)
 Dạng thứ hai của siêu dữ liệu là siêu dữ liệu cấu trúc. Dạng siêu dữ liệu
này mô tả các liên kết trong phạm vi hoặc giữa mỗi đối tượng thông tin
liên quan. Một cuốn sách bao gồm các trang và chương sách là một trong
những ví dụ rõ ràng nhất của siêu dữ liệu cấu trúc. Siêu dữ liệu cấu trúc
thường sẽ giải thích các hình ảnh trang sách cấu thành lên mỗi chương
sách như thế nào, và những chương sách đó cấu thành lên một cuốn sách
như thế nào.
 Ngoài ra, cũng có những hình vẽ minh họa riêng rẽ, và siêu dữ liệu cấu
trúc cũng có thể liên kết những hình này tới các chương sách, hoặc tới một
danh mục bao gồm tất cả các hình ảnh minh họa trong một cuốn sách. Siêu
dữ liệu cấu trúc trợ giúp người dùng di chuyển giữa mỗi đối tượng, bao
gồm cả một đối tượng phức hợp.
3. Siêu dữ liệu quản trị (Administrative Metadata)
 Siêu dữ liệu quản trị tạo ra sự dễ dàng truy cập, quản lý và bảo quản
nguồn tài nguyên số. Nó có thể mô tả một trình xem và duyệt thông tin,
hoặc trình vận hành cần thiết để truy cập một đối tượng, tự động mở trình
xem hoặc vận hành khi một người sử dụng chọn một nguồn tài nguyên số
nào đó. Nó có thể mô tả các thuộc tính như độ phân giải của hình ảnh,
kích cỡ tệp tin, hoặc tốc độ truyền tệp tin âm thanh. Nó có thể cung cấp
một biểu ghi thông tin về một đối tượng đã được tạo ra khi nào và như thế
nào, cũng như thông tin về quản lý quyền và lưu trữ.
 Một tiêu chuẩn quan trọng đang được biết đến cho vận hành gắn kết lẫn
nhau giữa các bộ sưu tập số là METS -Tiêu chuẩn Truyền và Mã hóa Siêu
dữ liệu (Metadata Encoding and Transmission Standard). METS cung cấp
một cấu trúc thống nhất để quản lý và truyền đi các đối tượng số. Dự án
MOA2 (The Making of America II Project) đã phát triển thành công một
định dạng mã hóa cho siêu dữ liệu mô tả, siêu dữ liệu cấu trúc và quản trị
đối với các tài liệu dưới dạng hình ảnh, hoặc văn bản.
 Được Liên hiệp Thư viện số (Digital Library Federation) và Thư viện
Quốc hội Mỹ (Library of Congress) ủng hộ, METS xây dựng dựa trên
công việc nghiên cứu của dự án MOA2. Tiêu chuẩn này cung cấp một
định dạng cho mã hóa siêu dữ liệu cần thiết để quản lý đối tượng số của
thư viện trong phạm vi một kho cơ sở dữ liệu, cũng như sự trao đổi các đối
tượng số như vậy giữa nhiều kho cơ sở dữ liệu (hoặc giữa các kho cơ sở
dữ liệu và người dùng). Những thư viện học thuật và nghiên cứu hàng đầu
hiện nay đang trích dẫn METS như là một tiêu chuẩn quan trọng để vận
hành gắn kết lẫn nhau trong một thư viện số, và dường như nó đang được
hậu thuẫn ngày càng đông trong cộng đồng thư viện trên thế giới
B. SO SÁNH CÁC CHUẨN CỤ THỂ
Có rất nhiều chuẩn metadata khác nhau tuy nhiên đó chỉ là các biến thể và không được
sử dụng rộng rãi nên ở đây chỉ phân tích 3 chuẩn chính là MARC, DUBLIN CORE và
METS.
1. DUBLIN CORE VÀ MARC
a. Dublin Core
 Dublin Core Metadata là một siêu dữ liệu dùng để mô tả dữ liệu trong
các dữ liệu. Dublin Core được hình thành lần đầu tiên vào năm 1995 bởi
Sáng kiến Yếu tố Siêu dữ liệu Dublin Core (Dublin Core Metadata
Element Initiative), và được thiết kế đơn giản với 15 yếu tố mô tả.
 Đến tháng 9/2001 bộ yếu tố siêu dữ liệu Dublin Core được ban hành
thành tiêu chuẩn Mỹ, gọi là tiêu chuẩn “The Dublin Core Metadata
Element Set” ANSI/NISO Z39.85-2001. (theo
http://www.niso.org/standards/resources/Z39-85.pdf)
b. MARC 21
 Vào những năm 1960, các nhân viên thư viện ở Thư viện Quốc Hội
Mỹ sau khi tham khảo ý kiến đóng góp của các thư viện khác đã phát triển
một khổ mẫu phục vụ cho việc lưu trữ các thông tin biên mục trên băng từ
máy tính. Khổ mẫu đó được đặt tên là Machine Readable Cataloging, gọi
tắt là MARC. Sự phát triển của MARC đã cho phép các thư viện trên toàn
thế giới trao đổi dữ liệu với nhau .
 Khổ mẫu MARC 21 rút gọn cho dữ liệu thư mục của Việt Nam được
thiết kế trên cơ sở của MARC 21 để nhập các thông tin thư mục về các
dạng tư liệu in hoặc bản thảo, tài liệu điện tử, tệp tin máy tính, bản đồ, bản
nhạc, tư liệu nghe nhìn, tài liệu đa phương tiện và tư liệu hỗn hợp. Khổ
mẫu bao gồm những chuẩn để trình bày và trao đổi thông tin thư mục và
thông tin liên quan dưới dạng máy tính đọc được giữa các tổ chức thông
tin và thư viện của Việt Nam.
 Một vài nước mà thậm chí một vài thư viện đã xây dựng riêng cho
mình các phiên bản của MARC, bao gồm AUSMarc, JapanMarc,
ChineseMarc, UNIMarc được tạo ra trong một nỗ lực nhằm nhận dạng
một phiên bản quốc tế cho khổ mẫu MARC. Mặc dù UNIMarc được sử
dụng rộng rãi, đặc biệt là ở Châu Âu, nó vẫn không trở thành một tiêu
chuẩn quốc tế. Nhưng MARC 21 đang trở thành một tiêu chuẩn quốc tế, vì
đa số các nước nói tiếng Anh và các hệ thống thư viện trên cơ sở tiếng
Anh ưa chuộng sử dụng nó.
c. Những điểm giống nhau và khác nhau giữa MARC 21 và DUBLIN
CORE
 Bảng so sánh giữa MARC 21 và DUBLIN CORE
 Điểm giống nhau:
 Trên thực tế MARC 21 và Dublin Core tương đồng đến 99%. Cụ thể là:
 MARC 21 và Dublin Core đều là siêu dữ liệu (dữ liệu của dữ liệu) dùng
để mô tả tài liệu.
 MARC 21 và Dublin Core có cùng một mục đích là trao đổi dữ liệu giữa
các thư viện với nhau.
 Có cùng các yếu tố mô tả thư mục như: Tác giả , nhan đề, chủ đề, tóm tắt,
nhà xuất bản ,thời gian, kiểu loại tài liệu...
DỮ LIỆU PHẦN TỬ MARC 21 DUBLIN CORE
Tác giả 100, 110, 700 Creator
Nhan đề 245 Title
Chủ đề 600, 610, 650, 651, 653 Subject
Mô tả 520 Description
Nhà xuất bản 260 Publisher
Tác giả phụ 720 Contributor
Thời gian 260 Date
Kiểu (Loại tài liệu) 655 Type
Khổ mẫu 856 Format
Định danh 024 Identifier
Nguồn 786 Source
Ngôn ngữ 546 Language
Liên kết (Liên quan) 787 Relation
Bao quát (Nơi chứa) 500 Coverage
Quyền 540 Right
 MARC 21 và Dublin Core đều cho ra sản phẩm là dữ liệu thư mục
 Nhằm một mục đích chung là giúp tìm kiếm tài liệu một cách nhanh chóng
dễ dàng
 Nội dung dữ liệu của biểu ghi đều được quy định bởi những chuẩn bên
ngoài khổ mẫu này như: AACR2...
 Điểm khác nhau:
 So với MARC 21, Dublin Core đơn giản hơn gấp nhiều lần, người không
chuyên cũng có thể sử dụng và biên mục được với Dublin Core.
 Dublin Core có ít trường (15 trường) và không có trường con, không có
chỉ thị, không phức tạp.
 MARC 21 có rất nhiều trường (800) với cấu trúc phức tạp, người sử dụng
cần được đào tạo chính quy.
 MARC 21 mang tính chất truyền thống, thường sử dụng cho biên mục tài
liệu in ấn.
 Dublin Core mang tính chất hiện đại, thường sử dụng cho biên mục tài
liệu điện tử.
 MARC 21 là một giá trị cũ được làm mới để thích ứng với công nghệ mới
 Dublin Core là một giá trị mới thích ứng với công nghệ mới, hiện đại.
 Biên mục với MARC 21 mất nhiều thời gian hơn so với Dublin Core.
Thường thì phải mất từ một đến hai tiếng đồng hồ để có thể biên mục
được một biểu ghi MARC thực sự, trong khi đó để biên mục được một
biểu ghi Dublin Core ta chi cần mất mười lăm đến hai mươi phút.
 Để trao đổi dữ liệu dạng thư tịch với nhau biểu ghi MARC phải được hiển
thị thật giống nhau, giống đến từng “tag” một. Đây là một cách trao đổi
biểu ghi thư tịch trong thư viện truyền thống.
 Trong khi đó Dublin Core dễ dàng tổ chức thông tin (biên mục và chỉ
mục) để trao đổi theo phương thức mới. Muốn trao đổi dữ liệu toàn văn và
đa phương tiện chỉ cần dùng hình thức XML để tổ chức dữ liệu mà không
cần quan tâm đến MARC. Trong khi đó biêu ghi thư mục MARC muốn
trao đổi dữ liệu toàn văn và đa phương tiện thi phải chuyển sang dạng siêu
dữ liệu MARC với ngôn ngữ đóng gói XML để trở thành MARC –
XML...
2. METS
Là một định dạng dữ liệu siêu tài liệu nó không phải là một siêu dữ liệu mô tả mà nó
là một dạng đóng gói (wrapper) các siêu dữ liệu khác (nó có thể đóng gói các tập tin
để tạo nên một đối tượng số). METS có thể chứa đựng trong nó nội dung của siêu dữ
liệu MODS (một biến thể khác của MARC ) hoặc siêu dữ liệu Dublin Core.
3. VÍ DỤ METADATA RECORD
a. MARC 21
001 ocm32248821
003 OCoLC
005 19991030224027.0
008 950403s1994 xx b 001 0 eng d
040 $a TSW $c TSW $d OCL
043 $a n-us---
049 $a TSWB
100 1 $a Pullin, Michael Thomas, $d 1959-
245 12 $a A history of judicial intervention in church property
disputes / $c by Michael T
homas Pullin.
260 $c c1994.
300 $a 2, ix, 220 leaves ; $c 29 cm.
502 $a Thesis (Ph. D.)--Southwestern Baptist Theological Seminary,
1994.
500 $a Includes abstract.
504 $a Includes bibliographical references (leaves 205-213) and index.
650 0 $a Church property $x United States $x Cases.
650 0 $a Church and state $x United States $x Cases.
650 0 $a Church controversies $x Cases.
994 $a E0 $b TSW
a. DUBLIN CORE
<?xml version="1.0"?>
<metadata
xmlns="http://example.org/myapp/"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://example.org/myapp/
http://example.org/myapp/schema.xsd"
xmlns:dc="http://purl.org/dc/elements/1.1/">
<dc:title>
UKOLN
</dc:title>
<dc:description>
UKOLN is a national focus of expertise in digital information
management. It provides policy, research and awareness services
to the UK library, information and cultural heritage communities.
UKOLN is based at the University of Bath.
</dc:description>
<dc:publisher>
UKOLN, University of Bath
</dc:publisher>
<dc:identifier>
http://www.ukoln.ac.uk/
</dc:identifier>
</metadata>
a. METS (mô tả sự kết hợp giữa mets và Dublin core)
<dmdSec ID="dmd002">
<mdWrap MIMETYPE="text/xml" MDTYPE="DC" LABEL="Dublin Core Metadata">
<xmlData>
<dc:title>Alice's Adventures in Wonderland</dc:title>
<dc:creator>Lewis Carroll</dc:creator>
<dc:date>between 1872 and 1890</dc:date>
<dc:publisher>McCloughlin Brothers</dc:publisher>
<dc:type>text</dc:type>
</xmlData>
</mdWrap>
</dmdSec>
<dmdSec ID="dmd003">
<mdWrap MIMETYPE="application/marc" MDTYPE="MARC" LABEL="OPAC
Record">
<binData>MDI0ODdjam0gIDIyMDA1ODkgYSA0NU0wMDAxMDA...(etc.)
</binData>
</mdWrap>
</dmdSec>
II. DIGITAL LIBRARY OPEN SOURCCE
Chỉ xem xét trên bốn ứng dụng mã nguồn mở được đánh giá là khá đầy đủ tính năng và được sử
dụng phổ biến nhất.
1. Dspace
a. Giới thiệu:
DSpace là một bộ phần mềm mã nguồn mở hỗ trợ giải pháp xây dựng
và phân phối các bộ sưu tập số hóa trên internet, cho phép các thư
viện, các cơ quan nghiên cứu phát triển và mở rộng. Nó cung cấp một
phương thức mới trong việc tổ chức và xuất bản thông tin trên
internet.
DSpace do HP và The MIT Libraries phát triển vào năm 2002, hiện
nay có hơn 1000 trường đại học và các tổ chức văn hoá sử dụng phần
mềm số DSpace để quản lý và chia sẻ nguồn tài nguyên: sách, tạp chí,
luận văn và các sưu tập hình ảnh, âm thanh và phim...
b. Tính năng:
 Truy cập trực tuyến thông qua giao diện web
 Tìm kiếm với nhiều tiêu chí (fulltext search)
 Phân quyền mạnh mẽ tới từng người dùng, bộ sưu tập, tài liệu
 Dễ dàng thiết kế và tùy biến giao diện.
 Đa ngôn ngữ có cả tiếng Việt do trường đại học Đà Lạt dịch
 Được cộng đồng phát triển và sử dụng rộng rãi (trên thế giới có
1.431 thư viện của hơn 100 quốc gia sử dụng phần mềm Dspace)
 Hỗ trợ nhiều định dạng dữ liệu (multimedia)
 Cấu trúc bộ sưu tập khoa học và nhiều cấp (ở greenstone không có
đặc điểm này)
 Hỗ trợ báo cáo (Lượt truy cập, lượt xem biểu ghi thư mục, lượt
download..)
 RSS ,ATOM
 Đa nền tảng.
c. Chuẩn dữ liệu: (METS và Dublin Core)
d. Đặc điểm kỹ thuật công nghệ:
i. Ngôn ngữ lập trình:JAVA (JSP & JAVA Serverlet)
ii. Database: (Postgres SQL hoặc Oracle)
2. Greenstone
a. Giới thiệu:
Được một nhóm giảng viên và sinh viên trường Đại học Waikato –
NewZealand đã xây dựng phần mềm thư viện số GreenStone. Thấy được
nghĩa và tác dụng, tháng 8 năm 2000, UNESCO và Human Info NGO đã
tham gia hỗ trợ và phát triển GreenStone. GreenStone là bộ phần mềm giúp
người sử dụng dễ dàng xây dựng và phân phối bộ sưu tập thư viện số, nó
cung cấp phương pháp mới để tổ chức thông tin và xuất bản thông tin trên
Internet và qua CD ROM.
b. Tính năng:
 Truy cập trực tuyến thông qua giao diện web.
 Tìm kiếm toàn văn bản và tìm kiếm theo từng tiêu chí riêng biệt.
 Tận dụng các metadata sẵn có trong tài liệu, giúp người tạo lập bộ
sưu tập không phải làm bằng tay.
 Khả năng linh động, dễ mở rộng hệ thống nhờ các thành phần như
plugin, classifier.
 Hỗ trợ xử lý tài liệu với nhiều ngôn ngữ.
 Cung cấp giao diện đa ngôn ngữ.
 Ngoài các bộ sưu tập văn bản, hình ảnh thông thường, GreenStone
còn cho phép tạo các bộ sưu tập hình ảnh, âm thanh đa phương tiện.
 Xây dựng bộ sưu tập đơn giản, có hiệu quả.
 Khả năng xuất bản các bộ sưu tập ra CD với đầy đủ tính năng có thể
tự cài đặt và chạy độc lập.
 Các bộ sưu tập dễ dàng mang chuyển, phân phối, chia sẻ.
 Hỗ trợ báo cáo.
 Đa nền tảng
c. Chuẩn dữ liệu: (METS, Dublin Core, RFC 1807, NZGLS và AGLS,…)
d. Đặc điểm kỹ thuật công nghệ:
i. Ngôn ngữ lập trình: (C++, Perl, Java)
ii. Database: (Gnu's database: http://www.gnu.org.ua/software/gdbm/)
3. Eprints
a. Giới thiệu:
Là phần mềm mã nguồn mở cung cấp hầu hết các tính năng cần có của một
thư viện điện tử cần có. Hỗ trợ các chuẩn dữ liệu phổ biến. Dễ dàng cài đặt
quản trị và sử dụng là đặc điểm nổi bật nhất của Eprints.
b. Tính năng:
 Truy cập trực tuyến thông qua giao diện web.
 Tìm kiếm toàn văn bản và tìm kiếm theo từng tiêu chí riêng biệt.
 Dễ dàng cài đặt, quản trị và sử dụng.
 Hỗ trợ nhiều định dạng dữ liệu (multimedia)
 RSS, ATOM.
 Google index.
 Hỗ trợ báo cáo.
 Đa nền tảng
c. Chuẩn dữ liệu: (OAI-PMH, Dublin Core,METS)
d. Đặc điểm kỹ thuật công nghệ:
i. Ngôn ngữ lập trình: ( Perl)
ii. Database: (MySQL, Postgres SQL hoặc Oracle)
4. Omeka
a. Giới thiệu:
Là phần mềm mã nguồn mở cho phép lưu trữ các bộ sưu tập dữ liệu số (bao
gồm các tính năng như quản trị nội dung, quản trị bộ sưu tập, quản lý thư viện
số. Dễ dàng sử dụng cho người dùng không có nhiều kỹ năng về CNTT.
b. Tính năng:
 Truy cập trực tuyến thông qua giao diện web, mobile.
 Dễ dàng cài đặt, quản trị và sử dụng.
 Nguồn tài liệu phong phú.
 Linh hoạt và dễ dàng mở rộng.
 Tạo và tổ chức tất cả các phần tử vào trong bộ sưu tập.
 RSS,ATOM.
 Hỗ trợ báo cáo.
 Đa nền tảng
c. Chuẩn dữ liệu: (Dublin Core)
d. Đặc điểm kỹ thuật công nghệ:
i. Ngôn ngữ lập trình: (PHP)
ii. Database: (MySQL)
III. YÊU CẦU VỀ KỸ THUẬT
1) Fulltext Search: Cho phép tìm kiếm toàn văn nội dung tài liệu các định dạng doc,
docx, xls, xlsx, pdf, ppt, pptx
 Để thực hiện được việc này cần thực hiện các công việc sau:
o Extract nội dung file người dùng upload lên thành dạng text để lưu trữ phục
vụ cho việc tìm kiếm
 Sử dụng các công cụ để opensource để extract các định dạng như:
iTextSharp, NPOI, Open XML SDK 2.0 , …(trong quá trình thực hiện
coding sẽ xem xét nên áp dụng các công cụ nào)
o Thực hiện tìm kiếm FullText và đánh dấu hightligh
 Tham khảo về ý tưởng:
 Solr/Lucene: là ứng dụng index chỉ mục tài liệu.
 http://www.codeproject.com/Articles/623815/Hit-Highlight-for-SQL-
Server-Full-Text-Search
 http://msdn.microsoft.com/en-us/library/ms142547.aspx
2) Nhận dạng thương hiệu với watermark
Tham khảo (trong quá trình lập trình sẽ xem xét kỹ hơn là chọn kỹ thuật nào):
Đối với video: http://www.ffmpeg.org/
Đối với image: http://imagemagick.codeplex.com/
3) Hiển thị nội dung tài liệu:
o Trình xem nội dung file:
 https://addons.alfresco.com/addons/groupdocs-viewer
 http://flexpaper.devaldi.com/
o Trình xem video (đáp ứng yêu cầu streaming)
http://flowplayer.org/
Real Player
o Trình hiển thị SCORM
 Tham khảo: http://dotnetscorm.codeplex.com/
4) Kiểm duyệt nội dung file trùng sử dụng giải thuật levenshtein
 http://www.antedes.com/blog/csharp/percentage-match-between-two-
strings-levenshtein-distance
 http://www.dotnetperls.com/levenshtein
5) Prevent download
 Sử dụng token download không get trực tiếp nội dung file từ thư mục,
sử dung action handler
6) Read only document (require password to modify ?)
7) Friendly Url for and search engine.
8) Đồng bộ hóa dữ liệu (database & media)
9) Cân bằng tải
10)
IV. KẾT LUẬN
1. Về chuẩn dữ liệu
a. Có thể chọn Dublin Core với lý do chuẩn này có thể hỗ trợ mô tả dữ liệu
dạng multimedia và theo cấu trúc XML nên có thể xử lý dễ dàng với các ngôn
ngữ lập trình(trong khi đó MARC không hỗ trợ multimedia và khá phức tạp
để xử lý cấu trúc và chỉ phù hợp để biên mục cho thư viện truyền thống trên
giấy) được sử dụng phổ biến. Phù hợp để phát triển mở rộng sang chuẩn
METS vì cấu trúc của METS cũng là XML.
b. Mức độ áp dụng
i. Chỉ áp dụng mức độ đáp ứng lưu trữ và mở rộng thêm các trường
thông tin cần có của Dublin core vào cơ sở dữ liệu (chưa hỗ trợ việc
nhập và xuất các bản tin theo chuẩn Dublin core việc này sẽ phát triển
ở các giai đoạn sau).
ii. Áp dụng chuẩn METS kết hợp với dữ liệu đã có của chuẩn Dublin
core (ở các giai đoạn tiếp theo nếu cần thiết).
2. Về open source:
Các open source đã đề cập ở trên về tính năng gần tương tự như nhau.
 Việc lựa chọn là tùy thuộc vào công nghệ của ứng dụng đó.
 Dspace
 Có thể lựa chọn Dspace vì tính năng mạnh mẽ và được sử dụng rất phổ
biến trên toàn thế giới.
 Tuy nhiên nhược điểm của lựa chọn Dspace là không có nhận sự Dev
cho công nghệ này vì Dspace sử dụng java trong khi đó nhân sự của
phòng giáo dục đa số thiên về .NET.
 Greenstone
 Không lựa chọn vì lý do không có nhân sự để thực hiện do Greenstone
sử dụng GNU database và C++, Perl.
 Eprint
 Không lựa chọn lý do tương tự như Greenstone .
 Omeka
 Có thể lựa chọn nhược điểm tương tự như Dspace.
V. THAM KHẢO
[1] http://www.mndigital.org/digitizing/standards/metadata.pdf
[2] http://archive.ifla.org/IV/ifla64/138-161e.htm
[3] http://www.odl.ox.ac.uk/metadata.htm
[4] http://gralib.hcmuns.edu.vn/bantin/bt307/bai7.pdf
[5] http://nlv.gov.vn/tai-lieu-nghiep-vu/xml-metadata-va-dublin-core-metadata.html
[6] http://www.loc.gov/standards/mets/mets-examples.html
[7] http://www.library.illinois.edu/digproj/dcct/meta.php
[8] http://www.loc.gov/standards/mets/METSOverview.html
[9] http://dublincore.org/documents/dc-xml-guidelines/
[10] https://wiki.duraspace.org/
[11] http://library.dlu.edu.vn/
[12] http://www.gnu.org.ua/software/gdbm/

More Related Content

What's hot

Chuong 1 - CSDL phân tán
Chuong 1 - CSDL phân tánChuong 1 - CSDL phân tán
Chuong 1 - CSDL phân tánduysu
 
Bài 2: Hệ quản trị cơ sở dữ liệu
Bài 2: Hệ quản trị cơ sở dữ liệuBài 2: Hệ quản trị cơ sở dữ liệu
Bài 2: Hệ quản trị cơ sở dữ liệuChâu Trần
 
Cơ sở dữ liệu phân tán - phạm thế quế
Cơ sở dữ liệu phân tán - phạm thế quếCơ sở dữ liệu phân tán - phạm thế quế
Cơ sở dữ liệu phân tán - phạm thế quếTran Tien
 
Co so du lieu phan tan
Co so du lieu phan tanCo so du lieu phan tan
Co so du lieu phan tanThao Vu
 
Bai 2 k33103237_pham_thi_ngoc_linh
Bai  2 k33103237_pham_thi_ngoc_linhBai  2 k33103237_pham_thi_ngoc_linh
Bai 2 k33103237_pham_thi_ngoc_linhTin 5CBT
 

What's hot (6)

Chuong 1 - CSDL phân tán
Chuong 1 - CSDL phân tánChuong 1 - CSDL phân tán
Chuong 1 - CSDL phân tán
 
Bài 2: Hệ quản trị cơ sở dữ liệu
Bài 2: Hệ quản trị cơ sở dữ liệuBài 2: Hệ quản trị cơ sở dữ liệu
Bài 2: Hệ quản trị cơ sở dữ liệu
 
Cơ sở dữ liệu phân tán - phạm thế quế
Cơ sở dữ liệu phân tán - phạm thế quếCơ sở dữ liệu phân tán - phạm thế quế
Cơ sở dữ liệu phân tán - phạm thế quế
 
Co so du lieu phan tan
Co so du lieu phan tanCo so du lieu phan tan
Co so du lieu phan tan
 
17406 bai giang csdl nang cao
17406   bai giang csdl nang cao17406   bai giang csdl nang cao
17406 bai giang csdl nang cao
 
Bai 2 k33103237_pham_thi_ngoc_linh
Bai  2 k33103237_pham_thi_ngoc_linhBai  2 k33103237_pham_thi_ngoc_linh
Bai 2 k33103237_pham_thi_ngoc_linh
 

Viewers also liked

Hướng dẫn lập trình với SCSF phần I (smart client software factory)
Hướng dẫn lập trình với SCSF phần I (smart client software factory)Hướng dẫn lập trình với SCSF phần I (smart client software factory)
Hướng dẫn lập trình với SCSF phần I (smart client software factory)Minh Tri Lam
 
Joomla CMS framework (1.6 - Old version)
Joomla CMS framework (1.6 - Old version) Joomla CMS framework (1.6 - Old version)
Joomla CMS framework (1.6 - Old version) Minh Tri Lam
 
Secure coding guide lines (Web Sercurity)
Secure coding guide lines (Web Sercurity)Secure coding guide lines (Web Sercurity)
Secure coding guide lines (Web Sercurity)Minh Tri Lam
 
Mixing asp.net mvc & web form into hybrid project
Mixing asp.net mvc & web form into hybrid projectMixing asp.net mvc & web form into hybrid project
Mixing asp.net mvc & web form into hybrid projectMinh Tri Lam
 
Digital library opensource
Digital library opensourceDigital library opensource
Digital library opensourceMinh Tri Lam
 
Hướng dẫn lập trình với SCSF phần II(smart client software factory)
Hướng dẫn lập trình với SCSF phần II(smart client software factory)Hướng dẫn lập trình với SCSF phần II(smart client software factory)
Hướng dẫn lập trình với SCSF phần II(smart client software factory)Minh Tri Lam
 
SQL SERVER BUSINESS INTELLIGENCE & WINDOWS SERVICE
SQL SERVER BUSINESS INTELLIGENCE  & WINDOWS SERVICESQL SERVER BUSINESS INTELLIGENCE  & WINDOWS SERVICE
SQL SERVER BUSINESS INTELLIGENCE & WINDOWS SERVICEMinh Tri Lam
 
KHẢO SÁT NHU CẦU QUẢN LÝ SỬ DỤNG VÀ CHIA SẺ TÀI NGUYÊN SỐ
KHẢO SÁT NHU CẦU QUẢN LÝ SỬ DỤNG VÀ CHIA SẺ TÀI NGUYÊN SỐKHẢO SÁT NHU CẦU QUẢN LÝ SỬ DỤNG VÀ CHIA SẺ TÀI NGUYÊN SỐ
KHẢO SÁT NHU CẦU QUẢN LÝ SỬ DỤNG VÀ CHIA SẺ TÀI NGUYÊN SỐMinh Tri Lam
 
Nunit framework for .NET application
Nunit framework for .NET applicationNunit framework for .NET application
Nunit framework for .NET applicationMinh Tri Lam
 
ADO .NET Entity framework
ADO .NET Entity frameworkADO .NET Entity framework
ADO .NET Entity frameworkMinh Tri Lam
 
Jenkins (Continuous Integration System with Jenkins)
Jenkins (Continuous Integration System with Jenkins)Jenkins (Continuous Integration System with Jenkins)
Jenkins (Continuous Integration System with Jenkins)Minh Tri Lam
 
MSSQL SERVER 2008 REPLICATION (PEER TO PEER)
MSSQL SERVER 2008 REPLICATION (PEER TO PEER)MSSQL SERVER 2008 REPLICATION (PEER TO PEER)
MSSQL SERVER 2008 REPLICATION (PEER TO PEER)Minh Tri Lam
 
SINGLE SIGN ON (SSO) WITH SECURITY ASSERTION MAKUP LANGUAGE (SAML)
SINGLE SIGN ON (SSO)  WITH SECURITY ASSERTION  MAKUP LANGUAGE (SAML)SINGLE SIGN ON (SSO)  WITH SECURITY ASSERTION  MAKUP LANGUAGE (SAML)
SINGLE SIGN ON (SSO) WITH SECURITY ASSERTION MAKUP LANGUAGE (SAML)Minh Tri Lam
 
Vai trò của Jenkins trong mô hình phát triển phần mềm Agile
Vai trò của Jenkins trong mô hình phát triển phần mềm AgileVai trò của Jenkins trong mô hình phát triển phần mềm Agile
Vai trò của Jenkins trong mô hình phát triển phần mềm AgileMinh Tri Lam
 
Nguon mo green stone va ung dung
Nguon mo green stone va ung dungNguon mo green stone va ung dung
Nguon mo green stone va ung dungVcoi Vit
 
Kehittäjävalmennus tornio
Kehittäjävalmennus tornioKehittäjävalmennus tornio
Kehittäjävalmennus tornioMarjo Jussila
 
Neil Garner CIM Spring Marketing Conference 2015
Neil Garner   CIM Spring Marketing Conference 2015Neil Garner   CIM Spring Marketing Conference 2015
Neil Garner CIM Spring Marketing Conference 2015CIM East of England
 
01 dieta dukan fase ataque
01 dieta dukan fase ataque01 dieta dukan fase ataque
01 dieta dukan fase ataqueFlander Silveira
 

Viewers also liked (20)

Hướng dẫn lập trình với SCSF phần I (smart client software factory)
Hướng dẫn lập trình với SCSF phần I (smart client software factory)Hướng dẫn lập trình với SCSF phần I (smart client software factory)
Hướng dẫn lập trình với SCSF phần I (smart client software factory)
 
Joomla CMS framework (1.6 - Old version)
Joomla CMS framework (1.6 - Old version) Joomla CMS framework (1.6 - Old version)
Joomla CMS framework (1.6 - Old version)
 
Secure coding guide lines (Web Sercurity)
Secure coding guide lines (Web Sercurity)Secure coding guide lines (Web Sercurity)
Secure coding guide lines (Web Sercurity)
 
Mixing asp.net mvc & web form into hybrid project
Mixing asp.net mvc & web form into hybrid projectMixing asp.net mvc & web form into hybrid project
Mixing asp.net mvc & web form into hybrid project
 
Digital library opensource
Digital library opensourceDigital library opensource
Digital library opensource
 
Hướng dẫn lập trình với SCSF phần II(smart client software factory)
Hướng dẫn lập trình với SCSF phần II(smart client software factory)Hướng dẫn lập trình với SCSF phần II(smart client software factory)
Hướng dẫn lập trình với SCSF phần II(smart client software factory)
 
SQL SERVER BUSINESS INTELLIGENCE & WINDOWS SERVICE
SQL SERVER BUSINESS INTELLIGENCE  & WINDOWS SERVICESQL SERVER BUSINESS INTELLIGENCE  & WINDOWS SERVICE
SQL SERVER BUSINESS INTELLIGENCE & WINDOWS SERVICE
 
KHẢO SÁT NHU CẦU QUẢN LÝ SỬ DỤNG VÀ CHIA SẺ TÀI NGUYÊN SỐ
KHẢO SÁT NHU CẦU QUẢN LÝ SỬ DỤNG VÀ CHIA SẺ TÀI NGUYÊN SỐKHẢO SÁT NHU CẦU QUẢN LÝ SỬ DỤNG VÀ CHIA SẺ TÀI NGUYÊN SỐ
KHẢO SÁT NHU CẦU QUẢN LÝ SỬ DỤNG VÀ CHIA SẺ TÀI NGUYÊN SỐ
 
Nunit framework for .NET application
Nunit framework for .NET applicationNunit framework for .NET application
Nunit framework for .NET application
 
ADO .NET Entity framework
ADO .NET Entity frameworkADO .NET Entity framework
ADO .NET Entity framework
 
Jenkins (Continuous Integration System with Jenkins)
Jenkins (Continuous Integration System with Jenkins)Jenkins (Continuous Integration System with Jenkins)
Jenkins (Continuous Integration System with Jenkins)
 
MSSQL SERVER 2008 REPLICATION (PEER TO PEER)
MSSQL SERVER 2008 REPLICATION (PEER TO PEER)MSSQL SERVER 2008 REPLICATION (PEER TO PEER)
MSSQL SERVER 2008 REPLICATION (PEER TO PEER)
 
SINGLE SIGN ON (SSO) WITH SECURITY ASSERTION MAKUP LANGUAGE (SAML)
SINGLE SIGN ON (SSO)  WITH SECURITY ASSERTION  MAKUP LANGUAGE (SAML)SINGLE SIGN ON (SSO)  WITH SECURITY ASSERTION  MAKUP LANGUAGE (SAML)
SINGLE SIGN ON (SSO) WITH SECURITY ASSERTION MAKUP LANGUAGE (SAML)
 
Vai trò của Jenkins trong mô hình phát triển phần mềm Agile
Vai trò của Jenkins trong mô hình phát triển phần mềm AgileVai trò của Jenkins trong mô hình phát triển phần mềm Agile
Vai trò của Jenkins trong mô hình phát triển phần mềm Agile
 
Nguon mo green stone va ung dung
Nguon mo green stone va ung dungNguon mo green stone va ung dung
Nguon mo green stone va ung dung
 
Kehittäjävalmennus tornio
Kehittäjävalmennus tornioKehittäjävalmennus tornio
Kehittäjävalmennus tornio
 
Argumentative Essay
Argumentative EssayArgumentative Essay
Argumentative Essay
 
Informe trimestral 2013
Informe trimestral     2013Informe trimestral     2013
Informe trimestral 2013
 
Neil Garner CIM Spring Marketing Conference 2015
Neil Garner   CIM Spring Marketing Conference 2015Neil Garner   CIM Spring Marketing Conference 2015
Neil Garner CIM Spring Marketing Conference 2015
 
01 dieta dukan fase ataque
01 dieta dukan fase ataque01 dieta dukan fase ataque
01 dieta dukan fase ataque
 

Similar to Digital library standard and technology

Phan mem thu vien dien tu Comtek.Lib
Phan mem thu vien dien tu Comtek.LibPhan mem thu vien dien tu Comtek.Lib
Phan mem thu vien dien tu Comtek.LibSnoozeloop AF
 
Cơ sở dữ liệu
Cơ sở dữ liệuCơ sở dữ liệu
Cơ sở dữ liệuThành Luân
 
Chuong 1_Gioo thieu DB.pdf
Chuong 1_Gioo thieu DB.pdfChuong 1_Gioo thieu DB.pdf
Chuong 1_Gioo thieu DB.pdfCriz20
 
Phan mem quan ly thu vien dien tu truong hoc comtek.lib.school v1
Phan mem quan ly thu vien dien tu truong hoc comtek.lib.school v1Phan mem quan ly thu vien dien tu truong hoc comtek.lib.school v1
Phan mem quan ly thu vien dien tu truong hoc comtek.lib.school v1Snoozeloop AF
 
Cơ sở dữ liệu ts.phạm thế quế[bookbooming.com]
Cơ sở dữ liệu   ts.phạm thế quế[bookbooming.com]Cơ sở dữ liệu   ts.phạm thế quế[bookbooming.com]
Cơ sở dữ liệu ts.phạm thế quế[bookbooming.com]bookbooming1
 
Cơ sở dữ liệu PTIT slide 2
Cơ sở dữ liệu PTIT slide 2Cơ sở dữ liệu PTIT slide 2
Cơ sở dữ liệu PTIT slide 2NguynMinh294
 
csdl - buoi1
csdl - buoi1csdl - buoi1
csdl - buoi1kikihoho
 
Hệ quản trị cơ sở dữ liệu trường đại học công nghệ.
Hệ quản trị cơ sở dữ liệu trường đại học công nghệ.Hệ quản trị cơ sở dữ liệu trường đại học công nghệ.
Hệ quản trị cơ sở dữ liệu trường đại học công nghệ.TrngTn67
 
Csdliuihc 111212222339-phpapp02
Csdliuihc 111212222339-phpapp02Csdliuihc 111212222339-phpapp02
Csdliuihc 111212222339-phpapp02nguyen minh
 
Bài giảng môn Cơ sở dữ liệu - truongkinhtethucpham.com
Bài giảng môn Cơ sở dữ liệu - truongkinhtethucpham.comBài giảng môn Cơ sở dữ liệu - truongkinhtethucpham.com
Bài giảng môn Cơ sở dữ liệu - truongkinhtethucpham.commai_non
 
Giao trinh he quan tri csdl
Giao trinh he quan tri csdlGiao trinh he quan tri csdl
Giao trinh he quan tri csdlHung Pham Thai
 
2008311102150141
20083111021501412008311102150141
2008311102150141jimmycuong
 
Bài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPT
Bài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPTBài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPT
Bài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPTMasterCode.vn
 
bai giang mon sql- buoi 1.ppt
bai giang mon sql- buoi 1.pptbai giang mon sql- buoi 1.ppt
bai giang mon sql- buoi 1.pptHungHuyNguyen3
 

Similar to Digital library standard and technology (20)

Phan mem thu vien dien tu Comtek.Lib
Phan mem thu vien dien tu Comtek.LibPhan mem thu vien dien tu Comtek.Lib
Phan mem thu vien dien tu Comtek.Lib
 
Cơ sở dữ liệu
Cơ sở dữ liệuCơ sở dữ liệu
Cơ sở dữ liệu
 
Chuong 1_Gioo thieu DB.pdf
Chuong 1_Gioo thieu DB.pdfChuong 1_Gioo thieu DB.pdf
Chuong 1_Gioo thieu DB.pdf
 
Phan mem quan ly thu vien dien tu truong hoc comtek.lib.school v1
Phan mem quan ly thu vien dien tu truong hoc comtek.lib.school v1Phan mem quan ly thu vien dien tu truong hoc comtek.lib.school v1
Phan mem quan ly thu vien dien tu truong hoc comtek.lib.school v1
 
Cơ sở dữ liệu ts.phạm thế quế[bookbooming.com]
Cơ sở dữ liệu   ts.phạm thế quế[bookbooming.com]Cơ sở dữ liệu   ts.phạm thế quế[bookbooming.com]
Cơ sở dữ liệu ts.phạm thế quế[bookbooming.com]
 
CSDL_In ngay
CSDL_In ngayCSDL_In ngay
CSDL_In ngay
 
Csdl
CsdlCsdl
Csdl
 
Cơ sở dữ liệu PTIT slide 2
Cơ sở dữ liệu PTIT slide 2Cơ sở dữ liệu PTIT slide 2
Cơ sở dữ liệu PTIT slide 2
 
Cosodulieu
CosodulieuCosodulieu
Cosodulieu
 
Bai giang he qtdl
Bai giang he qtdlBai giang he qtdl
Bai giang he qtdl
 
csdl - buoi1
csdl - buoi1csdl - buoi1
csdl - buoi1
 
Bg access
Bg accessBg access
Bg access
 
Hệ quản trị cơ sở dữ liệu trường đại học công nghệ.
Hệ quản trị cơ sở dữ liệu trường đại học công nghệ.Hệ quản trị cơ sở dữ liệu trường đại học công nghệ.
Hệ quản trị cơ sở dữ liệu trường đại học công nghệ.
 
Csdliuihc 111212222339-phpapp02
Csdliuihc 111212222339-phpapp02Csdliuihc 111212222339-phpapp02
Csdliuihc 111212222339-phpapp02
 
Bài giảng môn Cơ sở dữ liệu - truongkinhtethucpham.com
Bài giảng môn Cơ sở dữ liệu - truongkinhtethucpham.comBài giảng môn Cơ sở dữ liệu - truongkinhtethucpham.com
Bài giảng môn Cơ sở dữ liệu - truongkinhtethucpham.com
 
Giao trinh he quan tri csdl
Giao trinh he quan tri csdlGiao trinh he quan tri csdl
Giao trinh he quan tri csdl
 
2008311102150141
20083111021501412008311102150141
2008311102150141
 
Bài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPT
Bài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPTBài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPT
Bài 1: Tổng quan về cơ sở dữ liệu - Giáo trình FPT
 
Com201 slide 1
Com201   slide 1Com201   slide 1
Com201 slide 1
 
bai giang mon sql- buoi 1.ppt
bai giang mon sql- buoi 1.pptbai giang mon sql- buoi 1.ppt
bai giang mon sql- buoi 1.ppt
 

Digital library standard and technology

  • 1. DIGITAL LIBRARY STANDARDS & TECHNOLOGY (minhtri.itp@gmail.com) I. CHUẨN DỮ LIỆU.......................................................................................................................2 II. DIGITAL LIBRARY OPEN SOURCCE...................................................................................8 III. YÊU CẦU VỀ KỸ THUẬT....................................................................................................13 IV. KẾT LUẬN.............................................................................................................................15 V. THAM KHẢO..........................................................................................................................17
  • 2. I. CHUẨN DỮ LIỆU A. ĐỊNH NGHĨA VỀ CÁC LOẠI SIÊU DỮ LIỆU (METADATA) 1. Siêu dữ liệu mô tả (Descriptive Metadata)  Siêu dữ liệu dạng này cung cấp thông tin mà, (a) cho phép phát hiện các bộ sưu tập hoặc đối tượng số thông qua sử dụng công cụ tìm kiếm, và (b) cung cấp một ngữ cảnh nhằm giúp người dùng hiểu được thông tin gì đang tìm kiếm.  Khi một bộ sưu tập số trở lên ngày càng lớn, hoặc khi người dùng tìm kiếm trên nhiều bộ sưu tập cùng một lúc (như tìm kiếm qua Internet), thì việc phát hiện ra một đối tượng số quan tâm trở thành một bài tập “tìm kiếm một mũi kim trong bể nước”. Vậy, nếu không có những tiêu chuẩn siêu dữ liệu thống nhất và các nguyên tắc thu thập và lưu trữ siêu dữ liệu mô tả, thì tất cả các bộ sưu tập số, cho dù là nhỏ nhất cũng trở lên vô dụng.  Siêu dữ liệu cho mỗi đối tượng số cụ thể sẽ khác nhau tuỳ thuộc vào đối tượng số đó, nhưng thường bao gồm những phần tử thông tin như nhan đề hay tiêu đề - nó là cái gì, ai tạo ra nó, người cộng tác là ai (Contributors), ngôn ngữ, nó được tạo ra khi nào, vị trí của nó ở đâu, chủ đề, vv … Ở cấp độ của bộ sưu tập, người dùng thường có thể quyết định phạm vi, sự sở hữu, những hạn chế truy cập, và nhiều đặc tính quan trọng khác nhằm giúp người dùng hiểu được bộ sưu tập số đó.  Một tiêu chuẩn siêu dữ liệu mô tả nổi tiếng cho thư viện đó là biên mục có thể đọc máy - MARC (MAchine-Readable Catalog) đã được sử dụng cho biên mục sách và nhiều ấn phẩm khác, và MARC đã đáp ứng tốt cho công tác biên mục điện tử của một thư viện truyền thống, song tiêu chuẩn này không được thiết kế để mô tả hình ảnh, tệp tin âm thanh, cũng như nhiều dạng và phương tiện lưu trữ mới khác.  Một tiêu chuẩn siêu dữ liệu mô tả quan trọng đang nổi lên cho mô tả hình ảnh và nhiều đối tượng đa phương tiện khác là Dublin Core, đó là một nhóm 15 phần tử thông tin được phát triển để dễ dàng hiểu và sử dụng.  Tiêu chuẩn Dublin Core được thiết kế sao cho nó cung cấp một cơ chế được chấp nhận rất rộng rãi để cho phép phát hiện thông tin, song có lựa chọn cho phép nhiều cộng đồng sử dụng khác nhau dễ dàng thích nghi và tùy biến nó bằng việc đưa thêm vào các trường thông tin có giá trị cho cộng đồng sử dụng đó. Theo cách này, một tiêu chuẩn cơ sở tương tự có thể được sử dụng cho nhiều mục đích và mô hình kinh doanh.
  • 3. 2. Siêu dữ liệu cấu trúc (Structural Metadata)  Dạng thứ hai của siêu dữ liệu là siêu dữ liệu cấu trúc. Dạng siêu dữ liệu này mô tả các liên kết trong phạm vi hoặc giữa mỗi đối tượng thông tin liên quan. Một cuốn sách bao gồm các trang và chương sách là một trong những ví dụ rõ ràng nhất của siêu dữ liệu cấu trúc. Siêu dữ liệu cấu trúc thường sẽ giải thích các hình ảnh trang sách cấu thành lên mỗi chương sách như thế nào, và những chương sách đó cấu thành lên một cuốn sách như thế nào.  Ngoài ra, cũng có những hình vẽ minh họa riêng rẽ, và siêu dữ liệu cấu trúc cũng có thể liên kết những hình này tới các chương sách, hoặc tới một danh mục bao gồm tất cả các hình ảnh minh họa trong một cuốn sách. Siêu dữ liệu cấu trúc trợ giúp người dùng di chuyển giữa mỗi đối tượng, bao gồm cả một đối tượng phức hợp. 3. Siêu dữ liệu quản trị (Administrative Metadata)  Siêu dữ liệu quản trị tạo ra sự dễ dàng truy cập, quản lý và bảo quản nguồn tài nguyên số. Nó có thể mô tả một trình xem và duyệt thông tin, hoặc trình vận hành cần thiết để truy cập một đối tượng, tự động mở trình xem hoặc vận hành khi một người sử dụng chọn một nguồn tài nguyên số nào đó. Nó có thể mô tả các thuộc tính như độ phân giải của hình ảnh, kích cỡ tệp tin, hoặc tốc độ truyền tệp tin âm thanh. Nó có thể cung cấp một biểu ghi thông tin về một đối tượng đã được tạo ra khi nào và như thế nào, cũng như thông tin về quản lý quyền và lưu trữ.  Một tiêu chuẩn quan trọng đang được biết đến cho vận hành gắn kết lẫn nhau giữa các bộ sưu tập số là METS -Tiêu chuẩn Truyền và Mã hóa Siêu dữ liệu (Metadata Encoding and Transmission Standard). METS cung cấp một cấu trúc thống nhất để quản lý và truyền đi các đối tượng số. Dự án MOA2 (The Making of America II Project) đã phát triển thành công một định dạng mã hóa cho siêu dữ liệu mô tả, siêu dữ liệu cấu trúc và quản trị đối với các tài liệu dưới dạng hình ảnh, hoặc văn bản.  Được Liên hiệp Thư viện số (Digital Library Federation) và Thư viện Quốc hội Mỹ (Library of Congress) ủng hộ, METS xây dựng dựa trên công việc nghiên cứu của dự án MOA2. Tiêu chuẩn này cung cấp một định dạng cho mã hóa siêu dữ liệu cần thiết để quản lý đối tượng số của thư viện trong phạm vi một kho cơ sở dữ liệu, cũng như sự trao đổi các đối tượng số như vậy giữa nhiều kho cơ sở dữ liệu (hoặc giữa các kho cơ sở dữ liệu và người dùng). Những thư viện học thuật và nghiên cứu hàng đầu hiện nay đang trích dẫn METS như là một tiêu chuẩn quan trọng để vận hành gắn kết lẫn nhau trong một thư viện số, và dường như nó đang được hậu thuẫn ngày càng đông trong cộng đồng thư viện trên thế giới
  • 4. B. SO SÁNH CÁC CHUẨN CỤ THỂ Có rất nhiều chuẩn metadata khác nhau tuy nhiên đó chỉ là các biến thể và không được sử dụng rộng rãi nên ở đây chỉ phân tích 3 chuẩn chính là MARC, DUBLIN CORE và METS. 1. DUBLIN CORE VÀ MARC a. Dublin Core  Dublin Core Metadata là một siêu dữ liệu dùng để mô tả dữ liệu trong các dữ liệu. Dublin Core được hình thành lần đầu tiên vào năm 1995 bởi Sáng kiến Yếu tố Siêu dữ liệu Dublin Core (Dublin Core Metadata Element Initiative), và được thiết kế đơn giản với 15 yếu tố mô tả.  Đến tháng 9/2001 bộ yếu tố siêu dữ liệu Dublin Core được ban hành thành tiêu chuẩn Mỹ, gọi là tiêu chuẩn “The Dublin Core Metadata Element Set” ANSI/NISO Z39.85-2001. (theo http://www.niso.org/standards/resources/Z39-85.pdf) b. MARC 21  Vào những năm 1960, các nhân viên thư viện ở Thư viện Quốc Hội Mỹ sau khi tham khảo ý kiến đóng góp của các thư viện khác đã phát triển một khổ mẫu phục vụ cho việc lưu trữ các thông tin biên mục trên băng từ máy tính. Khổ mẫu đó được đặt tên là Machine Readable Cataloging, gọi tắt là MARC. Sự phát triển của MARC đã cho phép các thư viện trên toàn thế giới trao đổi dữ liệu với nhau .  Khổ mẫu MARC 21 rút gọn cho dữ liệu thư mục của Việt Nam được thiết kế trên cơ sở của MARC 21 để nhập các thông tin thư mục về các dạng tư liệu in hoặc bản thảo, tài liệu điện tử, tệp tin máy tính, bản đồ, bản nhạc, tư liệu nghe nhìn, tài liệu đa phương tiện và tư liệu hỗn hợp. Khổ mẫu bao gồm những chuẩn để trình bày và trao đổi thông tin thư mục và thông tin liên quan dưới dạng máy tính đọc được giữa các tổ chức thông tin và thư viện của Việt Nam.  Một vài nước mà thậm chí một vài thư viện đã xây dựng riêng cho mình các phiên bản của MARC, bao gồm AUSMarc, JapanMarc, ChineseMarc, UNIMarc được tạo ra trong một nỗ lực nhằm nhận dạng một phiên bản quốc tế cho khổ mẫu MARC. Mặc dù UNIMarc được sử dụng rộng rãi, đặc biệt là ở Châu Âu, nó vẫn không trở thành một tiêu chuẩn quốc tế. Nhưng MARC 21 đang trở thành một tiêu chuẩn quốc tế, vì đa số các nước nói tiếng Anh và các hệ thống thư viện trên cơ sở tiếng Anh ưa chuộng sử dụng nó.
  • 5. c. Những điểm giống nhau và khác nhau giữa MARC 21 và DUBLIN CORE  Bảng so sánh giữa MARC 21 và DUBLIN CORE  Điểm giống nhau:  Trên thực tế MARC 21 và Dublin Core tương đồng đến 99%. Cụ thể là:  MARC 21 và Dublin Core đều là siêu dữ liệu (dữ liệu của dữ liệu) dùng để mô tả tài liệu.  MARC 21 và Dublin Core có cùng một mục đích là trao đổi dữ liệu giữa các thư viện với nhau.  Có cùng các yếu tố mô tả thư mục như: Tác giả , nhan đề, chủ đề, tóm tắt, nhà xuất bản ,thời gian, kiểu loại tài liệu... DỮ LIỆU PHẦN TỬ MARC 21 DUBLIN CORE Tác giả 100, 110, 700 Creator Nhan đề 245 Title Chủ đề 600, 610, 650, 651, 653 Subject Mô tả 520 Description Nhà xuất bản 260 Publisher Tác giả phụ 720 Contributor Thời gian 260 Date Kiểu (Loại tài liệu) 655 Type Khổ mẫu 856 Format Định danh 024 Identifier Nguồn 786 Source Ngôn ngữ 546 Language Liên kết (Liên quan) 787 Relation Bao quát (Nơi chứa) 500 Coverage Quyền 540 Right
  • 6.  MARC 21 và Dublin Core đều cho ra sản phẩm là dữ liệu thư mục  Nhằm một mục đích chung là giúp tìm kiếm tài liệu một cách nhanh chóng dễ dàng  Nội dung dữ liệu của biểu ghi đều được quy định bởi những chuẩn bên ngoài khổ mẫu này như: AACR2...  Điểm khác nhau:  So với MARC 21, Dublin Core đơn giản hơn gấp nhiều lần, người không chuyên cũng có thể sử dụng và biên mục được với Dublin Core.  Dublin Core có ít trường (15 trường) và không có trường con, không có chỉ thị, không phức tạp.  MARC 21 có rất nhiều trường (800) với cấu trúc phức tạp, người sử dụng cần được đào tạo chính quy.  MARC 21 mang tính chất truyền thống, thường sử dụng cho biên mục tài liệu in ấn.  Dublin Core mang tính chất hiện đại, thường sử dụng cho biên mục tài liệu điện tử.  MARC 21 là một giá trị cũ được làm mới để thích ứng với công nghệ mới  Dublin Core là một giá trị mới thích ứng với công nghệ mới, hiện đại.  Biên mục với MARC 21 mất nhiều thời gian hơn so với Dublin Core. Thường thì phải mất từ một đến hai tiếng đồng hồ để có thể biên mục được một biểu ghi MARC thực sự, trong khi đó để biên mục được một biểu ghi Dublin Core ta chi cần mất mười lăm đến hai mươi phút.  Để trao đổi dữ liệu dạng thư tịch với nhau biểu ghi MARC phải được hiển thị thật giống nhau, giống đến từng “tag” một. Đây là một cách trao đổi biểu ghi thư tịch trong thư viện truyền thống.  Trong khi đó Dublin Core dễ dàng tổ chức thông tin (biên mục và chỉ mục) để trao đổi theo phương thức mới. Muốn trao đổi dữ liệu toàn văn và đa phương tiện chỉ cần dùng hình thức XML để tổ chức dữ liệu mà không cần quan tâm đến MARC. Trong khi đó biêu ghi thư mục MARC muốn trao đổi dữ liệu toàn văn và đa phương tiện thi phải chuyển sang dạng siêu dữ liệu MARC với ngôn ngữ đóng gói XML để trở thành MARC – XML...
  • 7. 2. METS Là một định dạng dữ liệu siêu tài liệu nó không phải là một siêu dữ liệu mô tả mà nó là một dạng đóng gói (wrapper) các siêu dữ liệu khác (nó có thể đóng gói các tập tin để tạo nên một đối tượng số). METS có thể chứa đựng trong nó nội dung của siêu dữ liệu MODS (một biến thể khác của MARC ) hoặc siêu dữ liệu Dublin Core. 3. VÍ DỤ METADATA RECORD a. MARC 21 001 ocm32248821 003 OCoLC 005 19991030224027.0 008 950403s1994 xx b 001 0 eng d 040 $a TSW $c TSW $d OCL 043 $a n-us--- 049 $a TSWB 100 1 $a Pullin, Michael Thomas, $d 1959- 245 12 $a A history of judicial intervention in church property disputes / $c by Michael T homas Pullin. 260 $c c1994. 300 $a 2, ix, 220 leaves ; $c 29 cm. 502 $a Thesis (Ph. D.)--Southwestern Baptist Theological Seminary, 1994. 500 $a Includes abstract. 504 $a Includes bibliographical references (leaves 205-213) and index. 650 0 $a Church property $x United States $x Cases. 650 0 $a Church and state $x United States $x Cases. 650 0 $a Church controversies $x Cases. 994 $a E0 $b TSW a. DUBLIN CORE <?xml version="1.0"?> <metadata xmlns="http://example.org/myapp/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://example.org/myapp/ http://example.org/myapp/schema.xsd" xmlns:dc="http://purl.org/dc/elements/1.1/"> <dc:title> UKOLN </dc:title> <dc:description> UKOLN is a national focus of expertise in digital information management. It provides policy, research and awareness services to the UK library, information and cultural heritage communities. UKOLN is based at the University of Bath. </dc:description> <dc:publisher> UKOLN, University of Bath </dc:publisher> <dc:identifier> http://www.ukoln.ac.uk/ </dc:identifier> </metadata>
  • 8. a. METS (mô tả sự kết hợp giữa mets và Dublin core) <dmdSec ID="dmd002"> <mdWrap MIMETYPE="text/xml" MDTYPE="DC" LABEL="Dublin Core Metadata"> <xmlData> <dc:title>Alice's Adventures in Wonderland</dc:title> <dc:creator>Lewis Carroll</dc:creator> <dc:date>between 1872 and 1890</dc:date> <dc:publisher>McCloughlin Brothers</dc:publisher> <dc:type>text</dc:type> </xmlData> </mdWrap> </dmdSec> <dmdSec ID="dmd003"> <mdWrap MIMETYPE="application/marc" MDTYPE="MARC" LABEL="OPAC Record"> <binData>MDI0ODdjam0gIDIyMDA1ODkgYSA0NU0wMDAxMDA...(etc.) </binData> </mdWrap> </dmdSec> II. DIGITAL LIBRARY OPEN SOURCCE Chỉ xem xét trên bốn ứng dụng mã nguồn mở được đánh giá là khá đầy đủ tính năng và được sử dụng phổ biến nhất. 1. Dspace a. Giới thiệu: DSpace là một bộ phần mềm mã nguồn mở hỗ trợ giải pháp xây dựng và phân phối các bộ sưu tập số hóa trên internet, cho phép các thư viện, các cơ quan nghiên cứu phát triển và mở rộng. Nó cung cấp một phương thức mới trong việc tổ chức và xuất bản thông tin trên internet. DSpace do HP và The MIT Libraries phát triển vào năm 2002, hiện nay có hơn 1000 trường đại học và các tổ chức văn hoá sử dụng phần mềm số DSpace để quản lý và chia sẻ nguồn tài nguyên: sách, tạp chí, luận văn và các sưu tập hình ảnh, âm thanh và phim... b. Tính năng:  Truy cập trực tuyến thông qua giao diện web  Tìm kiếm với nhiều tiêu chí (fulltext search)  Phân quyền mạnh mẽ tới từng người dùng, bộ sưu tập, tài liệu  Dễ dàng thiết kế và tùy biến giao diện.
  • 9.  Đa ngôn ngữ có cả tiếng Việt do trường đại học Đà Lạt dịch  Được cộng đồng phát triển và sử dụng rộng rãi (trên thế giới có 1.431 thư viện của hơn 100 quốc gia sử dụng phần mềm Dspace)  Hỗ trợ nhiều định dạng dữ liệu (multimedia)  Cấu trúc bộ sưu tập khoa học và nhiều cấp (ở greenstone không có đặc điểm này)  Hỗ trợ báo cáo (Lượt truy cập, lượt xem biểu ghi thư mục, lượt download..)  RSS ,ATOM  Đa nền tảng. c. Chuẩn dữ liệu: (METS và Dublin Core) d. Đặc điểm kỹ thuật công nghệ: i. Ngôn ngữ lập trình:JAVA (JSP & JAVA Serverlet) ii. Database: (Postgres SQL hoặc Oracle) 2. Greenstone a. Giới thiệu: Được một nhóm giảng viên và sinh viên trường Đại học Waikato – NewZealand đã xây dựng phần mềm thư viện số GreenStone. Thấy được nghĩa và tác dụng, tháng 8 năm 2000, UNESCO và Human Info NGO đã tham gia hỗ trợ và phát triển GreenStone. GreenStone là bộ phần mềm giúp người sử dụng dễ dàng xây dựng và phân phối bộ sưu tập thư viện số, nó cung cấp phương pháp mới để tổ chức thông tin và xuất bản thông tin trên Internet và qua CD ROM. b. Tính năng:  Truy cập trực tuyến thông qua giao diện web.  Tìm kiếm toàn văn bản và tìm kiếm theo từng tiêu chí riêng biệt.  Tận dụng các metadata sẵn có trong tài liệu, giúp người tạo lập bộ sưu tập không phải làm bằng tay.
  • 10.  Khả năng linh động, dễ mở rộng hệ thống nhờ các thành phần như plugin, classifier.  Hỗ trợ xử lý tài liệu với nhiều ngôn ngữ.  Cung cấp giao diện đa ngôn ngữ.  Ngoài các bộ sưu tập văn bản, hình ảnh thông thường, GreenStone còn cho phép tạo các bộ sưu tập hình ảnh, âm thanh đa phương tiện.  Xây dựng bộ sưu tập đơn giản, có hiệu quả.  Khả năng xuất bản các bộ sưu tập ra CD với đầy đủ tính năng có thể tự cài đặt và chạy độc lập.  Các bộ sưu tập dễ dàng mang chuyển, phân phối, chia sẻ.  Hỗ trợ báo cáo.  Đa nền tảng c. Chuẩn dữ liệu: (METS, Dublin Core, RFC 1807, NZGLS và AGLS,…) d. Đặc điểm kỹ thuật công nghệ: i. Ngôn ngữ lập trình: (C++, Perl, Java) ii. Database: (Gnu's database: http://www.gnu.org.ua/software/gdbm/) 3. Eprints a. Giới thiệu: Là phần mềm mã nguồn mở cung cấp hầu hết các tính năng cần có của một thư viện điện tử cần có. Hỗ trợ các chuẩn dữ liệu phổ biến. Dễ dàng cài đặt quản trị và sử dụng là đặc điểm nổi bật nhất của Eprints. b. Tính năng:  Truy cập trực tuyến thông qua giao diện web.  Tìm kiếm toàn văn bản và tìm kiếm theo từng tiêu chí riêng biệt.  Dễ dàng cài đặt, quản trị và sử dụng.  Hỗ trợ nhiều định dạng dữ liệu (multimedia)
  • 11.  RSS, ATOM.  Google index.  Hỗ trợ báo cáo.  Đa nền tảng c. Chuẩn dữ liệu: (OAI-PMH, Dublin Core,METS) d. Đặc điểm kỹ thuật công nghệ: i. Ngôn ngữ lập trình: ( Perl) ii. Database: (MySQL, Postgres SQL hoặc Oracle) 4. Omeka a. Giới thiệu: Là phần mềm mã nguồn mở cho phép lưu trữ các bộ sưu tập dữ liệu số (bao gồm các tính năng như quản trị nội dung, quản trị bộ sưu tập, quản lý thư viện số. Dễ dàng sử dụng cho người dùng không có nhiều kỹ năng về CNTT. b. Tính năng:  Truy cập trực tuyến thông qua giao diện web, mobile.  Dễ dàng cài đặt, quản trị và sử dụng.  Nguồn tài liệu phong phú.  Linh hoạt và dễ dàng mở rộng.  Tạo và tổ chức tất cả các phần tử vào trong bộ sưu tập.  RSS,ATOM.  Hỗ trợ báo cáo.  Đa nền tảng c. Chuẩn dữ liệu: (Dublin Core) d. Đặc điểm kỹ thuật công nghệ: i. Ngôn ngữ lập trình: (PHP)
  • 13. III. YÊU CẦU VỀ KỸ THUẬT 1) Fulltext Search: Cho phép tìm kiếm toàn văn nội dung tài liệu các định dạng doc, docx, xls, xlsx, pdf, ppt, pptx  Để thực hiện được việc này cần thực hiện các công việc sau: o Extract nội dung file người dùng upload lên thành dạng text để lưu trữ phục vụ cho việc tìm kiếm  Sử dụng các công cụ để opensource để extract các định dạng như: iTextSharp, NPOI, Open XML SDK 2.0 , …(trong quá trình thực hiện coding sẽ xem xét nên áp dụng các công cụ nào) o Thực hiện tìm kiếm FullText và đánh dấu hightligh  Tham khảo về ý tưởng:  Solr/Lucene: là ứng dụng index chỉ mục tài liệu.  http://www.codeproject.com/Articles/623815/Hit-Highlight-for-SQL- Server-Full-Text-Search  http://msdn.microsoft.com/en-us/library/ms142547.aspx 2) Nhận dạng thương hiệu với watermark Tham khảo (trong quá trình lập trình sẽ xem xét kỹ hơn là chọn kỹ thuật nào): Đối với video: http://www.ffmpeg.org/ Đối với image: http://imagemagick.codeplex.com/ 3) Hiển thị nội dung tài liệu: o Trình xem nội dung file:  https://addons.alfresco.com/addons/groupdocs-viewer  http://flexpaper.devaldi.com/ o Trình xem video (đáp ứng yêu cầu streaming) http://flowplayer.org/
  • 14. Real Player o Trình hiển thị SCORM  Tham khảo: http://dotnetscorm.codeplex.com/ 4) Kiểm duyệt nội dung file trùng sử dụng giải thuật levenshtein  http://www.antedes.com/blog/csharp/percentage-match-between-two- strings-levenshtein-distance  http://www.dotnetperls.com/levenshtein 5) Prevent download  Sử dụng token download không get trực tiếp nội dung file từ thư mục, sử dung action handler 6) Read only document (require password to modify ?) 7) Friendly Url for and search engine. 8) Đồng bộ hóa dữ liệu (database & media) 9) Cân bằng tải 10)
  • 15. IV. KẾT LUẬN 1. Về chuẩn dữ liệu a. Có thể chọn Dublin Core với lý do chuẩn này có thể hỗ trợ mô tả dữ liệu dạng multimedia và theo cấu trúc XML nên có thể xử lý dễ dàng với các ngôn ngữ lập trình(trong khi đó MARC không hỗ trợ multimedia và khá phức tạp để xử lý cấu trúc và chỉ phù hợp để biên mục cho thư viện truyền thống trên giấy) được sử dụng phổ biến. Phù hợp để phát triển mở rộng sang chuẩn METS vì cấu trúc của METS cũng là XML. b. Mức độ áp dụng i. Chỉ áp dụng mức độ đáp ứng lưu trữ và mở rộng thêm các trường thông tin cần có của Dublin core vào cơ sở dữ liệu (chưa hỗ trợ việc nhập và xuất các bản tin theo chuẩn Dublin core việc này sẽ phát triển ở các giai đoạn sau). ii. Áp dụng chuẩn METS kết hợp với dữ liệu đã có của chuẩn Dublin core (ở các giai đoạn tiếp theo nếu cần thiết). 2. Về open source: Các open source đã đề cập ở trên về tính năng gần tương tự như nhau.  Việc lựa chọn là tùy thuộc vào công nghệ của ứng dụng đó.  Dspace  Có thể lựa chọn Dspace vì tính năng mạnh mẽ và được sử dụng rất phổ biến trên toàn thế giới.  Tuy nhiên nhược điểm của lựa chọn Dspace là không có nhận sự Dev cho công nghệ này vì Dspace sử dụng java trong khi đó nhân sự của phòng giáo dục đa số thiên về .NET.  Greenstone  Không lựa chọn vì lý do không có nhân sự để thực hiện do Greenstone sử dụng GNU database và C++, Perl.  Eprint  Không lựa chọn lý do tương tự như Greenstone .
  • 16.  Omeka  Có thể lựa chọn nhược điểm tương tự như Dspace.
  • 17. V. THAM KHẢO [1] http://www.mndigital.org/digitizing/standards/metadata.pdf [2] http://archive.ifla.org/IV/ifla64/138-161e.htm [3] http://www.odl.ox.ac.uk/metadata.htm [4] http://gralib.hcmuns.edu.vn/bantin/bt307/bai7.pdf [5] http://nlv.gov.vn/tai-lieu-nghiep-vu/xml-metadata-va-dublin-core-metadata.html [6] http://www.loc.gov/standards/mets/mets-examples.html [7] http://www.library.illinois.edu/digproj/dcct/meta.php [8] http://www.loc.gov/standards/mets/METSOverview.html [9] http://dublincore.org/documents/dc-xml-guidelines/ [10] https://wiki.duraspace.org/ [11] http://library.dlu.edu.vn/ [12] http://www.gnu.org.ua/software/gdbm/