Tin học
sự dư thừa dữ liệu
Trong quản lý dữ liệu, đây là sự lặp lại cùng một dữ liệu trong hai hoặc nhiều bản ghi dữ liệu.
Nói chung, không bao giờ bạn lại nhập cùng một dữ liệu vào hai nơi khác nhau trong phạm vi một cơ sở dữ liệu, nhưng có thể có người đánh sai một ký tự làm cho việc truy tìm bị mất chính xác. Đối với máy tính, Acme không phải là Acmee.
Chương trình sẽ không thể truy tìm được cả hai bản ghi dữ liệu nếu bạn tìm kiếm tất cả các bản ghi có Acme trong trường COMPANY (tên hãng). Tính toàn vẹn là một vấn đề nghiêm túc đối với mọi hệ thống quản lý cơ sở dữ liệu.
Các chương trình quản lý cơ sở dữ liệu có liên quan có thể giảm bớt vấn đề dư thừa dữ liệu này. Giả sử bạn đang cho chạy một tác vụ bán lẻ, và bạn xây dựng một cơ sở dữ liệu kiểm kê hàng để giúp cho việc theo dõi các mặt hàng trong kho. Trong trường SUPPLIERS (tên hãng cung cấp hàng), bạn nhập vào các tên hãng viết tắt, như USPSI thay cho Ultra-Sophisticated Products Suppliers Intel chẳng hạn.
Trong cơ sở dữ liệu thứ hai, bạn thành lập các bản ghi đối với tất cả hãng cấp hàng cho bạn, bao gồm trường SUPPLIER để nhập vào đó tên viết tắt của hãng, và các trường khác để nhập thông tin về địa chỉ và tên đầy đủ.
Vì bạn đánh vào tên đầy đủ và địa chỉ của hãng chỉ một lần, nên trong cơ sở dữ liệu thứ hai, địa chỉ đó không thể được đánh theo hai cách khác nhau. Dĩ nhiên bạn vẫn còn có thể đánh sai mã USPSI, nhưng mã ngắn dễ đánh và dễ phát hiện sai sót hơn.