Thứ Năm, 13 tháng 2, 2014

Cửa hàng bán hàng trực tuyến

Tìm hiểu đề tài

Cần lấy được cơ sở dữ liệu về khách hàng đã
mua sách của cửa hàng và làm sạch dữ liệu.

Cần xác định phương pháp dùng để khai phá
dữ liệu.

Xác định tiêu chí phân loại.

Xác định kết quả phân loại.

Kiểm tra kết quả training với dữ liệu mẫu.

Cửa hàng sách trực tuyến: là một website trình
bày các loại sách cho phép người mua thông
qua mạng Internet để xem, chọn mua, thanh
toán qua mạng và được giao tận nơi. CSDL của
cửa hàng bán sách như vậy sẽ lưu trữ lại các
thông tin, dữ liệu chi tiết về các loại sách,
những khách hàng đã đặt mua, đã chọn xem(có
thể có hoặc không) và các thông tin liên quan….

Lợi ích(kết quả) của cửa hàng(End User):

Giảm chi phí mua không hiệu quả(ví dụ sách ít người đọc, ít người
mua, bán chậm hoặc tồn kho…).

Lợi nhuận tăng(nhiều người mua nhiều độ tuổi, nhiều thể loại,
nhiều người vào website tham khảo…do đưa ra những gợi ý liên
quan hiệu quả cho người dùng phù hợp).

Hiển thị kết quả(thống kê, dự báo), gợi ý trực quan góp phần vào
quyết định hướng đi đúng đắn(chiến lược kinh doanh thời gian tới,
nguồn hàng nào cần tăng, nguồn hàng nào cần giảm bớt…).

Quản lý dữ liệu một cách hiệu quả hơn.

Kết quả đạt được(dự định của sinh viên):

Nắm vững lý thuyết, giải thuật phân lớp(Classification).

Xây dựng phần mềm thực hiện được các chức năng:

Đọc dữ liệu đầu vào(kết nối CSDL hoặc đọc từ file)

Máy học(huấn luyện)

Chạy giải thuật đúng đắn.

Đưa ra kết quả + dự báo + gợi ý(nếu có thể).

Kết xuất trực quan kết quả.

Hoàn thành mục tiêu môn học với phần mềm thực hiện chức năng
cụ thể.
Outline

Tìm hiểu đề tài

Các giải thuật Data Mining

Giải thuật Classification

Thực hiện chương trình

Tổng kết

Reference
Các giải thuật Data Mining
Khái niệm:Là quá trình trích xuất dữ liệu từ lượng lớn dữ liệu. Một
quá trình không dễ trích xuất thông tin ẩn, hữu ích chưa được biết
trước về dữ liệu.

Phân tích kết hợp(association analysic)

VD: buys(X; “computer”) => buys(X; “software”)
[support = 1%; confidence = 50%]

X: biến biểu diễn khách hàng. Độ chắc
chắn(confidence) 50% là khách hàng X sẽ mua máy
tính(computer) thì sẽ mua phần mềm(software)… 1%
support thể hiện tỉ lệ mua máy tính và mua phần
mềm cùng nhau trong tất cả quá trình mua hàng…

Phân lớp: là quá trình tìm mẫu(model) thích
hợp mà mô tả và phân biệt các lớp dữ liệu và
các khái niệm, sữ dụng kiểu để tiên đoán lớp
của những đối tượng mà chưa biết các
nhãn(class label)… Các mẫu dẫn xuất thì dựa
trên sự phân tích các tập dữ liệu được huấn
luyện(training data)…

Không có nhận xét nào:

Đăng nhận xét