Trang chủ Blog Câu chuyện học viên: Tự động thu thập & lưu trữ dữ liệu eCommerce qua hệ thống với API

Câu chuyện học viên: Tự động thu thập & lưu trữ dữ liệu eCommerce qua hệ thống với API

21 Tháng Hai, 2024 - 11:25

Thu thập và lưu trữ dữ liệu thủ công một cách thô sơ đã khiến bạn tốn thời gian, chi phí bao lâu nay. Đến với bài viết thứ 2 trong series “Câu chuyện học viên”. Smart Data sẽ chia sẻ về giải pháp giúp bạn “xóa sổ” những pain point kia mãi mãi. Đó là cách xây dựng hệ thống tự động thu thập và lưu trữ dữ liệu trên các sàn thương mại điện tử (eCommerce) bằng giao thức API.

Thông qua bài viết này, bạn sẽ: 

  • Hiểu được bài toán về thu thập và quản lý dữ liệu từ các sàn thương mại điện tử
  • Biết quy trình xây dựng 1 hệ thống thu thập và lưu trữ dữ liệu tự động bằng API

Tổng quan về câu chuyện của học viên Smart Data

Với những ai đã và đang kinh doanh trên chuỗi các sàn thương mại điện tử thì đều gặp phải bài toán: 

  • Làm sao để thu thập và quản lý dữ liệu hiệu quả, tiết kiệm chi phí.
  • Từ đó tạo nền tảng để sẵn sàng cho việc mở rộng quy mô doanh nghiệp sau này.

Học viên của Smart Data quản lý một chuỗi cửa hàng trên 3 sàn thương mại điện tử. Đó là: Lazada, Shopee, TikTok Shop. Anh sử dụng một phần mềm quản lý bán hàng trực tuyến của bên thứ 3 là nhanh.vn. Mục đích để tập trung dữ liệu từ 3 sàn trên. Sau đó, bộ phận kế toán sẽ xuất thủ công những file excel từ nhanh.vn và đưa lên Google Sheet để lưu trữ.

Dựa vào thực trạng trên, Smart Data đã bóc tách và xác định được 2 vấn đề chính:

  • Việc có nhiều cửa hàng trên các sàn sẽ khiến dữ liệu trở nên rời rạc, tốn nhiều thời gian theo dõi các chỉ số kinh doanh từng shop. ⇒ Nhu cầu đầu tiên là 1 phương án quản lý tập trung.
  • Việc xuất file excel thủ công sẽ cần nhiều thời gian cũng như dễ gây sai sót. ⇒ Nhu cầu thứ 2 là xây dựng một hệ thống thu thập tự động.

Dựa vào việc nhận diện 2 nhu cầu trên, Smart Data đã đưa ra giải pháp cho bài toán này với ưu điểm như sau:

Smart Data xây dựng giải pháp cho câu chuyện của học viên bằng API

Thuật ngữ cần biết

Trước khi tìm hiểu giải pháp, bạn cần làm quen với một số thuật ngữ quan trọng để có thể hiểu được nội dung chúng tôi chia sẻ bên dưới: 

Sàn thương mại điện tử (TMĐT): Nơi diễn ra các hoạt động mua bán trực tuyến. Tại Việt Nam có các sàn TMĐT lớn và quen thuộc với người tiêu dùng như Shopee, TikTok Shop, Lazada,…

Hệ thống thu thập và lưu trữ dữ liệu: Một tập hợp các đường dẫn dữ liệu (data pipeline) từ các sàn TMĐT đến hệ thống lưu trữ dữ liệu của doanh nghiệp (data-warehouse). Với các data analyst làm việc nhiều với dữ liệu thì sẽ thường xuyên đề cập tới thuật ngữ này.

API: Phương thức giao tiếp giữa 2 ứng dụng. Mục đích nhằm trao đổi, cập nhật hoặc đơn giản là truy xuất các loại thông tin. Giống như một phương thức giao tiếp, trao đổi thông tin chúng ta thường thực hiện hàng ngày là gọi điện thoại đến một người khác.

Quy trình xây dựng hệ thống tự động bằng giao thức API

Kết hợp 2 nhu cầu đã nhận diện được bên trên, Smart Data đã đưa ra giải pháp: Xây dựng hệ thống tự động thu thập và lưu trữ dữ liệu bằng giao thức API.

Để xây dựng được hệ thống này, bạn cần thực hiện các bước như sau: 

Bước 1: Đăng ký tài khoản API trên các sàn và đợi xét duyệt.

Sau khi tạo được tài khoản ta sẽ điền vào các thông tin cần thiết và đợi sàn xét duyệt. Thời gian là từ 1-2 tuần làm việc tùy vào chính sách mỗi sàn.

Bước 2: Tham khảo tài liệu API và chọn ra những API cần thiết theo yêu cầu khách hàng.

Để đẩy nhanh tiến độ, trong thời gian đợi tài khoản được cấp phép, bạn nên tham khảo trước bộ tài liệu đặc tả API để tìm ra những API cần thiết cho mục đích của mình

Bước 3: Sử dụng phần mềm Postman để kiểm tra dữ liệu đầu ra.

Postman là 1 phần mềm hỗ trợ chúng ta gọi thử và xem dữ liệu trả về từ API.

Sau khi đã tham khảo xong tài liệu đặc tả, ta sẽ dùng phần mềm Postman để gọi thử và xem dữ liệu đầu ra được sàn trả về. Đây là cơ sở để bạn phân tích và tìm hiểu sâu hơn về các chỉ số.

Bước 4: Sử dụng Pentaho để xây dựng hệ thống lấy dữ liệu và lưu trữ tự động trên file excel.

Pentaho là 1 phần mềm hỗ trợ ta tự động hóa các công việc có tính hệ thống và có thể lặp lại theo chu kỳ

Sau khi đã có được thông tin của từng API cần thiết, ta sẽ tiến hành dựng đường dẫn dữ liệu (data pipeline) tự động bằng phần mềm Pentaho. Mỗi đường dẫn thế này sẽ ứng với 1 API. Khi tập hợp lại, bạn sẽ có các đường dẫn như hình.

Bước 5: Đồng bộ hoá hệ thống file Excel lên Google Drive.

Sau khi đã đã xây dựng xong đường dẫn, ta sẽ thu được sản phẩm là hệ thống file excel. Tiếp theo, bạn cần đẩy các file này lên phần mềm Google Drive. Hệ thống khi này sẽ luôn trực tuyến, tập trung và dễ dàng hơn trong việc tiếp cận.

5 lưu ý để nâng cao hiệu quả xây dựng hệ thống bằng API

  1. Tiết kiệm thời gian trong giai đoạn chờ xét duyệt tài khoản: Bạn nên chủ động xem xét bộ tài liệu API để hạn chế thời gian chết, cũng như có thể bắt tay vào bước tiếp theo ngay khi tài khoản được cấp phép.
  2. Chính sách của các sàn TMĐT: Bạn nên tìm hiểu kỹ về chính sách riêng của từng sàn TMĐT. 
  • Shopee: Chỉ cho phép các tài khoản Shop Yêu thích hoặc Shopee Mall được kết nối API.
  • Lazada: Chỉ cho phép lấy dữ liệu trong vòng 30 ngày. Vì vậy bạn cần tinh chỉnh hệ thống phù hợp, tránh thiếu sót dữ liệu.
  1. Trong quá trình xây dựng, Smart Data nhận thấy Pentaho hỗ trợ cho file excel tốt hơn trong việc phân loại và lưu trữ. Google Sheet có một số hạn chế vì thủ tục thiếu linh hoạt.
  2. Định dạng file: Google Drive giúp lưu trữ dữ liệu online miễn phí. Tuy nhiên phần mềm này chỉ đọc được file excel với định dạng xlsx. File excel với định dạng xls sẽ không được hỗ trợ. 
  3. Bên cạnh Google Drive, One Drive của Microsoft cũng có tác dụng tương tự trong việc lưu trữ dữ liệu.

Đọc thêm: Câu chuyện học viên: Automation Dashboard theo dõi dòng tiền thu chi

Kết luận về hệ thống tự động bằng API

Hệ thống thu thập và lưu trữ dữ liệu thô sơ chắc chắn là một “nỗi đau” chung của nhiều doanh nghiệp. Đặc biệt với các doanh nghiệp muốn mở rộng quy mô kinh doanh thì hệ thống thiếu bài bản sẽ là rào cản lớn. 

Hy vọng bài viết này sẽ mang tới cho bạn những thông tin hữu ích. Giúp bạn giải phóng thời gian và công sức bằng giải pháp tự động tối ưu, linh hoạt và hiệu quả.

Khóa học Import & Cleaning Data (ICD)

Đây là khóa học giúp bạn thu thập & Chuẩn hóa dữ liệu không cần code. Vì vậy dù không có background IT, bạn vẫn có thể giải quyết được ngay các bài toán thu thập, chuẩn hóa toàn bộ dữ liệu cho công việc của mình.

Khóa học phù hợp với những bạn đang:

  • Chưa biết cách thu thập dữ liệu
  • Không biết lấy dữ liệu ở đâu, mất nhiều thời gian dò tìm
  • Không thể lấy những nguồn dữ liệu lớn
  • Dữ liệu của bạn ở quá nhiều nơi, khó thu thập về 1 nguồn
  • Khâu thu thập dữ liệu không tự động, thường xuyên phải làm bằng tay

Và dữ liệu thu thập bằng “cơm” một cách thủ công thì đang trong tình trạng là:

  • Thô, quá nhiều trường dữ liệu, nhiều thông tin không liên quan
  • Giả, sai, khuyết, thiếu
  • Không đồng nhất, không đồng bộ giữa các phòng ban
  • FIle nặng load lâu, chậm, lag

👉 Thì giải pháp cho bài toán của bạn nằm ở đây! Đăng ký học thử miễn phí ngay!