Anh chị nhìn thấy dữ liệu cần crawl ở khắp mọi nơi: báo cáo, báo chí, bình luận trên mạng xã hội, các thảo luận trên forum, bài blog trên một loạt website,… Cả trăm cả triệu trường thông tin khác nhau cần được kéo về một mối để phân tích và hỗ trợ đưa ra các quyết định kịp thời. Làm thế nào đây?
Nếu không thể thu thập thông tin bằng “cơm”, thì Python chính là dành cho anh chị. Được coi là công cụ tốt nhất cho việc thu thập dữ liệu trên từ nhiều domain khác nhau, Python là chìa khóa để mở mọi cánh cửa ngăn cách giữa anh chị và các dữ liệu cần thiết.
Để tìm hiểu thêm về cách Python “kéo” dữ liệu, mời bạn tham gia ngay Datathon số 12 với các nội dung chính sau:
1. Vai trò của bước Crawl Data trong việc phân tích dữ liệu
2. Python có thể thu thập crawl dữ liệu từ những đâu? – Giới thiệu những cấu trúc website mà bạn có thể lấy dữ liệu và hơn thế nữa
3. Nguyên tắc bóc tách dữ liệu – đọc ghi file table làm sao cho nhanh chóng trong 10 phút
4. Hướng dẫn lấy dữ liệu từ 1 website cấu trúc HTML bằng Python