Cách Làm Việc Với Dữ Liệu Tốt Hơn (Phần 1)

1. Tổ chức dữ liệu
Một dự án có khả năng thành công cao hay không thường sẽ dựa vào việc giao tiếp và tổ chức tốt. Và một trong những yếu tố quan trọng này là phải thiết lập một cơ chế quản lý dữ liệu một cách hiệu quả bằng việc thiết lập một cấu trúc thư mục hợp lý và có tổ chức. Khi quy mô dự án của bạn tăng lên, việc sắp xếp Google Trang tính theo một cấu trúc cụ thể sẽ ngày càng trở nên quan trọng.

2. Tạo các bản sao lưu cho tài liệu quan trọng
Google đã tích hợp sẵn nhiều tính năng dự phòng để bảo vệ dữ liệu của bạn khỏi bị hỏng hoặc mất như chức năng lịch sử phiên bản để quay lại các phiên bản cũ hơn trongGoogle Sheet khi file gặp vấn đề.
Tuy nhiên, đôi lúc sẽ có một số trường hợp ngoài tầm kiểm soát như là tài khoản của bạncó thể bị hack hoặc đồng nghiệp vô tình xóa tệp tin của bạn. Do đó đối với bất kỳ tài liệu nào thực sự quan trọng, bạn nên tạo một bản sao, lưu trên một tài khoản Google khác nếu có hoặc lưu file (dưới dạng tệp CSV hoặc Excel) trên máy tính của mình.
3. Ghi chú về dữ liệu
Để làm việc nhóm hiệu quả thì chúng ta cần phải có một cơ chế thiết lập các quy tắc chung cho team. Do đó bạn nên tạo một từ điển dữ liệu để giải thích dữ liệu trong Google Sheet (Từ điển dữ liệu là một danh sách các tiêu đề cột trong một tab riêng biệt, kèm theo ghi chú giải thích từng cột) Ví dụ: đơn vị là gì, cột đó có được chuẩn hóa không, cột đó được tính toán như thế nào, v.v. Từ điển dữ liệu không cần quá chi tiết, chỉ cần đủ thông tin để bạn hoặc người khác có thể hiểu được nội dung.

4. Hiểu các bảng dữ liệu có định dạng wide-format và tall-format
Định dạng “wide-format” giúp công cụ biểu đồ dễ dàng phân tích và hiển thị dữ liệu chính xác.

Ngược lại, dữ liệu có định dạng “tall-format” thường được các cơ sở dữ liệu lưu trữ và công cụ biểu đồ có thể gặp khó khăn trong việc phân tích và hiển thị dữ liệu chính xác. Tuy nhiên, với việc phân tích dữ liệu bằng Bảng Pivot hoặc hàm QUERY, bộ dữ liệu có “tall-format” sẽ hoạt động tốt hơn nhiều.

5. Sử dụng tên thống nhất trong dữ liệu
Hãy tránh sử dụng khoảng trắng và ký tự không phải chữ và số trong tên tab, dải ô được đặt tên và tên cột. Một số hàm (ví dụ: trong các câu lệnh select của hàm QUERY) và một số tiện ích bổ sung tuân thủ nguyên tắc không sử dụng khoảng trắng nghiêm ngặt. Do đó, mặc dù không phổ biến, điều này sẽ giúp bạn tránh khỏi lỗi khi thực hiện phân tích dữ liệu.
Lời khuyên là bạn nên sử dụng ký hiệu lạc đà (camel case) hoặc ký hiệu gạch dưới và chọn một kiểu nhất quán, ví dụ:
- duLieu
- du_lieu