Tự động hóa: tương lai của khoa học dữ liệu và máy học?

Học máy là một trong những tiến bộ lớn nhất trong lịch sử điện toán và hiện được coi là có thể đóng một vai trò quan trọng trong lĩnh vực dữ liệu lớn và phân tích. Phân tích dữ liệu lớn là một thách thức lớn từ góc độ doanh nghiệp. Ví dụ, các hoạt động như tìm hiểu số lượng lớn các định dạng dữ liệu khác nhau, phân tích chuẩn bị dữ liệu và lọc dữ liệu dư thừa có thể tốn nhiều tài nguyên. Tuyển dụng các chuyên gia khoa học dữ liệu là một đề xuất tốn kém và không phải là phương tiện để kết thúc đối với mọi công ty. Các chuyên gia tin rằng học máy có thể tự động hóa nhiều tác vụ liên quan đến phân tích - cả thường lệ và phức tạp. Học máy tự động có thể giải phóng các nguồn tài nguyên đáng kể có thể được sử dụng cho các công việc phức tạp và sáng tạo hơn. Máy học dường như luôn chuyển động theo hướng này.

Tự động hóa trong bối cảnh công nghệ thông tin

Trong CNTT, tự động hóa là sự kết nối của các hệ thống và phần mềm khác nhau, cho phép chúng thực hiện các nhiệm vụ cụ thể mà không cần bất kỳ sự can thiệp nào của con người. Trong CNTT, các hệ thống tự động có thể thực hiện cả những công việc đơn giản và phức tạp. Ví dụ về một công việc đơn giản có thể là tích hợp các biểu mẫu với các tệp PDF và gửi tài liệu đến đúng người nhận, trong khi cung cấp các bản sao lưu bên ngoài trang web có thể là một ví dụ về một công việc phức tạp.

Để thực hiện đúng công việc của mình, bạn cần phải lập trình hoặc đưa ra các hướng dẫn rõ ràng cho hệ thống tự động. Mỗi khi cần một hệ thống tự động để sửa đổi phạm vi công việc của nó, chương trình hoặc tập lệnh cần được cập nhật bởi ai đó. Mặc dù hệ thống tự động có hiệu quả trong công việc của nó, nhưng lỗi có thể xảy ra vì nhiều lý do. Khi sai sót xảy ra, nguyên nhân gốc rễ cần được xác định và sửa chữa. Rõ ràng, để thực hiện công việc của mình, một hệ thống tự động hoàn toàn phụ thuộc vào con người. Tính chất công việc càng phức tạp thì khả năng xảy ra sai sót, trục trặc càng cao.

Một ví dụ phổ biến về tự động hóa trong ngành công nghệ thông tin là tự động hóa thử nghiệm các giao diện người dùng dựa trên web. Các trường hợp kiểm thử được đưa vào tập lệnh tự động hóa và giao diện người dùng được kiểm tra tương ứng. (Để biết thêm về ứng dụng thực tế của học máy, hãy xem Học máy và Hadoop trong Phát hiện gian lận thế hệ tiếp theo.)

Lập luận ủng hộ tự động hóa là nó thực hiện các nhiệm vụ thường xuyên và có thể lặp lại, đồng thời giải phóng nhân viên làm các nhiệm vụ phức tạp và sáng tạo hơn. Tuy nhiên, cũng có ý kiến ​​cho rằng tự động hóa đã loại trừ một số lượng lớn các nhiệm vụ hoặc vai trò do con người thực hiện trước đây. Giờ đây, với việc học máy xâm nhập vào các ngành công nghiệp khác nhau, tự động hóa có thể thêm một chiều hướng mới.

Tương lai của học máy tự động?

Bản chất của học máy là khả năng của một hệ thống liên tục học hỏi từ dữ liệu và phát triển mà không cần sự can thiệp của con người. Máy học có khả năng hoạt động giống như bộ não con người. Ví dụ: các công cụ đề xuất trên các trang thương mại điện tử có thể đánh giá sở thích và thị hiếu độc đáo của người dùng và đưa ra các đề xuất về các sản phẩm và dịch vụ phù hợp nhất để lựa chọn. Với khả năng này, máy học được coi là lý tưởng để tự động hóa các tác vụ phức tạp liên quan đến dữ liệu lớn và phân tích. Nó đã khắc phục được những hạn chế lớn của các hệ thống tự động truyền thống là không cho phép con người can thiệp một cách thường xuyên. Có nhiều nghiên cứu điển hình chứng minh khả năng của máy học để thực hiện các nhiệm vụ phân tích dữ liệu phức tạp, sẽ được thảo luận sau trong bài báo này.

Như đã lưu ý, phân tích dữ liệu lớn là một đề xuất đầy thách thức đối với các doanh nghiệp, có thể được giao một phần cho các hệ thống học máy. Từ góc độ kinh doanh, điều này có thể mang lại nhiều lợi ích như giải phóng tài nguyên khoa học dữ liệu cho các nhiệm vụ quan trọng và sáng tạo hơn, khối lượng công việc cao hơn, ít thời gian hơn để hoàn thành nhiệm vụ và hiệu quả về chi phí.

Nghiên cứu điển hình

Vào năm 2015, các nhà nghiên cứu của MIT đã bắt đầu nghiên cứu một công cụ khoa học dữ liệu có thể tạo ra các mô hình dữ liệu dự đoán từ một lượng lớn dữ liệu thô bằng cách sử dụng một kỹ thuật được gọi là thuật toán tổng hợp tính năng sâu. Các nhà khoa học khẳng định thuật toán có thể kết hợp các tính năng tốt nhất của máy học. Theo các nhà khoa học, họ đã thử nghiệm nó trên ba bộ dữ liệu khác nhau và đang mở rộng thử nghiệm để bao gồm nhiều hơn nữa. Trong một bài báo sẽ được trình bày tại Hội nghị Quốc tế về Khoa học Dữ liệu và Phân tích, các nhà nghiên cứu James Max Kanter và Kalyan Veeramachaneni cho biết, "Sử dụng quy trình điều chỉnh tự động, chúng tôi tối ưu hóa toàn bộ đường dẫn mà không cần sự tham gia của con người, cho phép nó tổng quát hóa thành các tập dữ liệu khác nhau".

Hãy xem xét độ phức tạp của nhiệm vụ: thuật toán có khả năng tự động điều chỉnh, với sự trợ giúp của những thông tin chi tiết hoặc giá trị có thể thu được hoặc trích xuất từ ​​dữ liệu thô (chẳng hạn như tuổi hoặc giới tính), sau đó là dữ liệu dự đoán các mô hình có thể được tạo ra. Thuật toán sử dụng các hàm toán học phức tạp và một lý thuyết xác suất được gọi là Gaussian Copula. Do đó, có thể dễ dàng hiểu được mức độ phức tạp mà thuật toán có thể xử lý. Kỹ thuật này cũng đã giành được giải thưởng trong các cuộc thi.

Học máy có thể thay thế bài tập về nhà

Người ta đang thảo luận trên khắp thế giới rằng máy học có thể thay thế nhiều công việc vì nó thực hiện các nhiệm vụ với hiệu quả của bộ não con người. Trên thực tế, có một số lo ngại rằng học máy sẽ thay thế các nhà khoa học dữ liệu, và dường như có cơ sở cho mối quan tâm đó.

Đối với người dùng bình thường không có kỹ năng phân tích dữ liệu nhưng có nhu cầu phân tích ở mức độ khác nhau trong cuộc sống hàng ngày, việc sử dụng máy tính có thể phân tích khối lượng dữ liệu khổng lồ và cung cấp dữ liệu phân tích là không khả thi. Tuy nhiên, kỹ thuật Xử lý Ngôn ngữ Tự nhiên (NLP) có thể khắc phục hạn chế này bằng cách dạy máy tính chấp nhận và xử lý ngôn ngữ tự nhiên của con người. Bằng cách này, người dùng bình thường không cần các chức năng hoặc kỹ năng phân tích phức tạp.

IBM tin rằng nhu cầu về các nhà khoa học dữ liệu có thể được giảm thiểu hoặc loại bỏ thông qua sản phẩm của mình, Nền tảng phân tích ngôn ngữ tự nhiên Watson. Theo Marc Atschuller, phó chủ tịch phân tích và trí tuệ kinh doanh tại Watson, “Với một hệ thống nhận thức như Watson, bạn chỉ cần đặt câu hỏi của mình - hoặc nếu bạn không có câu hỏi, bạn chỉ cần tải dữ liệu của mình lên và Watson có thể xem xét nó. và suy ra những gì bạn có thể muốn biết. ”

Phần kết luận

Tự động hóa là bước hợp lý tiếp theo trong học máy và chúng ta đang trải qua những ảnh hưởng trong cuộc sống hàng ngày của mình - các trang thương mại điện tử, gợi ý kết bạn trên Facebook, đề xuất mạng LinkedIn và xếp hạng tìm kiếm Airbnb. Xem xét các ví dụ được đưa ra, chắc chắn rằng điều này có thể là do chất lượng của đầu ra được tạo ra bởi các hệ thống học máy tự động. Đối với tất cả các phẩm chất và lợi ích của nó, ý tưởng về việc học máy gây ra tình trạng thất nghiệp lớn có vẻ hơi phản ứng thái quá. Máy móc đã thay thế con người trong nhiều phần của cuộc sống của chúng ta trong nhiều thập kỷ, nhưng con người đã tiến hóa và thích nghi để duy trì sự phù hợp trong ngành công nghiệp này. Theo quan điểm, học máy đối với tất cả sự gián đoạn của nó chỉ là một làn sóng khác mà mọi người sẽ thích ứng.


Thời gian đăng: 08-03-2021