Khai phá dữ liệu là gì

     

Về cơ bản, khai thác dữ liệu là về xử lý tài liệu và nhận thấy các mẫu mã và các xu hướng trong tin tức đó để bạn có thể quyết định hoặc đánh giá. Các nguyên tắc khai thác dữ liệu đã được sử dụng nhiều năm rồi, nhưng với sự thành lập và hoạt động của big data (dữ liệu lớn), nó lại càng phổ cập hơn.

Bạn đang xem: Khai phá dữ liệu là gì

Big data tạo ra một sự bùng phát về thực hiện nhiều kỹ thuật khai phá dữ liệu hơn, một phần vì kích cỡ thông tin khủng hơn tương đối nhiều và vì tin tức có xu hướng đa dạng chủng loại và mở rộng hơn về chính thực chất và nội dung của nó. Với các tập hợp dữ liệu lớn, để nhận ra số liệu thống kê tương đối đơn giản và thuận tiện trong hệ thống vẫn chưa đủ. Với 30 hoặc 40 triệu bạn dạng ghi thông tin người tiêu dùng chi tiết, việc biết rằng 2 triệu quý khách hàng trong số đó sống tại một vị trí vẫn không đủ. Bạn có nhu cầu biết liệu 2 triệu quý khách đó gồm thuộc về một đội tuổi rõ ràng không với bạn có muốn biết thu nhập trung bình của họ để chúng ta cũng có thể tập trung vào các nhu yếu của khách hàng của chính bản thân mình tốt hơn.

Những nhu yếu hướng sale này đã đổi khác cách kéo ra và thống kê lại dữ liệu đơn giản và dễ dàng sang việc khai phá dữ liệu phức tạp hơn. Vụ việc kinh doanh hướng đến việc lưu ý dữ liệu để giúp đỡ xây dựng một quy mô để tế bào tả những thông tin nhưng cuối cuộc sẽ dẫn đến sự việc tạo ra report kết quả. Hình tiếp sau đây phác thảo quá trình này.

*

Quá trình so sánh dữ liệu, tò mò dữ liệu và xây dựng mô hình dữ liệu thường xuyên lặp lại khi bạn tập trung vào và nhận thấy các thông tin khác nhau để chúng ta cũng có thể trích ra. Bạn cũng cần hiểu cách tùy chỉnh cấu hình quan hệ, ánh xạ, phối kết hợp và phân cụm thông tin đó với dữ liệu khác để tạo thành kết quả. Thừa trình nhận biết dữ liệu mối cung cấp và những định dạng nguồn, rồi ánh xạ thông tin đó tới tác dụng đã mang lại của công ty chúng tôi có thể chuyển đổi sau khi chúng ta phát hiện ra những yếu tố và các khía cạnh khác nhau của dữ liệu.

Các công cụ khai thác dữ liệu

Khai phá dữ liệu chưa phải là tất cả về những công thế hay ứng dụng cơ sở dữ liệu mà bạn đang sử dụng. Bạn cũng có thể thực hiện khai thác dữ liệu bởi các hệ thống cơ sở dữ liệu thông thường và những công cụ solo giản, bao hàm việc tạo nên và viết phần mềm riêng của người sử dụng hoặc sử dụng những gói ứng dụng bán không tính cửa hàng. Khai thác dữ liệu phức hợp được thụ hưởng từ tay nghề trong thừa khứ và các thuật toán đã có mang với phần mềm và những gói ứng dụng hiện có, với những công cố gắng nhất định để thu được một mối quan hệ hoặc uy tín lớn hơn bằng các kỹ thuật không giống nhau.

Gần đây những tập hợp dữ liệu không nhỏ và câu hỏi xử lý tài liệu theo nhiều và bài bản lớn tất cả thể có thể chấp nhận được khai phá tài liệu để thu xếp và lập report về các nhóm và các mối đối sánh tương quan của dữ liệu phức tạp hơn. Hiện thời đã có sẵn không hề ít công cầm cố và khối hệ thống hoàn toàn mới, có các khối hệ thống lưu trữ cùng xử lý dữ liệu kết hợp.Bạn có thể khai phá dữ liệu với rất nhiều tập hợp tài liệu khác nhau, gồm các cơ sở tài liệu SQL truyền thống, dữ liệu văn bản thô, các kho khóa/giá trị và những cơ sở dữ liệu tài liệu. Những cơ sở dữ liệu có phân cụm, như Hadoop, Cassandra, CouchDB và Couchbase Server, tàng trữ và hỗ trợ quyền truy vấn vào tài liệu theo cách không tương xứng với cấu trúc bảng truyền thống.

Đặc biệt, định dạng lưu trữ cơ sở tài liệu tài liệu linh hoạt rộng lại gây nên một trung tâm và sự phức hợp khác về xử trí thông tin. Những cơ sở tài liệu SQL áp đặt các cấu trúc chặt chẽ và cứng ngắc vào lược đồ, tạo nên việc truy nã vấn chúng và phân tích dữ liệu trở nên dễ dàng theo quan tiền điểm hiểu rõ định dạng và kết cấu thông tin.

Các cơ sở dữ liệu tài liệu, bao gồm một tiêu chuẩn chẳng hạn như kết cấu thực thi JSON hoặc các tệp có cấu trúc đọc được bằng máy tính xách tay nào đó, cũng dễ giải pháp xử lý hơn, tuy nhiên chúng rất có thể làm tăng thêm sự tinh vi do cấu tạo khác nhau và hay thế đổi. Ví dụ, với việc xử lý dữ liệu hoàn toàn thô của Hadoop, rất có thể phức tạp để nhận biết và trích ra nội dung trước khi bạn ban đầu xử lý và tương quan với nó.

Các kỹ thuật chính

Một số chuyên môn cốt lõi, được thực hiện trong khai phá dữ liệu, diễn đạt kiểu chuyển động khai phá và hoạt động phục hồi dữ liệu. Thật rủi ro là những công ty cùng các chiến thuật khác nhau chưa hẳn lúc nào thì cũng dùng chung những thuật ngữ. Chính các thuật ngữ này rất có thể làm tăng lên sự mơ hồ cùng sự phức tạp.

Hãy coi xét một vài kỹ thuật chính và ví dụ về kiểu cách sử dụng các công cụ khác biệt để dựng lên việc khai thác dữ liệu.

Sự kết hợp

Sự phối hợp (hay côn trùng quan hệ) có lẽ là kỹ thuật khai phá dữ liệu được biết đến nhiều hơn, phần đông quen trực thuộc và đối chọi giản. Ở đây, bạn tiến hành một sự tương quan dễ dàng và đơn giản giữa nhị hoặc các mục, thường thuộc kiểu để phân biệt các mẫu. Ví dụ, khi theo dõi thói quen mua sắm của tín đồ dân, bạn cũng có thể nhận hiểu được một khách hàng luôn thiết lập kem khi họ sở hữu dâu tây, nên bạn cũng có thể đề xuất rằng lần tới khi họ tải dâu tây, họ cũng có thể muốn sở hữu kem.

Việc xây dựng các công cụ khai thác dữ liệu dựa trên sự phối kết hợp hay mối quan hệ hoàn toàn có thể thực hiện đơn giản dễ dàng bằng các công cầm khác nhau. Ví dụ, trong InfoSphere Warehouse một trình phía dẫn giới thiệu các cấu hình của một luồng tin tức được thực hiện kết hợp bằng phương pháp xem xét tin tức nguồn đầu vào của đại lý dữ liệu, thông tin về cơ sở ra ra quyết định và thông tin đầu ra của bạn. Hình 2 cho biết thêm một lấy ví dụ của cơ sở dữ liệu ví dụ mẫu.

*

Sự phân loại

Bạn có thể sử dụng sự phân nhiều loại để phát hành một phát minh về giao diện khách hàng, kiểu sản phẩm hoặc hình trạng đối tượng bằng phương pháp mô tả nhiều thuộc tính để nhận biết một lớp gắng thể. Ví dụ, chúng ta cũng có thể dễ dàng phân loại những xe ô tô thành các kiểu xe không giống nhau (xe mui kín, 4x4, xe hoàn toàn có thể bỏ mui) bằng cách xác định những thuộc tính khác biệt (số địa điểm ngồi, ngoài mặt xe, các bánh xe cộ điều khiển). Cùng với một loại xe mới, chúng ta có thể đặt nó vào một trong những lớp vắt thể bằng phương pháp so sánh các thuộc tính với khái niệm đã biết của chúng tôi. Chúng ta có thể áp dụng các nguyên tắc tương tự ấy cho những khách hàng, ví dụ bằng cách phân loại quý khách theo độ tuổi với nhóm làng hội.

Hơn nữa, chúng ta cũng có thể sử dụng vấn đề phân các loại như một mối cung cấp cấp, hoặc như là hiệu quả của những kỹ thuật khác. Ví dụ, chúng ta cũng có thể sử dụng các cây đưa ra quyết định để khẳng định một cách phân loại. Bài toán phân các sẽ cho phép bạn sử dụng những thuộc tính tầm thường theo các cách phân loại khác nhau để phân biệt các cụm.

Việc phân nhiều (Clustering)

Bằng cách xem xét một hay các thuộc tính hoặc những lớp, chúng ta cũng có thể nhóm các phần tài liệu riêng lẻ cùng nhau để tạo nên thành một quan điểm cấu trúc. Ở mức 1-1 giản, câu hỏi phân nhiều đang thực hiện một hoặc các thuộc tính có tác dụng cơ sở cho bạn để nhận ra một nhóm các công dụng tương quan. Việc phân cụm giúp để nhận ra các thông tin không giống nhau vì nó tương quan với các ví dụ khác, nên bạn cũng có thể thấy ở chỗ nào có hầu hết điểm tương đồng và những phạm vi phù hợp.

Xem thêm: Cách Chèn Bảng Excel Vào Word, Chèn File Excel Vào File Word

Việc phân cụm hoàn toàn có thể làm theo nhị cách. Chúng ta cũng có thể giả sử rằng bao gồm một cụm tại một điểm nhất quyết và kế tiếp sử dụng các tiêu chuẩn nhận dạng của công ty chúng tôi để xem liệu bạn có đúng không. Đồ thị trong Hình 3 là 1 ví dụ hay. Trong ví dụ như này, một ví dụ chủng loại về dữ liệu marketing so sánh tuổi của người tiêu dùng với quy mô bán hàng. Thật hợp lý và phải chăng khi thấy rằng những người dân ở lứa tuổi hai mươi (trước lúc kết hôn với còn nhỏ), ở giới hạn tuổi năm mươi và sáu mươi (khi không còn con dòng ở nhà), có nhiều tiền tiêu hơn.

*

Trong ví dụ này, bạn cũng có thể nhận ra nhì cụm, một cụm xung quanh nhóm 2.000 Đô la Mỹ/ 20-30 tuổi và một cụm ở nhóm 7.000-8.000 Đô la Mỹ/ 50-65 tuổi. Trong trường đúng theo này, cửa hàng chúng tôi đã giả thuyết hai các và đã chứng tỏ giả thuyết của shop chúng tôi bằng một đồ thị đơn giản mà shop chúng tôi có thể chế tạo ra bằng phương pháp sử dụng ngẫu nhiên phần mềm thứ họa thích hợp nào để sở hữu được ánh nhìn nhanh chóng. Những quyết định tinh vi hơn rất cần được có một gói ứng dụng phân tích đầy đủ, nhất là nếu bạn có nhu cầu các quyết định tự động dựa vào thông tin bên cạnh gần nhất.

Việc vẽ trang bị thị phân cụm theo phong cách này là một trong ví dụ dễ dàng và đơn giản về mẫu gọi là nhận thấy sự sát bên gần nhất. Chúng ta có thể nhận ra các người tiêu dùng riêng lẻ bằng sự gần gũi theo nghĩa đen của mình với nhau trên đồ vật thị. Có khá nhiều khả năng là các người tiêu dùng trong thuộc một nhiều cũng cần sử dụng chung những thuộc tính khác và bạn có thể sử dụng sự ao ước đợi đó để giúp hướng dẫn, phân nhiều loại và còn nếu như không thì phân tích những người khác trong tập hợp dữ liệu của bạn.

Bạn cũng rất có thể áp dụng việc phân nhiều theo ý kiến ngược lại; phụ thuộc vào một số trực thuộc tính đầu vào, chúng ta có thể nhận ra những tạo phẩm không giống nhau. Ví dụ, một nghiên cứu gần đây về các số sạc pin 4-chữ số đang tìm ra những cụm giữa những chữ số trong phạm vi 1-12 cùng 1-31 cho những cặp thứ nhất và sản phẩm hai. Bằng phương pháp vẽ các cặp này, bạn cũng có thể nhận ra và khẳng định các cụm tương quan đến tháng ngày (các ngày sinh nhật, những ngày kỷ niệm).

Dự báo

Dự báo là 1 trong những chủ đề rộng và đi từ đoán trước về lỗi của những thành phần hay thiết bị móc đến việc nhận ra sự gian lậu và thậm chí là cả dự báo về lợi nhuận của người tiêu dùng nữa. Được sử dụng kết hợp với các kỹ thuật khai phá dữ liệu khác, dự báo tất cả có bài toán phân tích những xu hướng, phân loại, so khớp chủng loại và mọt quan hệ. Bằng cách phân tích các sự kiện hoặc những cá thể trong thừa khứ, bạn có thể đưa ra một đoán trước về một sự kiện.

Khi sử dụng quyền hạn thẻ tín dụng, chẳng hạn, bạn có thể kết hợp đối chiếu cây quyết định của những giao dịch lẻ tẻ trong quá khứ với câu hỏi phân một số loại và những sự so khớp mẫu lịch sử dân tộc để nhận biết liệu một giao dịch thanh toán có ăn lận hay không. Rất rất có thể là việc thực hiện một sự so khớp giữa những việc mua vé những chuyến bay đến Mỹ và các giao dịch tại Mỹ cho thấy thêm giao nhờn này hợp lệ.

Các mẫu tuần tự

Thường được thực hiện trên các dữ liệu nhiều năm hạn, các mẫu tuần tự là một trong phương pháp có lợi để phân biệt các xu thế hay những sự lộ diện thường xuyên của những sự kiện tương tự. Ví dụ, với tài liệu khách hàng, chúng ta cũng có thể nhận ra rằng các người sử dụng cùng nhau mua một tủ chứa đồ riêng lẻ về các sản phẩm tại những thời điểm khác biệt trong năm. Vào một ứng dụng giỏ hàng, bạn cũng có thể sử dụng tin tức này để auto đề xuất rằng một số mặt hàng nào này được thêm vào trong 1 giỏ mặt hàng dựa trên tần suất và lịch sử hào hùng mua mặt hàng trong quá khứ của các khách hàng.

Các cây quyết định

Liên quan đến hầu như các kỹ thuật không giống (chủ yếu ớt là phân một số loại và dự báo), cây quyết định có thể được sử dụng hoặc như là là một trong những phần trong các tiêu chuẩn lựa chọn hoặc để cung ứng việc thực hiện và lựa chọn tài liệu cụ thể phía bên trong cấu trúc tổng thể. Vào cây quyết định, bạn ban đầu bằng một thắc mắc đơn giản bao gồm hai câu vấn đáp (hoặc đôi khi có nhiều câu vấn đáp hơn). Mỗi câu vấn đáp lại dẫn đến thêm một câu hỏi nữa sẽ giúp phân nhiều loại hay phân biệt dữ liệu sao cho rất có thể phân loại dữ liệu hoặc sao cho có thể thực hiện dự đoán trên các đại lý mỗi câu trả lời.

*

Các cây đưa ra quyết định thường được áp dụng cùng với các khối hệ thống phân loại tương quan đến tin tức có đẳng cấp thuộc tính cùng với các hệ thống dự báo, nơi những dự báo khác nhau hoàn toàn có thể dựa trên khiếp nghiệm lịch sử vẻ vang trong thừa khứ sẽ giúp hướng dẫn cấu tạo của cây quyết định và công dụng đầu ra.

Các tổ hợp

Trong thực tế, thật thảng hoặc khi các bạn sẽ sử dụng một kỹ thuật trong các những kỹ thuật đơn nhất này. Việc phân một số loại và phân nhiều là hầu như kỹ thuật kiểu như nhau. Nhờ sử dụng việc phân nhiều để phân biệt các thông tin lân cận gần nhất, chúng ta có thể tiếp tục điều khiển việc phân nhiều loại của mình. Thông thường, cửa hàng chúng tôi sử dụng những cây quyết định sẽ giúp xây dựng và nhận thấy các nhiều loại mà công ty chúng tôi có thể theo dõi chúng trong một thời gian dài để nhận ra các trình từ bỏ và các mẫu.

Xử lý (bộ nhớ) nhiều năm hạn

Trong toàn bộ các cách thức cốt lõi, thường có nguyên nhân để lưu lại thông tin và tìm hiểu từ thông tin. Trong một số kỹ thuật, bài toán này trọn vẹn rõ ràng. Ví dụ, cùng với việc tìm hiểu các chủng loại tuần tự và dự báo, bạn xem xét lại dữ liệu từ khá nhiều nguồn và nhiều cá thể tin tức để chế tạo một mẫu.

Trong một trong những kỹ thuật khác, quy trình này rất có thể rõ ràng hơn. Các cây quyết định ít khi được xuất bản một lần với không khi nào được coi nhẹ. Khi nhận ra thông tin mới, những sự khiếu nại và các điểm dữ liệu, có thể cần gây ra thêm các nhánh hoặc thậm chí toàn cục các cây mới, để đấu tranh với những thông tin bổ sung.

Bạn gồm thể auto hoá một vài bước của quá trình này. Ví dụ, câu hỏi xây dựng một mô hình dự báo để nhận biết sự gian lậu thẻ tín dụng là desgin các tỷ lệ để chúng ta có thể sử dụng cho thanh toán hiện tại cùng sau đó cập nhật mô hình kia với những giao dịch new (đã được phê duyệt). Rồi thông tin này được khắc ghi sao cho có thể đưa ra ra quyết định một cách gấp rút trong lần tới.

Xem thêm: " Quote Nghĩa Là Gì ? Ý Nghĩa Của Chúng Theo Từng Trường Hợp?

Kết luận

Việc khai phá dữ liệu còn hơn câu hỏi chạy một trong những truy vấn phức hợp trên dữ liệu mà bạn đã lưu lại trong cơ sở dữ liệu của mình. Các bạn phải thao tác làm việc với dữ liệu của mình, định dạng lại nó hoặc cấu tạo lại nó, bất kể bạn gồm đang áp dụng SQL, các đại lý dữ liệu dựa vào tài liệu như Hadoop hoặc những tệp phẳng dễ dàng và đơn giản hay không. Việc nhận biết định dạng thông tin mà bạn rất cần phải dựa trên nghệ thuật và vấn đề phân tích mà bạn muốn làm. Sau khi bạn có thông tin theo format mà chúng ta cần, bạn cũng có thể áp dụng những kỹ thuật không giống (riêng lẻ hay kết hợp lại với nhau) ko phân biệt cấu tạo dữ liệu cơ phiên bản hay tập hợp tài liệu cần thiết.