Στο βιβλίο Εξόρυξη από Μεγάλα Σύνολα Δεδομένων (3η Έκδοση) θα δουμε πως η δημοφιλία του Παγκοσμίου Ιστού και του διαδικτυακού εμπορίου δημιουργεί πολλά εξαιρετικά μεγάλα σύνολα δεδομένων, από τα οποία μπορεί να αλιευθεί πληροφορία μέσω της εξόρυξης δεδομένων. Το βιβλίο Εξόρυξη από Μεγάλα Σύνολα Δεδομένων επικεντρώνεται σε πρακτικούς αλγορίθμους για την επίλυση βασικών προβλημάτων στην Εξόρυξη Δεδομένων ακόμη και στα μεγαλύτερα από τα σύνολα δεδομένων.
Το βιβλίο αρχίζει με συζήτηση του πλαισίου map-reduce, ενός σημαντικού εργαλείου για τον αυτόματο παραλληλισμό αλγορίθμων. Εξηγείται επίσης η χρήση του τοπικά ευαίσθητου κατακερματισμού. Αυτή η τεχνική αξίζει να γίνει ευρύτερα γνωστή, επειδή είναι αποτελεσματική όταν αναζητούνται όμοια αντικείμενα σε μία πολλή μεγάλη συλλογή, καθώς δεν χρειάζεται να συγκριθεί το κάθε ζεύγος αντικειμένων. Επίσης εξηγούνται αλγόριθμοι επεξεργασίας ροών για την Εξόρυξη Δεδομένων, τα οποία καταφθάνουν πολύ γρήγορα, ώστε να μην είναι εφικτή η εξαντλητική επεξεργασία τους. Στη συνέχεια καλύπτονται η ιδέα του PageRank με τις σχετικές τεχνικές.
Άλλα κεφάλαια καλύπτουν τα προβλήματα εύρεσης συχνών στοιχειοσυνόλων και ομαδοποίησης, το καθένα από τη σκοπιά ότι τα δεδομένα είναι πολύ μεγάλα για να χωρούν στην κύρια μνήμη. Τα τελευταία κεφάλαια καλύπτουν δύο εφαρμογές: συστήματα συστάσεων και διαφημίσεις στον Παγκόσμιο Ιστό, όπου η κάθε μία τους είμαι ζωτικής σημασίας στο ηλεκτρονικό εμπόριο.
Γραμμένο από δύο αυθεντίες των Βάσεων Δεδομένων και των τεχνολογιών Παγκοσμίου Ιστού, αυτό το βιβλίο είναι ουσιώδες τόσο για φοιτητές όσο και για επαγγελματίες.