Applied text analysis with Python : enabling language-aware data products with machine learning

By: Bengfort, Benjamin, 1984-

Title By: Bilbro, Rebecca | Ojeda, Tony

Material type:

BookPublisher: Beijing : O'Reilly Media, c2018.Description: xviii, 310 p. : ill. ; 24 cm.ISBN: 9781491963012; 9781491963043; 9781491962992; 1491962992Subject(s): Python (Computer program language)DDC classification: 005.133 BE AP

Tags from this library: No tags from this library for this title. Log in to add tags.

Holdings ( 1 )
Title notes

Item type	Home library	Call number	Status	Notes	Date due	Barcode	Item holds
REGULAR	University of Wollongong in Dubai Main Collection	005.133 BE AP (Browse shelf)	Available	Feb2019		T0061285

Total holds: 0

, Shelving location: Main Collection Close shelf browser

Previous								Next
Previous	005.133 BA BE Beginning Java programming :	005.133 BA PR Programming fundamentals in JavaScript	005.133 BA PR Programming fundamentals in JavaScript	005.133 BE AP Applied text analysis with Python :	005.133 BE EM Embedded software development :	005.133 BL FU Functional reactive programming	005.133 CA CO Core Java :	Next

Cover; Copyright; Table of Contents; Preface; Computational Challenges of Natural Language; Linguistic Data: Tokens and Words; Enter Machine Learning; Tools for Text Analysis; What to Expect from This Book; Who This Book Is For; Code Examples and GitHub Repository; Conventions Used in This Book; Using Code Examples; O'Reilly Safari; How to Contact Us; Acknowledgments; Chapter 1. Language and Computation; The Data Science Paradigm; Language-Aware Data Products; The Data Product Pipeline; Language as Data; A Computational Model of Language; Language Features; Contextual Features. Structural FeaturesConclusion; Chapter 2. Building a Custom Corpus; What Is a Corpus?; Domain-Specific Corpora; The Baleen Ingestion Engine; Corpus Data Management; Corpus Disk Structure; Corpus Readers; Streaming Data Access with NLTK; Reading an HTML Corpus; Reading a Corpus from a Database; Conclusion; Chapter 3. Corpus Preprocessing and Wrangling; Breaking Down Documents; Identifying and Extracting Core Content; Deconstructing Documents into Paragraphs; Segmentation: Breaking Out Sentences; Tokenization: Identifying Individual Tokens; Part-of-Speech Tagging; Intermediate Corpus Analytics. Corpus TransformationIntermediate Preprocessing and Storage; Reading the Processed Corpus; Conclusion; Chapter 4. Text Vectorization and Transformation Pipelines; Words in Space; Frequency Vectors; One-Hot Encoding; Term Frequency-Inverse Document Frequency; Distributed Representation; The Scikit-Learn API; The BaseEstimator Interface; Extending TransformerMixin; Pipelines; Pipeline Basics; Grid Search for Hyperparameter Optimization; Enriching Feature Extraction with Feature Unions; Conclusion; Chapter 5. Classification for Text Analysis; Text Classification. Identifying Classification ProblemsClassifier Models; Building a Text Classification Application; Cross-Validation; Model Construction; Model Evaluation; Model Operationalization; Conclusion; Chapter 6. Clustering for Text Similarity; Unsupervised Learning on Text; Clustering by Document Similarity; Distance Metrics; Partitive Clustering; Hierarchical Clustering; Modeling Document Topics; Latent Dirichlet Allocation; Latent Semantic Analysis; Non-Negative Matrix Factorization; Conclusion; Chapter 7. Context-Aware Text Analysis; Grammar-Based Feature Extraction; Context-Free Grammars. Syntactic ParsersExtracting Keyphrases; Extracting Entities; n-Gram Feature Extraction; An n-Gram-Aware CorpusReader; Choosing the Right n-Gram Window; Significant Collocations; n-Gram Language Models; Frequency and Conditional Frequency; Estimating Maximum Likelihood; Unknown Words: Back-off and Smoothing; Language Generation; Conclusion; Chapter 8. Text Visualization; Visualizing Feature Space; Visual Feature Analysis; Guided Feature Engineering; Model Diagnostics; Visualizing Clusters; Visualizing Classes; Diagnosing Classification Error; Visual Steering; Silhouette Scores and Elbow Curves. This practical book presents a data scientist's approach to building language-aware products with applied machine learning.

UOWD Library

Applied text analysis with Python : enabling language-aware data products with machine learning

By: Bengfort, Benjamin, 1984-

Title By: Bilbro, Rebecca | Ojeda, Tony

, Shelving location: Main Collection Close shelf browser