آموزش دستکاری داده‌ها در مقیاس بزرگ: سیستم‌ها و الگوریتم‌ها - آخرین آپدیت

دانلود Data Manipulation at Scale: Systems and Algorithms

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: تحلیل داده‌ها جایگزین جمع‌آوری داده‌ها به عنوان گلوگاه تصمیم‌گیری مبتنی بر شواهد شده است؛ ما در میان حجم عظیمی از داده‌ها غرق شده‌ایم. استخراج دانش از مجموعه‌داده‌های بزرگ، ناهمگون و نویزدار، نه تنها به منابع محاسباتی قدرتمند، بلکه به انتزاع‌های برنامه‌نویسی برای استفاده موثر از آن‌ها نیاز دارد. انتزاع‌هایی که در دهه گذشته ظهور کردند، ایده‌هایی از پایگاه‌های داده موازی، سیستم‌های توزیع‌شده و زبان‌های برنامه‌نویسی را ترکیب کرده‌اند تا کلاس جدیدی از پلتفرم‌های تحلیل داده‌های مقیاس‌پذیر ایجاد کنند که زیربنای علم داده در مقیاس‌های واقعی را تشکیل می‌دهند. در این دوره، شما با چشم‌انداز سیستم‌های مرتبط، اصولی که بر آن‌ها استوار هستند، نقاط قوت و ضعف آن‌ها و نحوه ارزیابی کاربردشان در برابر نیازهای خود آشنا خواهید شد. خواهید آموخت که چگونه سیستم‌های کاربردی از مرزهای تحقیقات علوم کامپیوتر مشتق شده‌اند و چه سیستم‌هایی در افق پیش رو هستند. مباحثی چون رایانش ابری، پایگاه‌های داده SQL و NoSQL، MapReduce و اکوسیستم ایجاد شده توسط آن، Spark و هم‌ترازان آن، و سیستم‌های تخصصی برای گراف‌ها و آرایه‌ها پوشش داده خواهند شد. همچنین تاریخچه و زمینه علم داده، مهارت‌ها، چالش‌ها و متدولوژی‌هایی که این اصطلاح به آن‌ها اشاره دارد و نحوه ساختاردهی به یک پروژه علم داده را خواهید آموخت. در پایان این دوره، شما قادر خواهید بود: اهداف یادگیری: 1. توصیف الگوهای رایج، چالش‌ها و رویکردهای مرتبط با پروژه‌های علم داده و تفاوت آن‌ها با پروژه‌های حوزه‌های مرتبط. 2. شناسایی و استفاده از مدل‌های برنامه‌نویسی مرتبط با دستکاری مقیاس‌پذیر داده‌ها، شامل جبر رابطه‌ای، MapReduce و سایر مدل‌های جریان داده. 3. استفاده از فناوری‌های پایگاه داده تطبیق‌یافته برای تحلیل‌های مقیاس بزرگ، شامل مفاهیم پیشران پایگاه‌های داده موازی، پردازش موازی پرس‌وجوها و تحلیل‌های درون-پایگاه‌داده. 4. ارزیابی ذخیره‌سازهای کلید-مقدار (Key-Value) و سیستم‌های NoSQL، توصیف نقاط قوت و ضعف آن‌ها در مقایسه با سیستم‌های مشابه و بررسی روندهای آینده. 5. تفکر به سبک MapReduce برای نوشتن موثر الگوریتم‌ها در سیستم‌هایی مانند Hadoop و Spark؛ درک محدودیت‌ها، جزئیات طراحی، رابطه آن‌ها با پایگاه‌های داده و اکوسیستم الگوریتم‌ها، افزونه‌ها و زبان‌های مرتبط و نوشتن برنامه‌ها در Spark. 6. توصیف چشم‌انداز سیستم‌های تخصصی داده‌های بزرگ (Big Data) برای گراف‌ها، آرایه‌ها و جریان‌ها.

سرفصل ها و درس ها

زمینه و مفاهیم علم داده Data Science Context and Concepts

  • ایجاد انگیزه: سیاست Appetite Whetting: Politics

  • ایجاد انگیزه: آب و هوای شدید Appetite Whetting: Extreme Weather

  • ایجاد انگیزه: علوم انسانی دیجیتال Appetite Whetting: Digital Humanities

  • ایجاد انگیزه: کتاب‌سنجی Appetite Whetting: Bibliometrics

  • ایجاد انگیزه: غذا، موسیقی، بهداشت عمومی Appetite Whetting: Food, Music, Public Health

  • ایجاد انگیزه: ادامه بهداشت عمومی، زلزله‌ها، حقوقی Appetite Whetting: Public Health cont'd, Earthquakes, Legal

  • ویژگی‌های علم داده Characterizing Data Science

  • ویژگی‌های علم داده (ادامه) Characterizing Data Science, cont'd

  • تمایز علم داده از موضوعات مرتبط Distinguishing Data Science from Related Topics

  • چهار بعد علم داده Four Dimensions of Data Science

  • ابزارها در مقابل انتزاع‌ها Tools vs. Abstractions

  • مقیاس دسکتاپ در مقابل مقیاس ابری Desktop Scale vs. Cloud Scale

  • هکرها در مقابل تحلیل‌گران Hackers vs. Analysts

  • ساختارها در مقابل آمار Structs vs. Stats

  • ساختارها در مقابل آمار (ادامه) Structs vs. Stats cont'd

  • پارادایم چهارم علم A Fourth Paradigm of Science

  • مثال‌های علم داده‌محور Data-Intensive Science Examples

  • داده‌های بزرگ و 3V Big Data and the 3 Vs

  • تعاریف داده‌های بزرگ Big Data Definitions

  • منابع داده‌های بزرگ Big Data Sources

  • تدارکات دوره Course Logistics

  • تمرین توییتر: شروع به کار Twitter Assignment: Getting Started

پایگاه‌های داده رابطه‌ای و جبر رابطه‌ای Relational Databases and the Relational Algebra

  • مدل‌های داده و اصطلاحات Data Models, Terminology

  • از مدل‌های داده به پایگاه‌های داده From Data Models to Databases

  • پایگاه‌های داده پیش از رابطه‌ای Pre-Relational Databases

  • ضرورت پایگاه‌های داده رابطه‌ای Motivating Relational Databases

  • پایگاه‌های داده رابطه‌ای: ایده‌های کلیدی Relational Databases: Key Ideas

  • مروری بر بهینه‌سازی جبری Algebraic Optimization Overview

  • مروری بر جبر رابطه‌ای Relational Algebra Overview

  • عملگرهای جبر رابطه‌ای: اجتماع، تفاضل، انتخاب Relational Algebra Operators: Union, Difference, Selection

  • عملگرهای جبر رابطه‌ای: تصویر، ضرب دکارتی Relational Algebra Operators: Projection, Cross Product

  • عملگرهای جبر رابطه‌ای: ادامه ضرب دکارتی، پیوند Relational Algebra Operators: Cross Product cont'd, Join

  • عملگرهای جبر رابطه‌ای: پیوند خارجی Relational Algebra Operators: Outer Join

  • عملگرهای جبر رابطه‌ای: پیوند تتا Relational Algebra Operators: Theta-Join

  • تبدیل SQL به جبر رابطه‌ای From SQL to RA

  • تفکر در جبر رابطه‌ای: طرح‌های منطقی پرس‌وجو Thinking in RA: Logical Query Plans

  • SQL کاربردی: دسته‌بندی سری‌های زمانی Practical SQL: Binning Timeseries

  • SQL کاربردی: بازه‌های ژنومیک Practical SQL: Genomic Intervals

  • توابع تعریف شده توسط کاربر User-Defined Functions

  • پشتیبانی از توابع تعریف شده توسط کاربر Support for User-Defined Functions

  • بهینه‌سازی: طرح‌های فیزیکی پرس‌وجو Optimization: Physical Query Plans

  • بهینه‌سازی: انتخاب طرح‌های فیزیکی Optimization: Choosing Physical Plans

  • زبان‌های توصیفی Declarative Languages

  • زبان‌های توصیفی: مثال‌های بیشتر Declarative Languages: More Examples

  • نماها: استقلال منطقی داده‌ها Views: Logical Data Independence

  • اندیس‌ها Indexes

MapReduce و برنامه‌نویسی جریان داده موازی MapReduce and Parallel Dataflow Programming

  • مقیاس‌پذیر به چه معناست؟ What Does Scalable Mean?

  • طرحی از پیچیدگی الگوریتمی A Sketch of Algorithmic Complexity

  • طرحی از الگوریتم‌های موازی داده A Sketch of Data-Parallel Algorithms

  • الگوریتم‌های «به‌طور دلپذیر موازی» "Pleasingly Parallel" Algorithms

  • الگوریتم‌های توزیع‌شده کلی‌تر More General Distributed Algorithms

  • انتزاع MapReduce MapReduce Abstraction

  • مدل داده MapReduce MapReduce Data Model

  • توابع Map و Reduce Map and Reduce Functions

  • مثال ساده MapReduce MapReduce Simple Example

  • مثال ساده MapReduce (ادامه) MapReduce Simple Example cont'd

  • مثال MapReduce: هیستوگرام طول کلمات MapReduce Example: Word Length Histogram

  • مثال‌های MapReduce: ایندکس معکوس، پیوند MapReduce Examples: Inverted Index, Join

  • پیوند رابطه‌ای: مرحله Map Relational Join: Map Phase

  • پیوند رابطه‌ای: مرحله Reduce Relational Join: Reduce Phase

  • تحلیل ساده شبکه اجتماعی: شمارش دوستان Simple Social Network Analysis: Counting Friends

  • مروری بر ضرب ماتریسی Matrix Multiply Overview

  • توضیح مصور ضرب ماتریسی Matrix Multiply Illustrated

  • رایانش بدون اشتراک (Shared Nothing) Shared Nothing Computing

  • پیاده‌سازی MapReduce MapReduce Implementation

  • مراحل MapReduce MapReduce Phases

  • فضای طراحی برای سیستم‌های داده در مقیاس بزرگ A Design Space for Large-Scale Data Systems

  • پردازش موازی و توزیع‌شده پرس‌وجوها Parallel and Distributed Query Processing

  • مثال Teradata، افزونه‌های MR Teradata Example, MR Extensions

  • مقایسه RDBMS و MapReduce: ویژگی‌ها RDBMS vs. MapReduce: Features

  • مقایسه RDBMS و Hadoop: دستور Grep RDBMS vs. Hadoop: Grep

  • مقایسه RDBMS و Hadoop: انتخاب، تجمیع، پیوند RDBMS vs. Hadoop: Select, Aggregate, Join

NoSQL: سیستم‌ها و مفاهیم NoSQL: Systems and Concepts

  • زمینه و نقشه راه NoSQL NoSQL Context and Roadmap

  • مروری بر NoSQL NoSQL Roundup

  • تسهیل تضمین‌های سازگاری Relaxing Consistency Guarantees

  • تعهد دو مرحله‌ای و پروتکل‌های اجماع Two-Phase Commit and Consensus Protocols

  • سازگاری نهایی (Eventual Consistency) Eventual Consistency

  • قضیه CAP CAP Theorem

  • انواع سیستم‌های NoSQL Types of NoSQL Systems

  • ACID و سیستم‌های با تاثیر گسترده ACID, Major Impact Systems

  • Memcached: هشینگ سازگار Memcached: Consistent Hashing

  • هشینگ سازگار (ادامه) Consistent Hashing, cont'd

  • DynamoDB: ساعت‌های برداری DynamoDB: Vector Clocks

  • ساعت‌های برداری (ادامه) Vector Clocks, cont'd

  • مروری بر CouchDB CouchDB Overview

  • نماهای CouchDB CouchB Views

  • مروری بر BigTable BigTable Overview

  • پیاده‌سازی BigTable BigTable Implementation

  • HBase و Megastore HBase, Megastore

  • Spanner Spanner

  • Spanner (ادامه)، سیستم‌های گوگل Spanner cont'd, Google Systems

  • سیستم‌های مبتنی بر MapReduce MapReduce-based Systems

  • بازگشت پیوندها (Joins) Bringing Back Joins

  • پاسخ به انتقادات NoSQL NoSQL Rebuttal

  • شبیه SQL: زبان Pig Almost SQL: Pig

  • معماری و کارایی Pig Pig Architecture and Performance

  • مدل داده Data Model

  • بارگذاری، فیلتر، گروه‌بندی Load, Filter, Group

  • گروه‌بندی، متمایزسازی، برای هر، تخت‌سازی Group, Distinct, Foreach, Flatten

  • CoGroup و پیوند CoGroup, Join

  • الگوریتم‌های پیوند Join Algorithms

  • ناهمگونی داده‌ها (Skew) Skew

  • سایر دستورات Other Commands

  • راهنمای ارزیابی Evaluation Walkthrough

  • مرور کلی Review

  • زمینه Context

  • مثال‌های Spark Spark Examples

  • RDDها و مزایای آن‌ها RDDs, Benefits

تحلیل‌های گراف Graph Analytics

  • مروری بر گراف Graph Overview

  • تحلیل ساختاری Structural Analysis

  • هیستوگرام‌های درجه، ساختار وب Degree Histograms, Structure of the Web

  • اتصال‌پذیری و مرکزیت Connectivity and Centrality

  • الگوریتم PageRank PageRank

  • جزئیات بیشتر PageRank PageRank in more Detail

  • وظایف پیمایش: درخت‌های پوشا و مدارها Traversal Tasks: Spanning Trees and Circuits

  • وظایف پیمایش: حداکثر جریان Traversal Tasks: Maximum Flow

  • تطبیق الگو Pattern Matching

  • پرس‌وجو از جداول یال Querying Edge Tables

  • جبر رابطه‌ای و Datalog برای گراف‌ها Relational Algebra and Datalog for Graphs

  • پرس‌وجو از داده‌های ترکیبی گراف/رابطه‌ای Querying Hybrid Graph/Relational Data

  • مثال پرس‌وجوی گراف: NSA Graph Query Example: NSA

  • مثال پرس‌وجوی گراف: بازگشت Graph Query Example: Recursion

  • ارزیابی برنامه‌های بازگشتی Evaluation of Recursive Programs

  • پرس‌وجوهای بازگشتی در MapReduce Recursive Queries in MapReduce

  • مسئله End Game The End-Game Problem

  • نمایش: جدول یال، لیست مجاورت Representation: Edge Table, Adjacency List

  • نمایش: ماتریس مجاورت Representation: Adjacency Matrix

  • PageRank در MapReduce PageRank in MapReduce

  • PageRank در Pregel PageRank in Pregel

نمایش نظرات

آموزش دستکاری داده‌ها در مقیاس بزرگ: سیستم‌ها و الگوریتم‌ها
جزییات دوره
20h 6m
129
(آخرین آپدیت)
62,772
4.1 از 5
دارد
دارد
دارد
Chris Croft
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Chris Croft Chris Croft

مربی مدیریت، سخنران، نویسنده