لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش حل 10 مشکل Hadoop'able [ویدئو]
Solving 10 Hadoop'able Problems [Video]
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
اکوسیستم Apache Hadoop یک ابزار محبوب و قدرتمند برای حل مشکلات کلان داده است. با ابزارهای رقیب بسیار زیادی برای پردازش داده ها، بسیاری از کاربران می خواهند بدانند کدام مشکلات خاص برای Hadoop مناسب است و چگونه آن راه حل ها را پیاده سازی کنند.
برای دانستن اینکه چه نوع مشکلاتی قابلیت Hadoop را دارند، خوب است با درک اولیه اجزای اصلی Hadoop شروع کنید. شما در مورد اکوسیستم طراحی شده برای اجرا در بالای Hadoop و همچنین نرم افزاری که در کنار آن مستقر شده است آشنا خواهید شد. این ابزارها بلوک های ساختمانی را برای ساخت برنامه های پردازش داده به ما می دهند. این دوره بخشهای اصلی اکوسیستم Hadoop را پوشش میدهد و به شما کمک میکند تا درک گستردهای داشته باشید و شما را سریع راهاندازی کند. در مرحله بعد، تعدادی از مشکلات رایج را به عنوان پروژه های مطالعه موردی که Hadoop قادر به حل آن است، توصیف می کند. این بخشها توسط پروژههای مختلف به بخشهایی تقسیم میشوند که هر کدام به عنوان یک مورد استفاده خاص برای حل مشکلات کلان داده عمل میکنند.
در پایان این دوره، شما با طیف گسترده ای از نرم افزار Hadoop و نمونه هایی از نحوه استفاده از آن برای حل مشکلات رایج داده های بزرگ آشنا خواهید شد.
[*] به طور خلاصه اکوسیستم داده بزرگ Hadoop را کاوش کنید
[*] پردازش دادههای پرداخت از یک جریان رویداد با استفاده از API پخش جریانی: Payment Analyzer
[*] با استفاده از Spark Streaming ترافیک BOT را شناسایی کنید، داده های گزارش را قابل پرس و جو کنید و داده های مشتری را بررسی کنید
[*] تجزیه و تحلیل زنجیره تامین - اقلام پرفروش را به روش جریان پیدا کنید، اقلام پرفروش را افزایش دهید
[*] با پرس و جوهای DataFrame، مقادیر ریزش مشتری را به صورت کمی تجزیه و تحلیل کنید
[*] تجزیه و تحلیل داده های حسگر IoT را با پاسخ دستگاه به خرابی سیستم و جریان داده انجام دهید
[*] محاسبات با عملکرد بالا با تجمعات همسایگی
[*] رتبه بندی صفحات با استفاده از Spark GraphX
[*] تجزیه و تحلیل تهدید - تجزیه و تحلیل وبلاگ ها برای فعالیت های مشکوک و ناهنجاری ها در ترافیک شبکه
[*] استخراج اطلاعات از متن بدون ساختار از طریق Spark DataFrames
[*] تجزیه و تحلیل احساسات پست ها را با استفاده از رگرسیون لجستیک انجام دهید و نویسنده یک پست را پیدا کنید
[*] با استفاده از Cloudera Sandbox Toolkit، محصولی را که کاربران می خواهند بخرند پیدا کنید
[*] از تاریخچه فیلم برای پیشنهاد محتوا و آزمایش و آزمایش با Recommendation Engine استفاده کنید این دوره مهندسین داده و یادگیری ماشین و تحلیلگران داده را هدف قرار می دهد که با حل مسائل داده آشنا هستند و می خواهند یاد بگیرند که چگونه اکوسیستم Apache Hadoop می تواند در نقاط مختلف مورد استفاده قرار گیرد. صنایع برای ایجاد راه حل های نوآورانه برای مشکلات رایج داده ها. [*] به طور خلاصه بیاموزید که چگونه پروژه های کلان داده را از طریق اکوسیستم هادوپ شکست دهید. * * [*] کد عملی را برای یافتن راه حلی برای مشکلات رایج تجاری و فنی خود پیاده کنید. * * [*] راه حل های عملی برای مشکلات گیج کننده و دنیای واقعی شما در کلان داده *
سرفصل ها و درس ها
اجزای اصلی
Core Components
بررسی اجمالی دوره
The Course Overview
سیستم فایل توزیع شده Hadoop (HDFS)
Hadoop Distributed File System (HDFS)
قابلیت محاسبه توزیع شده YARN
Distributed Compute Capability YARN
اکوسیستم پایین دست
Downstream Ecosystem
Apache Hive برای ETL و SQL Like
Apache Hive for ETL and SQL Like
صف پیام و جذب داده کافکا
Message Queuing and Data Ingestion Kafka
تجزیه و تحلیل گزارش های وب برای فعالیت مشکوک و بارگیری در Spark
Analyzing Web Logs for Suspicious Activity and Loading into Spark
پیاده سازی خوشه بندی - انتخاب تعداد خوشه ها
Implementing Clustering - Choosing Number of Clusters
تشخیص ناهنجاری ها در ترافیک شبکه
Detecting Anomalies in Network Traffic
تجزیه و تحلیل متن
Text Analysis
تجزیه و تحلیل پست برای یک نویسنده
Analyzing Post for an Author
استخراج اطلاعات از متن بدون ساختار
Extracting Information from Unstructured Text
استخراج اطلاعات از طریق Spark DataFrame
Extracting Information Via Spark DataFrame
تحلیل احساسات پست ها با استفاده از رگرسیون لجستیک
Sentiment Analysis of Posts Using Logistic Regression
پیدا کردن نویسنده یک پست
Finding an Author of a Post
انبار داده/دریاچه داده/جعبه شنی داده ها
Data Warehouse/Data Lake/ Data Sandbox
دانلود و تنظیم Cloudera Sandbox
Downloading and Setting Cloudera Sandbox
پیدا کردن محصولاتی که کاربران میخواهند با استفاده از جعبه ابزار Cloudera Sandbox بخرند
Finding What Products Users Wants to Buy Using Cloudera Sandbox Toolkit
شخصی سازی
Personalization
استفاده از تاریخچه فیلم ها برای پیشنهاد محتوای جالب
Using Movies History to Suggest Interesting Content
تست و آزمایش با Recommendation Engine
Testing and Experimenting with Recommendation Engine
نمایش نظرات
Packtpub یک ناشر دیجیتالی کتابها و منابع آموزشی در زمینه فناوری اطلاعات و توسعه نرمافزار است. این شرکت از سال 2004 فعالیت خود را آغاز کرده و به تولید و انتشار کتابها، ویدیوها و دورههای آموزشی میپردازد که به توسعهدهندگان و متخصصان فناوری اطلاعات کمک میکند تا مهارتهای خود را ارتقا دهند. منابع آموزشی Packtpub موضوعات متنوعی از جمله برنامهنویسی، توسعه وب، دادهکاوی، امنیت سایبری و هوش مصنوعی را پوشش میدهد. محتوای این منابع به صورت کاربردی و بهروز ارائه میشود تا کاربران بتوانند دانش و تواناییهای لازم برای موفقیت در پروژههای عملی و حرفهای خود را کسب کنند.
توماس للک یک مهندس نرم افزار است که بیشتر در جاوا و اسکالا برنامه نویسی می کند. او از طرفداران معماری میکروسرویس و برنامه نویسی کاربردی است. او هر روز زمان و تلاش قابل توجهی را برای بهتر شدن اختصاص می دهد. او اخیراً به فناوریهای کلان داده مانند Apache Spark و Hadoop پرداخته است. او تقریباً به همه چیزهایی که با توسعه نرم افزار مرتبط است علاقه دارد.
توماس فکر می کند که همیشه باید سعی کنیم قبل از حل یک مشکل راه حل ها و رویکردهای مختلف را در نظر بگیریم. او اخیراً در چندین کنفرانس در لهستان - Confitura و JDD (روز توسعهدهنده جاوا) و همچنین در گروه کاربری Krakow Scala سخنران بود. میتوانید ویدیوی JDD را در اینجا پیدا کنید: https://www.youtube.com/watch?v=BnORjQbnZNQ&t - بحث ML Spark.
او همچنین یک جلسه برنامه نویسی زنده در کنفرانس Geecon برگزار کرد. او در حال حاضر روی این وب سایت با استفاده از ML کار می کند: http://www.allegro.pl
نمایش نظرات