هلا والله 🙏🏻
وش رأيكم نوحّد مصدر المعلومات اللي انشرها؟
بدال حوسة التغريدات، تصير كلها في رابط واحد ومرجع لكم سريع اي وقت 🔥
عطوني اقتراح للطريقة والافضل يكون سهل وعبارة عن رابط
كيف اسوي مشروع في مجال تحليل البيانات و داشبورد؟!
تعال اعلمك طريقة سهلة جدا لمشروعك اللي بيسوق لك في المقابلات ب ٣ خطوات
(توضيح: البيانات تسبب الادمان من جمالها انا مالي دخل اذا اغرمت فيها😂)
⬇️
في السعودية و العالم 🇸🇦
اهم المهارات المطلوبة في السوق في مجال البيانات لـ
- محلل البيانات 📊
Data Analyst
- مهندس البيانات ⚙️
Data Engineer
- عالم البيانات 🤖
Data Scientist
⬇️
مشروع التخرج في مجال البيانات 📊
جمعت اهم الادوات اللي بتساعدك في تنفيذ مشروع تخرجك او مشروع ودك تشتغل عليه في البيانات
- تحليل البيانات
- عرض البيانات
- حفظ البيانات
- ادارة فريق المشروع(مهمه لترتيب المهام بين الفريق)
- محرر الكود
( احفظها بتحتاجها ) 🔖
اكتب تحت اذا ناسي شىء
افضل كورس تحليل بيانات!🚀
عام 2019 خذت كورس Data Analyst من موقع Udacity وكانت منحة من
@MiskKSA
الله يعافيهم❤️❤️❤️
ليش الكورس من افضل الكورسات في التحليل؟
عندك مشكلة في SQL؟
اتذكر قبل ٥ سنوات كنت حاب اطور مهارتي في SQL وطحت على موقع رهيب اسمة HackerRank وش الميزة فيه؟
يعطيك الغاز بمستويات مختلفة وتحاول تطلع الاجابة
الصدق كأنك تلعب لعبة وفيه تنافس، عاد دخلت اليوم اشوفه ولقيته مره تطور
انصحكم تجربونه
للمهتمين بالبيانات 📊
حسابي على Kaggle نشرت Dataset مناسبة جداً لممارسة Data Cleansing 🧹 وتطوير مهاراتك فيها.
ايضا بإمكانك استخراج insights قيّمة في مجال العطور وعمل تحليلات لها.
ايضا كتبت metadata لتسهيلها عليكم👍🏻
جمعتها من اكثر من 25 متجر
شاركوني ابداعاتكم😍
الرابط ⬇️
اقدر اسوي داشبورد في البيت؟ 📊
ايه
تابلو و باور بي اي لهم نسخ مجانية
اسم النسخة المجانية للتابلو
Tableau Public Desktop
( يعمل عالماك و الويندوز )
اسم النسخة المجانية للباور بي اي
Power BI Desktop
(يعمل فقط عالويندوز! )
اول نقطة قبل تبني اي داشبورد هو "وش الفايدة؟"📊
الرهيبين في
@HarvardBiz
عطونا "اطار" يلخص المفاهيم اللي بتسهل عليك تبني اي داشبورد وتتميز في مهارتك!
اقتروحوا علينا تحديد الهدف هل
- هو "توضيحي" او "اكتشاف" المعلومه
- هل المعلومة "تصورية" او "معتمدة عالبيانات"
تفضلوا الشرح
تبي تسوي داشبورد اسطورية؟ لازم بياناتك تكون صحيحة!
وهنا يجي دور تنظيف البيانات
الرهيبين هي
@DataCamp
عطونا الزبدة🫡
وهي قائمة او checklist سهله وبسيطة عن:
- مشاكل القيود للبيانات
- مشاكل النصوص والبيانات التصنيفية
- مشاكل توحيد البيانات
- مشاكل البيانات المفقودة
تفاصيلها تحت ⬇️
سويت داشبورد! طيب وبعدين؟
كل الشركات اغلب داشبورداتها شابكة على backend بقواعد بيانات مبنية بمنهجية (OLAP تكلمت عنها تغريدة سابقة) ماهو اكسل!
هنا تجي مهاراتك في SQL وكتابة كويري صحيحة بأداء سريع وديناميكي
1/2⬇️
كل موظفين مجال البيانات لازم يعرفون Data Transformation !
مهندس، محلل، عالم بيانات تعالوا نعرف وشي طيب😍
هي عملية تحويل هيكلة وشكل البيانات لتناسب في تنسيقها قاعدة بيانات الوجهة النهائية، حيث تتضمن تنظيف وتحقق وتهيئة البيانات.
تعتبر مرحلة جدا حساسة ومهمه في عمليات ETL و ELT.
كيف تشتغل الداشبوردات في الشركات الكبيرة!؟
- الداشبورد يحدّث البيانات تلقائياً
- يوجد سيرفر خاص لأداة ال BI وموقع لمشاهدة التقارير
- بعد تطوير الداشبورد تسوي ديبلويمنت للسيرفر
- تشبك على قاعدة بيانات زي DWH او DM
- الكويري ليست في الداشبورد (best practice) المفروض في لاير قبلها
الكذب في السيرة الذاتية!
قابلت مرشح لوظيفة خبير BI كان "مبهّر كثير" في سيرتة الذاتيه
النتيجة ماعرف ولا اجابة لأسئلة بسيطة مثل
انواع الjoins
ماهي مخازن البيانات
بغض النظر انه ضيع وقتي!
هو احرج نفسه كثير
طبيعي مانعرف كل الاجابات بس على الاقل الاساس موجود وتبين انك انسان صادق
يابتوع ال BI📊
في تصميم الداشبورد موضوع دايم ننساه!
🟥 حجم الشاشة اللي بيعرض عليها الداشبورد🖥️
بعض الاحيان نحتاج نعرض الرسم البياني على شاشة كبيره جدا فا نحتاج نصممه بحيث مايكون فيه مساحات غير مستغلة وكبيرة تسبب الازعاج، ايضا الجوال حجمه صغير مايحتاج كل التشارت فيه
انتبه 👍🏻
اذا انت في مجال البيانات ومهتم بشهادة CDMP
جمعية ادارة البيانات عندهم هذي المبادرة وهي "السداد بعد النجاح"
والتي تتيح لك دخول الاختبار برسوم رمزية وسداد باقي الرسوم بعد النجاح فقط.
التفاصيل⬇️
للي يبي يتعلم تحليل البيانات و الداشبوردات📊
هذي اول نصيحة نصحها سفير تابلو الاجتماعي
@prem_prasann
"البيانات هي ممارسة ثابتة، ومشاركة ما تعلمته سيضعك على مسار جيد"
يعني اصنع داشبوردات وشاركها مع غيرك بشكل دائم
للمهتمين بالبيانات 📊
حسابي على Kaggle نشرت Dataset مناسبة جداً لممارسة Data Cleansing 🧹 وتطوير مهاراتك فيها.
ايضا بإمكانك استخراج insights قيّمة في مجال العطور وعمل تحليلات لها.
ايضا كتبت metadata لتسهيلها عليكم👍🏻
جمعتها من اكثر من 25 متجر
شاركوني ابداعاتكم😍
الرابط ⬇️
لاحظت شئ رهيب في منصة البيانات المفتوحة!
استخدامهم افضل رسميين بيانية لتسهيل توصيل اي معلومه
دونت🍩و بار📊 تشارت
تكلمت عن الدونت وانها افضل من pie من قبل وطبعاً البار تشارت غني عن التعريف خصوصا انها افقيه
اللي يبغى يبدء بتحليل البيانات انصحكم بالمنصه👍🏻
كمهندس بيانات لازم تعرف
How to automate data pipeline
ليش؟
لان العالم يمشي بالاتمتة بحيث فيه jobs تشتغل في اوقات معينه تسوي نقل للبيانات وتحديث الداشبورد كنتيجة نهائية
اعرف الادوات في هذا الموضوع
بيعطيك اضافة في مهاراتك
قد سمعت عن "تنقيب البيانات"؟ Data Mining 🔍
عملية تستخدم الإحصاء التحليلي وتعلم الالة لاكتشاف الانماط والعلاقات والإرتباطات في مجموعة من البيانات، بحيث يتم تفسير بعض الظواهر المعقدة لاتخاذ قرارات.
المراحل:
- اكتشاف مشكلة
- جمع بيانات
- ترتيبها
- بناء وتدريب نموذج ذكاء اصطناعي
مواضيع تهمك كـ مهندس بيبانات⚙️:
- Data Modeling
- Data Warehousing
- Data Pipeline
- Big Data Technologies
- Database Management
- ETL & ELT Processes
- Basic Data Visualization
دايم نسمع عن "جودة البيانات" (Data Quality) بس وشي؟🤔
شغلتهم يقيمون مدى استيفاء البيانات (اللي عندهم) للعناصر اللي تحت⬇️.
لأن جودة عالية في البيانات = جديرة بالثقة ومناسبة للتحليل واتخاذ القرارات واعداد الداشبوردات وأي انشطة متعلقة بالبيانات.
ايضا تتضمن تحديد وتصحيح الاخطاء🔍
كمختص في مجال البيانات دايم تسمع بـ Data Aggregation!⚙️
عملية دمج datasets من مختلف المصادر وجعلها بشكل واحد (single format) لسهولة الفهم ودعم التحليل واتخاذ القرار.
وهي خطوة مهمة لتحويل البيانات الخام (Raw Data) الى معلومات قابلة للتنفيذ.
تذكر هذي الخطوة بإمكاننا اتمتتها 🤖
البيانات صار لها نسب، يعني يمدينا تعرف الاب و الجد👴🏻
اسم المجال Data Lineage
وهي عملية فهم وتصور وتتبع تدفقات البيانات من المصدر إلى الوجهة النهائية ومعرفة أي تعديلات عليها اثناء رحلتها.
ليش؟ عشان تعرف هل البيانات تم تعديلها او لا ومع ايش اندمجت!
لاحظتوا تحت كيف مرتبطة ببعض
اهم Layer في البيانات واسمها "Data Mart"⚙️
عبارة عن مخزن بيانات "مهيكل" تم بناءه و تصميمة ليخدم احتياج وغرض معين. وهو جزء صغير من مخازن البيانات (Data Warehouse)، يساعد على عمل تحليلات اسرع لان البيانات مقسمة داخله مثل مبيعات، مشتريات...الخ (اعتماداً عالاحتياج)
ولها ٣ انواع⬇️
إدارة البيانات
هي مرجع اساسي ومهم للعمليات من جمع البيانات وتخزينها و تنظيمها وصيانتها لدعم التحليلات و اتخاذ القرارات.
اذا عندك ادارة كويسه معناه عندك موثوقية وجودة بالبيانات.
فهمك للرسمة هذي راح يعطيك شكل تصوري كيف الاقسام داخل هذي الادارة تعمل.
نصيحتي خذ وقتك في فهمها 🫡
تعرف OLTP و OLAP في قواعد البيانات؟
هما طريقتين لأنظمة قواعد البيانات
OLTP
متخصصة في تخزين بيانات العمليات التشغيلية، مثل انظمة البنوك و المواقع
OLAP
تستخدم كويري معقدة لاخذ البيانات من OLTP لتخزينها وترتيبها وتنظيفها وربطها مع بعض لجعلها سهلة الفهم والتحليل مثل مخازن البيانات
اهم ناس ونحبهم 🫶🏻
حوكمة البيانات (Data Governance)
هي إدارة البيانات الخاصة بالشركات بشكل آمن.
كيف؟ عن طريق وضع مجموعة من القواعد و السياسات و الإجراءات واختيار البنية التحتية والادوات التقنية المناسبة لضمان جودة البيانات طوال دورة حياتها.
تحت احد اهم الاطارات العمل لها ⬇️
من علامات المصداقية و الشفافية في عرض البيانات هي وضع تاريخ اخر تحديث للبيانات في الداشبورد
اعتبرها مهمه وحساسة وممكن تتعبك كمطور ذكاء اعمال بس علامة مهمة للاحترافية والثقه في بياناتك!
لو تلاحظون الثلاث ارقام اللي في فوق موجود تحتها "وقت التحديث قبل ٥ دقايق"
تطبقونها؟
قد سمعت ب Data Pipeline؟ او خط انابيب البيانات!
عبارة عن جميع الانظمة و البيئات المتعلقة بالبيانات، كل شركة تكون تحت مظلة هذا الرسم بإحتياجاتها ومدى حجم بياناتها وتكوين خط انابيب خاص بها
احد اهم انظمتها هي:
مخازن البيانات🏠
بحيرة البيانات🐟
يبدء من المصدر للبيانات الى النتيجة
طحت في موضوع رهيب 🫡
يتكلم عن منتج البيانات او Data Product
وهي عبارة عن مجموعة بيانات موثوقه تم تطبيق منهجية ادارة المنتجات عليها للوصول لها بتقديم منتج تقني فيه تبسيط للتعقيد الموجود في قواعد البيانات.
تتكون من ٣ عناصر:
- Data Set
- Domain ⚙️
- Access 📲
زي الداشبورد حقك😍
بيانات الخرائط مثل AirBnB و Google Maps🌍
طريقة عرضها عالم مختلف عن المعتاد مثل المبيعات و الايرادات، الابداع فيه ماله حدود وفيه افكار خارجه عن الصندوق و التحدي فيها رهيب
نصيحة:
دايم اعرف الرساله اللي بتوصلها وركز عليها
شوفوا تحت كيف انتقل ال visualization من جيد لعظيم 😍
بحيرة البيانات ( Data Lake ) 🐟
لقيت الرسمة هذي في موقع qlik قلت انشرها لكم
تستخدم لتخزين البيانات المهيكلة والغير/شبة مهيكلة في مستودع لفترات طويلة وعادة تكون بيانات خام ليست معالجة وليست في schema محددة (فرقها عن مخازن البيانات)،غالبًا تستخدم لعلم البيانات و ML (تعلم الالة).
اللي كان يقاوم، بعد سنتين صار يعطيني افكار اضيفها في الداشبورد🥹♥️
هذا في مشروع عام 2019 وكانت ثقافة استخدام البيانات اقل من الان.
كمطور ذكاء اعمال تذكر دايم ان لك دور في الاقناع وانك تساعد متخذين القرار على الاعتماد عالبيانات، لا تنتظر الطلب منهم، بعض الاحيان تحتاج تبادر
حركة ذكية 👍🏻
ممكن تستعمل ChatGPT لتجهيزك قبل المقابلات
( مب شرط تجي الاسئلة نفسها بس حلو تراجع بعض المعلومات و الاساسيات)
وكل ماكتبت تفاصيل اكثر كانت اجابته ادق👌🏻
اهم خطوة لأي مشروع في البيانات هي
"جمع البيانات" (Data Collection)🔍
بس وشي؟
عملية جمع البيانات من مختلف المصادر الى نظام مركز بيانات او ملف واحد للاستفادة منها في التحليل او تدريب نموذج.
من وين اجيب البيانات؟
- api
- قواعد بيانات
- ملفات جاهزة بصيغ مختلفة csv…الخ
- scraping
اي متخصص في البيانات سواءً اداري او تقني
لازم يفهم ال pipeline حق البيانات من وين تجي الى النتيجة النهائية عشان يقدر يستوعب ويكون جزء منها🔗
شغلك منفرد راح يخسرك اشياء كثيره واهمها ادائك بيكون سىء في العمل👎🏻
البيانات هي خطوات مترابطة جداً✅
ماهي مصادر البيانات اللي ممكن الداشبورد ومخازن البيانات و بحيرة البيانات تشبك عليها؟
- ملفات مثل اكسل او csv او json
- قواعد بيانات
- واجهة البرمجيات API
- تطبيقات
- الانظمة السحابية
- انظمة ال IOT
بالمختصر اي نظام وكل نظام له طريقة للتعامل
وشي Star Schema في مخازن البيانات وData Mart؟
هي طريقة تصميم قاعدة البيانات، الهدف منها تنظيم وتسهيل الوصول للبيانات لتحليلها، ايضا بسبب تصميمها فهي تتحمل الاستعلام (querying) لكمية ضخمة من البيانات.
بها نوعين من الجداول
Fact
مثل العمليات و القيم
Dimension
مثل اسم المنتج، العميل
وحدة من الطرق لاستكشاف البيانات 🔍🤔
هي انك تستخدم الرسوم البيانية لاستكشافها، مثل عدد ال nulls او اعلى/اقل القيم او اجمالي المتكرر
تحت عرفت اكثر ٣ مناطق في المملكة فيها صفقات عقارية خلال الربع الثاني من هذي السنة!
طبعا مكتبات البايثون
Seaborn
Matplotlib
للاسف مافي دعم للعربي 😪
شىء مهم اسمه البيانات الوصفية Metadata
تعرفه؟🤔
هي بيانات توصف بيانات اخرىℹ️
تساعدك على ايجاد وفهم وإمكانية الوصل لأي بيانات في الشركة بكل سهولة وكفائة عالية.
مثال عندنا داتا بيس، ننشئ بيانات وصفيه تصف كل جدول وكل عمود فيه بتعريفات تكون هي المرجع للشركة.
تعرف انواع ال schemas في مخازن البيانات؟ Data Warehouse
الفكرة منهم هي بطريقة تصميم الداتابيس، بحيث يتم تخزين البيانات فيها بطريقة سهلة التحليل و عدم وجود تكرار و ايضا تحسين في الاداء واخيرا ربطها مع داشبورد او اي اداة BI.
اشهر اثنين:
- Star Scheam
- Snowflake Schema
هذا المستقبل!
من المفافيم الجديدة في البيانات
Data Lakehouse
هي طريقة لبناء مستودع للبيانات والتي تجمع قدرات بحيرة البيانات و الداتا ويرهاوس.
بحيث يأخذ اهم الفوائد للاثنين
في بحيرة البيانات مثلاً انخفاض تكلفة التخزين سرعة الوصول للبيانات و مستودع البيانات مثلاً هيكلة البيانات.
ماهو ETL؟
هي عملية تدمج مختلف مصادر البيانات في مستودع واحد بحيث يمكن معالجتها وتحليلها
Extract
استخراج البيانات من المصدر
Transform
اهم مرحلة واصعبها وهي رفع جودة البيانات بتنظيفها وازالة التكرار ودمجها و فصلها بحسب الحاجة لأجعلها مناسبة للتحليل
Load
تحميل البيانات الى المستودع
في مجال البيانات، تعرف الفرق بين Batch و Stream؟
طريقتين لمعالجة البيانات
Batch
تجميع كمية بيانات من المصدر وارسالها الى الوجهة دفعة واحدة في وقت مجدول مثل يومي اوشهري...الخ
Stream
يتم تدفق البيانات من المصدر الى الوجهة بشكل مباشر او live
يتم عمل الطريقتين بتقنيات مختلفه عن بعض
اول شئ اسوية اذا جتني اي مهمة متعلقة بالبيانات! "استكشاف البيانات"
Data Exploration 🔍
هي عملية مراجعة البيانات لغرض استكشاف الصفات و الانماط في dataset. تقدر تفهم جودة البيانات وحجمها وايضا اذا فيه اي علاقة ربط بينها
انا مريح راسي واستخدم التابلو
عادي لو sql او بايثون اي شئ
وظيفة تحليل البيانات 📊
تعتمد على جاهزية البيانات للتحليل
مجال واسع، وموجود من مئات السنين، بس الادوات المستخدمة حالياً مختلفة
لازم تعرف متطلبات الوظيفة اللي بتقدم عليها عشان ماتتفاجأ
في منها تحتاج مهارة برمجية عالية وفيه منها اكسل او نظام جاهزة البيانات فيه، وتعمل تحليلاتك
الموقع الشهير
@udacity
مسوي عرض قوي وخصم 50% لباقة الشهر و باقة 4 اشهر!
اذا تبي تطور مهارتك في موضوع انصحك في الموقع يحتوي على⬇️
ذكاء اصطناعي
مهندس بيانات
محلل بيانات
ذكاء اعمال
باور بي اي
تابلو
السرد القصصي
التعلم العميق
الذكاء الاصطناعي التوليدي
وغيرة كثير
العرض مؤقت!⏱️
نضج الشركات في ادارة بياناتها تعتمد على المتطلبات الحاليه اللي عندهم
مثلا تطبيق مشروع داتا ويرهاوس غير مشروع data lineage
الفكره هنا في النضج
انت في الداتا ويرهاوس توك بادي الرحلة بس الثاني انت في مستوى متقدم لانك اوريدي خلصت من داتاويرهاوس والاستفادة منها وطلعت لك مشاكل…
1/2
من الممارسات الممتازة في بناء داشبورد
> انك تخليه dynamic
مثال:
لما يكون عندنا تشارت اسمه "ارباح السنة الماضية" معناه ارباح عام 2023 صح؟
ابيك تحسب حسابك
ان السنة الجاية لازم البيانات تكون عن ارباح سنة 2024 (لان معنى السنه الماضيه تغير) بطريقة اتوماتيكية بدون التعديل على الكويري
في مخازن البيانات Data Warehouse نستخدم في بناءها مايسمى ب OLAP
تبنى الجداول ب fact و dimensions
الغرض منها سهولة التحليل وكتابة queries معقدة للوصول للمعلومة
من اهم المستفيدين منها هم محللين البيانات و مطورين ذكاء الاعمال بحيث يكون التعامل معها سهل وسريع
@Meshaal32775
اهلا
ايه نعم بالإمكان بحيث اننا نستخرج الداتا ونسوي لها تحميل على بحيرة البيانات
بعدها ياطويل العمر و "بناءً عالاحتياج" نسوي تنظيف وترتيب للبيانات ونقلها للداتا ويرهاوس
شف الصوره هذي مثال على نفس سؤالك
طرق عرض الداشبورد تختلف بختلاف المجال
هذي داشبورد لقيتها رهيبه مره في العرض 😁
عباره عن احصائيات ضربات الجزاء في كؤوس العالم ⚽️
استنتاج اتمنى يوصل للاعبينا 💭
"كورتك لا تكون تحت لان معدلات صد (save) من الحارس اعلى، واذا عطيتها بووز فوق بتضمن هدف"🤣
مطور ذكاء اعمال طيب تعال اعلمك ليش متعبة؟
بس لا تعلم احد😂👍🏻
كثير من متخذين القرار اذا شاف تاريخ الداشبورد قديم ياويلك😂
فانصيحتي اذا حطيتها لا تنسى تراقب التواريخ هذي بحيث اذا ماصار للداشبورد تحديث يجيك تنبية ويمديك تحل المشكلة بحيث مايتأثر العمل الطبيعي ولا احد يلاحظ 👌🏻
من علامات المصداقية و الشفافية في عرض البيانات هي وضع تاريخ اخر تحديث للبيانات في الداشبورد
اعتبرها مهمه وحساسة وممكن تتعبك كمطور ذكاء اعمال بس علامة مهمة للاحترافية والثقه في بياناتك!
لو تلاحظون الثلاث ارقام اللي في فوق موجود تحتها "وقت التحديث قبل ٥ دقايق"
تطبقونها؟