مبادئ وتقنيات علم البيانات

مقدمة الكتاب

هذا الكتاب يخص مادة داتا 100، مبادئ وتقنيات علم البيانات في جامعة كاليفورنيا - بيركلي.

كتبه: سام لاو، جوي غونزاليس و ديب نولان.

ترجم للعربية بواسطة علي العوهلي. عن الترجمة.

استخدم المترجم أسلوب الترجمة التحريرية لإيصال أفكار الكاتب بشكل صحيح ودقيق للقارئ العربي. سيتم كتابة المصطلحات الإنجليزية بجانب العربية إذا استوجب الأمر للتوضيح، العمليات الحسابية والرياضية ستكون باللغة الإنجليزية. سيضيف المترجم روابط ومراجع لبعض العناوين التي لم يشرحها الكاتب بشكل مفصل وتحتاج مزيد من القراءة سواء في سطر تعليق أو عبر إضافة إشارة ( 📝 ) لكل رابط.

مثال: “توجد أنواع عديدة من دوال التنشيط Activation Functions مثل Tanh و ReLu. 📝 📝”
كل 📝 هنا لرابط مختلف.

مثال لسطر تعليق للمترجم

للحصول على أفضل النتائج للأكواد البرمجية في هذا الكتاب ينصح بإستخدام Jupyter Notebook وهي أداة تسمح لك بإنشاء ومشاركة صفحات يمكن من خلالها كتابة أكواد برمجية، عمليات حسابية ورسوم بيانية، ينصح بمشاهدة هذا الفيديو لمعلومات أكثر عن جوبتر.

تم أخذ الموافقة على ترجمة هذا الكتاب من سام لاو.

داتا 100 هي مادة متقدمة، وتستمر على طول السنة التعليمية وتأتي بعد داتا 8، مبادئ علم البيانات.

محتويات هذا الكتاب مرخصة للاستهلاك المجاني بموجب الترخيص التالي:

Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0)

عن الكتاب

من المتوقع أن يكون القارئ على دراية بالمعلومات المقدمة في مادة داتا 8 أو ما يعادلها. بالأخص نتوقع أن يكون القارئ على علم بالمواضيع التالية (روابط للصفحات في مادة داتا 8 متوفرة بجانب كُل عنوان):

معالجة البيانات المجدولة: الاختيار، الفلترة، التجميع (رابط).
مفاهيم الاحتمالات الأساسية (رابط).
العينات، التوزيعات التجريبية في الإحصاء (رابط).
اختبار الفرضيات باستخدام العينات العشوائية (Bootstrap) (رابط). 📝
الانحدار في المربعات اَلدُّنْيَا واستنباطه (رابط). 📝
التصنيف (رابط).

بالإضافة إلى ذلك، نتوقع أن القارئ أخذ مادة في البرمجة بلغة بايثون، مثلاً CS61A أو ما يشابهها. لن نقوم بشرح كود بايثون إلا في حالات خاصة.

أخيراً، نتوقع أيضاً أن القارئ لديه معلومات أساسية عن المشتقات الجزئية 📝📝 ، التدرج في حساب المشتقات 📝📝، جبر المتجهات 📝، و جبر المصفوفات 📝📝.

الرموز والإشارات

يغطي هذا الكتاب مواضيع مختلفة من عدة مجالات، وللأسف أن بعض هذه المجالات نستخدم نفس الرموز لوصف موضوع ما. ولإبعاد الشبهة، قمنا بإنشاء رموز مخصصة مختلفة قليلاً عما قد تكون تعرفه مُسبقاً.

معْلمة المجتمع الإحصائي Population رُمز لها ب $ \theta^* $. قيمة معْلمة النموذج التي تقلل من دالة الخسارة رُمز لها ب $ \hat{\theta} $. عادةً، نحاول إيجاد $ \hat{\theta} \approx \theta^* $. نقوم باستخدام الرمز $ \theta $ دون أي علامة، للإشارة إلى معْلمة النموذج التي لا تقلل من دالة الخسارة. على سبيل المثال، يمكننا أن نفترض قيمة $ \theta = 16 $ لحساب نتيجة الخسارة للنموذج في تلك القيمة $ \theta $. عند استخدام النزول الاشتقاقي Gradient Descent للتقليل من دالة الخسارة، سنستخدم $ \theta^{(t)} $ للتعبير عن قيم $ \theta $.

سنستخدم دائماً حروف إنجليزية صغيرة وغامقة للتعبير عن المُتجهات Vectors. مثلاً، نستخدم التالي للتعبير عن مُتجه لمعْلمات المجتمع الإحصائي $ \boldsymbol{\theta^\*} = [ \theta^\*_1, \theta^\*_2, \ldots, \theta^\*_n ] $ ومصفوفة معْلمات النموذج المُدَرب تكون $ \boldsymbol{ \hat{\theta} } = [ \hat{ \theta_1 }, \hat{ \theta_2 }, \ldots, \hat{ \theta_n } ] $. وسنستخدم دائماً الحروف الإنجليزية الكبيرة الغامقة للتعبير عن المصفوفات. مثلاً، عادةً ما نرمز لمصفوفة البيانات بالرمز $ \boldsymbol X $. أَيضًا سنستخدم دائمًا الحروف الكبيرة غير الغامقة لوصف المتغيرات العشوائية، كـ $ X $ أو $ Y $.

عند الحديث عن التمهيد bootstrap، سنستخدم $ \theta^* $ للتعبير عن معْلمة المجتمع الإحصائي، و $ \hat{\theta} $ للتعبير عن إحصائية اختبار العينة، و $ \tilde{\theta} $ للتعبير عن إحصائية اختبار تم استخدام الbootstrap فيها.