برتراند راسل (Bertrand Russell) میگوید “احتمال مهمترین مفهوم در علم مدرن است، بخصوص که هیچکس کوچکترین ایدهای ندارد که چه معنی میدهد.” بسیاری از ما در دوران مدرسه و دانشگاه با مفهوم احتمال از طریق آزمایشهای فکری (Thought Experiment) مانند پرتاب سکه و یا پرتاب طاس آشنا شدهایم. گرچه این مثالهای ساده به درک […]
چگونه میتوان پایتون را در خط فرمان ویندوز (CMD) اجرا کرد؟
پایتون (Python) یکی از زبانهای پرکاربرد برنامهنویسی برای کاربردهای علم داده (Data Science) است. برای پایتون محیطهای توسعه (Integrated Development Environment) متنوعی وجود دارد. خیلی از کسانی که از پایتون برای تحلیل داده استفاده میکنند ممکن است از محیطهای توسعهای نظیر Jupyter Notebook ،Spyder و یا PyCharm استفاده کنند. یکی دیگر از راههای اجرای […]
مروری بر مفاهیم نمونهگیری
ارسطو میگوید از نشانههای یک ذهن آموزشدیده آن است که با درجهای از تقریب که در تناسب با ماهیت موضوع است، راضی میشود و به دنبال دقت کامل نیست. اگر شما با دقت ۱۰۰ درصد بخواهید بفهمید که چه درصدی از آجرهای تولیدشده یک کوره آجرپزی، خراب هستند باید همه آنها را آزمایش کنید. […]
الگوریتم گرادیان کاهشی چیست؟
در بسیاری از الگوریتمهای یادگیری ماشین (Machine Learning) عملاً یک مسئله بهینهسازی حل میشود. برای مثال در مسائل رگرسیون (Regression) هدف آن است که فاصله مقدار پیشبینیشده توسط الگوریتم یادگیری ماشین از مقدار واقعی آن کمینه شود. ازآنجاکه بسیاری از الگوریتمهای یادگیری ماشین در کامپیوتر با روشهای عددی پیادهسازی میشوند، الگوریتم گرادیان کاهشی (Gradient […]
بررسی نرمال بودن دادهها
میتوان گفت توزیع نرمال (Normal Distribution) یکی از پرکاربردترین توزیعهای احتمالی در آمار و یادگیری ماشین است. علاوه بر این توزیع نرمال در توصیف خروجی بسیاری از فرآیندهای تصادفی در دنیای واقعی هم بسیار مفید است. در این مقاله بحث میکنم چگونه تشخیص دهید یک نمونه داده از جمعیتی با توزیع نرمال آمده است و […]
مقیاسهای اندازهگیری و انواع داده
یکی از مفاهیم پایهای که نیاز است کسانی که با داده کار میکنند با آن آشنا باشند مفهوم مقیاسهای اندازهگیری (Measurement Scales) و انواع داده است. علت اهمیت این موضوع در این است که نوع داده به نحوه تحلیل آن جهتگیری میدهد. لزوماً نمیتوان هر روش تحلیل دادهای را برای هر نوع دادهای بکار […]
آمار درباره چیست و چرا اهمیت دارد؟
آمار هنر و دانش بررسی ایدهها، استنتاج کردن و پاسخ دادن به پرسشها مبتنی بر داده است. امروزه هرچه که جلوتر میرویم دادههای بیشتری در اختیار عموم مردم درباره ابعاد مختلف زندگی مانند اقتصاد، کسبوکار، سیاست، سلامت و … قرار میگیرد. اینکه افراد بتوانند با یک رویکرد نقادانه این دادهها را ارزیابی کنند و […]
شاخصهای شکل در آمار
در آمار شاخصهای شکل (Shape Measures) بازتابدهنده طرح کلی توزیع دادهها است. شاخصهای شکل بهویژه برای متغیرهای پیوسته بکار میرود. دو شاخص مهم شکل، چولگی (Skewness) و کشیدگی (Kurtosis) هستند. چولگی چولگی میزان متقارن بودن توزیع را میسنجد. یک توزیع متقارن مانند توزیع نرمال (Normal Distribution) دارای چولگی صفر است. توزیعی که یک […]
مقدمهای بر مفاهیم کیفیت داده
یکی از موضوعاتی که در بسیاری از پروژههای داده که تاکنون درگیر آن بودم، برجسته بوده اهمیت کیفیت داده (Data Quality) است. کیفیت داده موضوعی است که شاید در ادبیات حوزه علم داده (Data Science) کمتر به آن پرداخته شده ولی در هنگام اجرای پروژههای واقعی داده با آن زیاد مواجه خواهید شد. بهخصوص […]
نمودار چندک-چندک (Q-Q Plot) چیست و چه کاربردی دارد؟
نمودار چندک-چندک (Quantile-Quantile Plot) یک ابزار توصیفی است که کمک میکند بفهمیم یک مجموعه داده از یک توزیع احتمالی مشخص مانند توزیع نرمال (Normal Distribution) یا نمایی (Exponential Distribution) پیروی میکند یا خیر. برای مثال فرض نرمال بودن دادهها در بسیاری از آزمونهای آماری وجود دارد. بنابراین قبل از انجام چنین آزمونهای آماری نیاز است […]
کدام نمودار برای نمایش داده مناسب است؟
نمودارهایی که خوب طراحی شدهاند به تحلیلگر کمک میکنند تا سریعتر و بهتر اطلاعات را تحلیل و جمعبندی کنند. در سمت دیگر، در مقاله “چگونه ممکن است نمودارها شما را فریب دهند؟” بحث کردم چطور نمودارها ممکن است، موجب خطا در فهم دادهها و استنباط از آن شود. یک گام مهم در نمایش دادهها آن […]
تحلیل دادهها در جدول متقاطع و آزمون کای-دو
فرض کنید در یک تحقیق مطالعه بازار علاقهمند هستیم بدانیم آیا مشتریان هنگام خرید محصولات مواد غذایی به اطلاعات برچسب سلامت (شکل-۱) روی بستهبندی توجه میکنند یا خیر. ممکن است یک فرضیه محقق در چنین تحقیقی این باشد که جنسیت روی توجه به اطلاعات برچسب سلامت هنگام خرید اثرگذار است؛ احتمالاً زنان هنگام خرید […]
چندک (Quantile) در R و پایتون چگونه محاسبه میگردد؟
به زبان ساده چندک (Quantile) یعنی وقتی شما دادهها را به بخشهایی مساوی تقسیم کنید، برشهایی از داده که این قسمتهای مساوی را از هم جدا میکند چندک نامیده میشود. یکی از معروفترین چندکها میانه (Median) است. میانه یک شاخص مرکزی است. اگر دادهها به ترتیب از کوچکتر به بزرگتر مرتب شوند، نیمی از آنها […]
سوگیری خودانتخابی چیست؟
معمولاً اگر شما یک وبسایت داشته باشید، گهگاه مشکلاتی برایتان رخ میدهد که نیاز دارید برای رفع آن به بخش خدمات مشتریان شرکت میزبان وب مراجعه کنید. من برای وبسایتم از خدمات میزبانی شرکتی استفاده میکنم که بهصورت آنلاین میتوانم با یک کارشناس فنی گفتگو کنم. پس از پایان گفتگو پنجرهای باز میشود و […]
دادههای باز چیست؟
مفهوم دادههای باز (Open Data) مبتنی بر این ایده است که برخی از دادهها باید بهصورت رایگان در اختیار همه قرار گیرد تا بتوانند آن را آنگونه که میخواهند استفاده، باز استفاده و منتشر کنند، بدون آنکه با محدودیت حق نشر (Copyright)، حق اختراع (Patent) و یا سایر محدودیتها مواجه شوند. در تعریف بالا سه […]
آموزش زبان R برای علوم داده: رسم نمودار
یکی از قابلیتهای برجسته زبان R این است که امکانات متنوعی را برای نمایش دادهها داراست. در این مقاله من به روشهای پایهای برای رسم نمودار اشاره میکنم که در دنیای کسبوکار بیشتر استفاده میشوند. در این مقاله صرفاً به توابع داخلی R برای نمایش داده میپردازم. خواننده باید بداند برای رسم نمودارهای پیشرفتهتر بستههایی […]
کاربرد هوش تجاری در بنگاههای رسانهای
امروزه با پیشرفتهایی که در حوزه فنآوری صورت گرفته است، کاربرد داده در کسبوکار بیش از گذشته توسعه یافته است. این پیشرفتها در دههای گذشته سه حوزه اصلی را شامل میشود. اول، پیشرفت فنّاوری باعث شده حجم انبوهی از داده تولید شود. گسترش استفاده از دستگاههای کارتخوان الکترونیکی در فروشگاهها، تجارت و تبلیغات در […]
آموزش زبان R برای علوم داده: توابع
بیشتر کارهایی که در زبان R انجام میدهیم، توسط توابع صورت میگیرد. تاکنون من از توابعی که بهصورت پیشفرض در R تعریفشدهاند، استفاده کردم. ولی این امکان وجود دارد که شما توابع موردنظرتان را ایجاد کنید. نوشتن توابع آغاز راهی است که شما را از استفادهکننده صرف از R به توسعهدهنده تبدیل میکند. توابع معمولاً […]
آموزش زبان R برای علوم داده: عبارات شرطی و حلقهها
ساختارهای کنترلی (Control Structures) در زبان R به شما اجازه میدهد تا نحوه اجرای عبارات نوشتهشده را پایش کنید. بهاینترتیب با قرار دادن عبارات منطقی، بسته به اینکه ورودیها چگونه باشد، دستورات متفاوتی اجرا میشود. ساختارهای کنترلی عمده در زبان R به شرح زیر است: دستور if و else: بررسی یک شرط و عمل بر […]
موردکاوی شیرینی فروشی سمانه
سمانه در حال اتمام دوره کارشناسی رشته مدیریت در یکی از دانشگاههای بزرگ تهران است. او همواره یکی از سرگرمیهایش پخت شیرینی بوده است. سمانه به همراه دوستش تصمیم میگیرد تا این علاقه را تبدیل به یک کسبوکار کند. برای شروع، آنها بازار هدف خود را دانشجویان دانشگاه قرار میدهند. هدف آنان این است که […]