Microsoft ile Data Science (Veri Bilimi)

Microsoft Professional Program bünyesinde takip ettiğim Data Science (Veri Bilimi) başlıklı edX kurslarına paralel olarak bu yazı dizisini kaleme alıyorum. Seri, genel olarak veri bilimine ilgi duyan; ancak daha önce bilgisi olmayanlara yönelik. Yazılarda değinilen teknolojiler içerisinde Spark, R ve Python gibi Microsoft dışı yöntemler bulunmasına rağmen, ağırlıklı olarak Microsoft teknolojileri ile data science uygulamaları anlatılmaktadır.

Bu yazı, bütün alt başlıklara ait yazıların indekslendiği bir ana giriş yazısıdır.

Ek bir not olarak SQL bildiğini varsayarak ilerliyorum; buna göre SQL konusunda eksiğin olduğunu düşünüyorsan önce bunu tamamlayıp ardından bu yazıları okumanı tavsiye ederim.

Data Science

Microsoft ile Data Science konusunu şu alt başlıklarla ele almak mümkün :

Data Science Giriş

Data Scientist rolüne sahip birinin ne iş yaptığını tanımlayarak başlıyoruz. Görsel, analitik ve istatistiksel tekniklerle veri ile nasıl çalışılır ve keşfedilir, bu konuları irdeliyoruz. Bu konuyla ilgili mevcut yazılar şunlar :

 

Veriyi Analiz Etmek ve Görselleştirmek
Excel ve Power BI ile farklı veri kaynaklarından nasıl data alınacağını ve birleştirileceğini, nasıl analiz yapılacağını, verilerin nasıl görselleştirileceğini, hazırlanan dashboard’ların iş kullanıcıları ile mobil ve web platformunda nasıl paylaşılacağını inceliyoruz.

 

İstatistik Bilimini Anlamak

Giriş seviyesinde istatistik ve olasılık öğreneceksin. Bunları veri analizi ve veri bilimi temelleri üzerine Excel kullanarak gerçekleştiriyoruz.

 

Kod ile Veriyi Keşfetmek : Veri Bilimi için R’a ve Python’a Giriş

Data Science profesyonellerinin tercihi olan istatistiksel programlama dili R dilini öğreneceksin. Söz dizimi temellerini, değişkenleri, basit işlemleri, veri yapılarının (vektörler, matrisler, veri çerçeveleri, listeler vb.) nasıl ele alınacağını keşfedeceksin.

Basit aritmetik işlemler, değişkenler ve veri yapıları olmak üzere Python’un temellerini öğreneceksin. Python fonksiyonları ile akış kontrollerini keşfedip, gerçek zamanlı veri ile kendi görsel raporlarını oluşturacaksın.

 

Temel Data Science Konseptlerini Anlamak

İstatistiksel analiz, veri temizliği ve dönüşümü, R ve Python ile verinin görselleştirilmesi ve Microsoft Azure Machine Learning dahil olmak üzere veri bilimi ile uğraşırken işine yarayacak önemli konsept ve teknikleri öğreneceksin.

 

Machine Learning’i Anlamak

Sınıflandırma, regresyon, kümeleme ve tahminleme gibi makine öğrenmesi modellerini nasıl geliştireceğini, ölçeceğini ve optimize edeceğini öğreneceksin.

 

Kod ile Veriyi İşlemek ve Modellemek : R ve Python ile Data Science için Programlama

R ile programlamayı biraz ilerletiyoruz. R veri yapılarını ve söz dizimlerini keşfederek lokal bir dosyadan ya da bulutta bir veri tabanından nasıl veri okuyup yazılacağını, veri ile nasıl çalışılacağını, nasıl özet veriler elde edileceğini ve ihtiyacına göre veriyi nasıl dönüştüreceğimizi öğreneceksin.

Verinin içinde saklı olan desenleri ortaya çıkarmak için efektif ve iyi bilinen madencilik modellerini uygulayacak şekilde Python’ı nasıl kullanacağını öğreneceksin. Veri görselleştirmesi, niteliklerin seçimi (feature selection), boyutların azaltılması, kümeleme, sınıflandırmayı keşfedeceksin.

 

Uygulamalı Makine Öğrenmesi

Metin analitiği, konumsal veri analizi, imaj işleme ve zaman serileri tahminlemesi gibi predictive (kestirimci) problemleri çözmek için makine öğrenmesini nasıl uygulayacağını öğreneceksin.

 

HDInsight içinde Spark ile Predictive (Kestirimci) Çözümler Uygulamak

Kestirimci analizler ve makine öğrenmesi çözümleri üretmek için Microsoft Azure HDInsight içinde Spark’ı nasıl kullanacağını öğreneceksin. Apache Spark ile Python, Scala, R kullanarak veriyi nasıl temizleyip dönüştüreceğini, makine öğrenmesi modellerini nasıl oluşturacağını ve gerçek zamanlı makine öğrenmesi çözümlerini nasıl hayata geçireceğini öğreneceksin.

 

Microsoft R Server ile Büyük Veriyi Analiz Etmek

En güçlü programlama dillerinden biri olan R kullanarak Microsoft R Server ile büyük veri setlerinin nasıl analiz edileceğini öğreneceksin.

PeakUp Blog içinde yer alan bütün Data Science kategorisindeki yazılara ulaşmak için bu linki kullanabilirsin.

Data Scientist (Veri Bilimci) Olmanın Keyifli Yanları Neler?

Data Scientist olma yoluna girmeden önce bu mesleğin keyifli yanlarına göz atalım. Microsoft Corp’da çalışan gerçek profesyonellerin görüşlerinden derlediğim bu liste sana ilham verecek :

 

Problem çözmenin verdiği haz
İş kullanıcılarından çok sayıda kompleks problem gelir. Bir şeyler tahmin etmenizi isterler, ellerindeki verilerin, işlerini nasıl geliştireceğini anlamak isterler.

 

Mevcut verinin iş süreçlerine gerçekten değer katmak için, nasıl oyunun içerisine sokulacağını çözmeye çalışmak
Veriyle oynamak, veriyi farklı formatlara sokmak her an seni şaşırtabilir.

 

Data Scientist olmanın en keyifli yanlarından biri de meydan okumaktır.
Verilerin hikayesini araştırırken, neredeyse araştırmacı gazeteci olmakla eşdeğer bir hissiyat oluşur. Yeni bir veri seti ile uğraşırken, bir sonraki adımda ne keşfedeceğini hiçbir zaman bilemezsin.

 

Ürünle ilgili yeni bir bilgi elde etmek için gerekli soruları çözmek ve puzzle’ın parçalarını birleştirerek ilerlemek.
Bazen hiç bitmeyecek bir puzzle’ı tamamlamaya çalıştığını düşünürsün. Görünürde anlamsız olan terabyte’larca veri üzerinde çalışırsın; ama daha derinlere indikçe verinin içinde çözüm için çok önemli etkiye sahip bazı desenler ve anlamlar bulursun. Eğer veriyi dikkatlice dinlersen veri konuşur, sana hikayeler anlatır.

 

Farklı geçmişe sahip insanlarla birlikte çalışmak.
Bir veri bilimci kimya, biyoloji, psikoloji,  ekonomi ya da finans geçmişine sahip olabilir. Bu kadar çeşitliliğe sahip farklı insanlarla, farklı sektörlere yönelik farklı problemleri çözmek için farklı fikirleri bir araya getirmek çok zevklidir.

 

Veri bilimci olmak için ekstra heyecanlı bir dönemden geçiyoruz.
Dünyada şimdiye kadar biriken bütün verilerin toplamı, artık her birkaç yılda 2 katına çıkıyor. Bu, altına girdiğin işin zorluğunu gösterirken; sonuç gördüğünde alacağın keyfi garanti ediyor.

 

Microsoft Professional Program bünyesinde takip ettiğim Data Science (Veri Bilimi) başlıklı edX kurslarına paralel olarak bu yazı dizisini kaleme alıyorum. Seri, genel olarak veri bilimine ilgi duyan; ancak daha önce bilgisi olmayanlara yönelik. Yazılarda değinilen teknolojiler içerisinde Spark, R ve Python gibi Microsoft dışı yöntemler bulunmasına rağmen, ağırlıklı olarak Microsoft teknolojileri ile data science uygulamaları anlatılmaktadır.

Diğer makaleleri bulabileceğin serinin indekslendiği giriş yazısına erişmek için bu linki kullanabilirsin.