カリフォルニア大学バークレー校が、「データサイエンス」コースの講義をedX(無料オンライン講義サービス)で提供しています。講義の内容ごとに3人の教授が入れ替わりで行う授業(もちろん英語)をオンラインビデオで聴講するスタイルで、Pythonを書く環境としてはJupyter Notebookを利用します。
内容がおもしろそうで、また英語の勉強にもよいなと思い、現在開講されている「Foundations of Data Science: Computational Thinking with Python」を無料で受講してみました。まだ1週目が終わったばかりで2週目の途中段階ですが、どんなものかご紹介します。
- データサイエンスコースの構成
- データサイエンスの基礎:Pythonを使った計算論的思考
- 「Computational Thinking with Python」の第1週目の内容
- オンライン講義を受講してみて
- 最後に
データサイエンスコースの構成
今回提供されたデータサイエンスコースの講義は以下のように3つに分かれており、最初のコースが2018年4月2日に開始されたばかりです(そのため、今からでも受講が間に合います)。
- Foundations of Data Science: Computational Thinking with Python(2018年4月2日開始)
- Foundations of Data Science: Inferential Thinking by Resampling(2018年5月22日開始)
- Foundations of Data Science: Prediction and Machine Learning(2018年7月10日開始)
それぞれのコース(週に4-6時間程度の学習を必要とする、とされています)は5週間で完了するようになっており、1つ目のコースが終わると2つ目のコースが開講され、その2つ目が終わると3つ目のコースが始まる、、というようになっています。
この記事を書いている4月13日時点では、1つ目のコースにてWeek1とWeek2の2つが開講されており、来週以降、下図のWeek2の下にWeek3,4,5が追加されていくことになります。
全てのコースは無料で受講(メールアドレスの登録のみ必要)できますが、受講修了の証として認定証(Certificate)を発行してもらうためにはお金がかかる仕組みです(各コースごとに認定証の金額は異なっており、1番目のコースでは99ドル(1万円程度)かかります)。
受講は今からでも間に合うのですが、1週目の課題であるLab 1を2018年4月16日21時(日本時間)までに提出しなさい、とあるので、その期日をすぎると課題を提出できなくなる(Certificateを得ようとしても認められなくなる)のかもしれません。受講自体はできると思うのですが。
データサイエンスの基礎:Pythonを使った計算論的思考
私が受講してみた「Foundations of Data Science: Computational Thinking with Python」は、日本語に訳すと「データサイエンスの基礎:Pythonを使った計算論的思考」となるかと思います。
この講義を一言で表すと
Learn the basics of computational thinking, an essential skill in today’s data-driven world, using the popular programming language, Python.
現在のデータドリブンな(データ駆動型の)世界において不可欠なスキルである計算論的思考の基礎を、一般的なプログラミング言語であるPythonを使って学びましょう。
ということなのですが、そもそも計算論的思考(Computational Thinking)とは何かと思い調べてみたところ、
万人のリテラシーとして重要なのは、「問題を理解し、適切にモデリングし、適切な解法をデザインすること」です。そのとき、コンピュータに何ができて、何ができないかを踏まえていること。それが計算論的思考です。
計算論的思考 (Computational Thinking) という21世紀のリテラシー – Hideto Ishibashi – Medium
というように書いている方がいて、これが一番分かりやすい言葉でした。
「Computational Thinking with Python」の第1週目の内容
第1週目はイントロダクションとしてデータサイエンスがなぜ大切かの説明や、若草物語を題材に簡単なプログラミングを行っています。
その後に本編として因果関係(Cause and Effect)やJupyter Notebookを使ったPythonプログラミングとはどういうものかなどの説明をしています。
せっかくなのでイントロダクションのデータサイエンスとは何か?を引用しますと、
データサイエンスとは計算論的思考を用いてデータから意味のある結論を導き出すことである
としています。データサイエンスを構成する主要な要素は3つあり、
- 探索:データの中からパターンを見出すこと、そしてそれをヴィジュアル化すること
- 推論:そのパターンが定量的に信頼できるかどうか、ランダム化を用いて検証すること
- 推測:パターンより推測すること
ということ。
下図のように、オンラインビデオで説明がされていきます。ビデオの横にはスクリプトが表示されているので、聞き取れない英語があっても確認できますし、不明な単語はコピペで簡単に検索して調べることができて便利です。
オンライン講義を受講してみて
文字だけではなく音声も利用することで、より理解が深まる気がします。一方母国語ではない英語なので、より集中しなければならないのが良い点とも悪い点とも言えます。どの教授の英語もとても聞き取りやすいのが助かるところです。
ノートを取ったり、オンライン講義を聴講しながらJupyter Notebookで手を動かすのが、1つのスクリーン上ではなかなか難しかったです。もちろんビデオを一時停止すれば好きなようにできるのですが、マルチスクリーン環境の方がより聴講に適しているなと思いました。
講義はモバイルデバイスでもアクセスできるようになっており、手元のiPhoneでもedXのアプリからのアクセスが可能でした。
最後に
第1週の課題は提出したのですが、Jupyter Notebook上で完了した課題をSaveするという方法なので、無事に提出できているかイマイチ不安です。
もしこれが無事に提出できており、第1週目は無事にパスしたということであれば、音声とマルチスクリーンというのがなかなかハードルが高いところではあるのですが、Certificate(認定証)を取得できる有料版への切り替えも考えつつ、勉強時間を確保していこうと思います。
(2018年4月16日追記)締め切り日を過ぎて確認したところ、Progress(進捗)というメニューの中に下記のグラフがあり、無事にLab01を提出できていました。
Audit Trackとは聴講生としての扱いということで、今の段階では有料コース(認定証をもらえる)に変更することができます。
最後までお読みいただき、ありがとうございました。
今後もいろいろなエントリを書いていきますので、ぜひお気軽にTwitterのフォローや読者登録をお願いします。