アイディアポイント岩田です。みなさんは、4月いかがお過ごしでしょうか?私自身は新人研修を担当しないため、この時期は比較的、事務的なことに取り組んでいます。決算、株主総会など…社長はやることが結構、あります。
最近、思うところがあって、データサイエンスの勉強をしています。自分のスキルや視野があまり広がっていないな、新しいことが理解できなくなっているなと思い、手を広げて勉強はじめました。こういうのを一般的には、リスキリングと呼ぶのかもしれない…と思いながら、ある会社の新入社員のみなさんと一緒に勉強しましたので、その内容をシェアします。
データサイエンス基礎講座のその前に – 僕は何を知りたかったのか
最近、自分自身、「アップデートされていない」、「このままだと遅れていく?」、「古くなっていく?」、「もうそろそろ限界?」、「ところで、自分は一体、何者だろうか?」、「これからどうやって生きていこうか?」などと人生に悩む場面があって、このままだと自分が活躍できる世界が狭くなっているなと思っていました。
特に、11月末頃からスタートしたchatGPTを発端にしたAIの普及は、最初は、「へぇ~、これくらいできるんだなぁ」くらいでウォッチしていたのですが、実際に使われる場面も増え、周囲でサービスが立ち上がり、プロンプトエンジニアリング?何、それ?まできて、これはいかん、まったくわからない!ということで、データサイエンスをもう少し知らなくてはということで、急遽、勉強することにしました。
とは言え、私自身は、あくまでも経営者、ビジネスパーソンなので、データサイエンスとして活躍する新入社員のみなさんとは異なる目標、ゴール設定が必要だろうということで、↓こんなことを目標に受講しています(もう少し勉強が必要なので…「しました」とは書けなかった)。
- 『データサイエンス』という分野の全体像と基本的な概念、用語を正確に理解する。できれば、データサイエンティストが説明してくれる内容が理解できるようになることがゴール(具体的にどんな処理をしているのかわからなくても、なぜやっているのか、どういうことを目指しているのかがわかるくらいの知識がほしい)
- その上で、ビジネスの上で『どんな目的』で『何に使える / 使えそう』か自分なりに顧客や経営者に話せるようになる。現在の知識や理解だと「たくさんデータがあって予算があれば、実現できるかもしれませんねー」くらいでしか話ができない。実現可能性について確信が持てなくても、ある程度、筋のよい / 悪いは見分けられるようになりたい
- そんなにすごくなくてよいので、自分でちょっとプログラムを書いてみたい & できることを実感してみたいところ…(野望)
- 全部ひっくるめて、自社への活用場所、今後、ビジネスや経営はどう変わるのかを考察したい
先に勉強した感想を… うーむ、大変なことになってるぞ & これは長い道のりになりそうだ…
結論から書くと、「ほとんど、歯が立たなかった」です。はるか昔、自分が大学院生だった頃から、自分自身の体力や能力がものすごく衰えている一方で、データサイエンスの分野ものすごく進化している…というか、そもそも、自分、情報系じゃないし…というかつらかったです。以下、ノート見てメモした感想です。
- やはり、ビジネスに近い議論、マーケティングや業務プロセス等の話は、経験があるのでついていける。理解できる範囲にある
- 数学(計算や概念)は体力的についていけないかも(弱音)。学生時代のことってなんも覚えてないのね
- この分野は一回、まとめて勉強した方がよいかもしれない(G検定、DS検定とか取ろうかな)
- BIツールは、地味なようだけど、すごく需要がありそう(tableau資格とか取ろうかな?)
- Phythonがすごいのはよくわかったが、そのすごさは少し触らないとわからなさそう
- 世の中、自分が想像しているより、AIが使われている
- 一方で、データサイエンティストの「使えそう」、「使えなさそう」みたいな判断は、まだまだ、あるみたい
ということで、自分自身としては、「1回、きちんと勉強するか / しないか」は決めるけど、どちらかと言えば、「業務をよく知っている」ことと、「必要そうな箇所を早めに探す」ところで価値を出せないか考えていくことにしました。
こんなに若くて優秀で、頭も体も体力もすごくある人たちにかなう気がしないです。48歳は48歳なりの価値を出そうと思う今日この頃でした。
それにしても、道具・手段(データサイエンス)がどんな仕組みで何ができるのか、そして、それを使いこなす人(データサイエンティスト)と会話するためにも、ものすごい敬意(これは既にある)と最低限の知識(ここはがんばる)、コミュニケーション能力(ここはもう少しがんばればなんとかなる)は大事!ということで、ひたすらメモを取りながら講座を聞いてきました。
恥ずかしながら、内容のメモ – 本当はもっと書いているけど…
今回、書いたメモを公開します。本当は資料もいただいたのですが、あんまり適当なこと書くと先生の威信に関わるので(もちろん、私より若い先生ですが)、ひとまず、私の手元のメモをだけ公開します。
データサイエンス、AIの基礎概念
- 数字自体には意味がないので、意味 / 示唆を引き出すのがデータサイエンス
- 統計・数学、データ加工技術、機械学習、データマイニング、人工知能、専門知識の集合体
- データリテラシー → 専門家でなくても使える常識的なスキル
- 人口知能とは何か? → 人間が持つ知的な情報処理能力を機械に持たせること、周囲の状況(入力)によって行動(出力)を変える能力を持つ機械
- 機械学習とは何か? → 学習データから自動的に情報を整理し、裏の法則を見つける(ルールベースとは違う)
- 学習:データからパターンを見出す、予測:学習済みモデルに未知のデータを入れてそこから予測する
- 機械学習 : 教師あり学習(画像)、教師なし学習(セグメンテーション)、強化学習
データ処理と特徴量設計
- データの読み込み→データの理解→モデルの選択→特徴量エンジニアリング→モデル学習→精度評価→YESの場合は実装、NOの場合はモデルの選択 or 特徴量エンジニアリング
- 特徴量(feature)→分析対象を表現する予測の手掛かりとなる変数
- 効く項目もあれば、効かない項目もあるよ
- 変なのを入れてしまうと過学習してしまうこともある
- 意味のある数字にしないといかんよ
- データの前処理。例:文字列→数字、欠損値処理、特徴量の変換・追加
- 文字化けとか変な答えなど結構、ありそう。テクニックはいろいろあるらしい
- One-hot encoding、Label encoding とかする
- 正規化:データを特定の範囲内に揃えることで、データを扱いやすくし、モデルの学習をしやすくすること。外れ値、最大値と最小値に敏感に反応してしまうことに注意
- 標準化:各データから平均値を引き、標準偏差で割り算。過学習防止、外れ値にも強い
- 特徴量を「人間」が作らなくてはいけないこともある。データサイエンティストの経験でやる
- ディープラーニングは機械学習の一部。最強ということではない。画像認識や音声認識に使われる
- データバイアスに気をつける
- データバイアス。サンプリングバイアスもこのうちの1つ
- アルゴリズムバイアス。分析手法やアルゴリズムが特定の特徴量を強調して学習してしまい、予測結果にバイアスと併存することもある。センシティブな特徴量を強調してしまったりすることも…
- Chat-GPT、GPT-4について
- 中がどうなっているかわからない。お金を払えば使えるけど、ソースがわからない。期待と懸念と超微妙
- 構造化データ、非構造化データ
- 配列データ 情報を記憶しておくための複数の箱が連なっているもの
機械学習モデルの具体的な手法と応用例
- 目指すところ:訓練データに対する予測精度が高いのは当然。未知データに対しても同じくらい高い予測精度を出せること
- 過学習が敵。汎用性が失われている状態
- データが少ないのに特徴量の数が多すぎる
- 関数が複雑すぎる
- 機械学習のモデル:いろいろ。メモ取れなかった
- Python オープンソース
- コンパイラ言語(C、Fortran)早いけど難しい
- スクリプト言語(Python、R、JavaScript)←こっちが手軽。ライブラリが豊富。読み書きしやすい、学びやすい
- Pythonの中でコンパイラ言語で書いたものを使って動かしているので早い
- データ分析・機械学習の精度評価
- 元のデータを訓練データとテストデータにわける。訓練データでモデルを学習、テストデータで確認する、運用
- 訓練データ:テストデータ = 7:3 or 8:2 らしい。画像認識の場合は、9:1とかもあるらしい
- K-分割交差検証法
- 分類問題の精度指標。混同行列をよく使う→正解率、適合率、再現率、F値 → トレードオフの関係にあるので、目的によって重視する精度指標が異なる
可視化とBI
- 可視化しないと見えるようにならない
- 可視化ツール tableauとか。PowerBI、DOMO、MotionBoard。ExcelとかPythonでもできるけど…
- Businessの役に立つ Intelligenceを引き出す
- グラフ→ストーリー→ダッシュボード→経営の意思決定
- よいダッシュボードとは わかりやすい / 使いやすい / 見やすい
- 業務ダッシュボードは5タイプに収まると言われている
- KPI
- Q&A
- トップダウン 原因を複数の軸で掘り下げていく
- ボトムアップ
- One Big Chart
- 実は超大事で、個々はノウハウも結構ある
知らないことを知るのは、そうは言ってもおもしろい
最後に講座と関係ない話ですが、『自分の全然、知らない』ことを『知らない人たち』と勉強するのはおもしろいですね。これ知らなかった、うっ、ここわからない… そして、新入社員のみなさんに、まったくかなわない… こういう経験は貴重だなと思いました。もう少しがんばってみようかなと思いました。
普段、自分の業務に没頭してしまうとこういう機会、すごく少なくなりますからね。リスキリングには、『興味があって、“多少は知らなくはない”テーマと、“わからなくても素直に頭を下げて話を聞ける”コミュニティ』がよいのかもしれません。
ということで、最近、リスキリングという言葉、流行っていますが、こういうものかなと思った今日この頃でした。まだまだ、研修は続くので、4月はもう少し勉強です。でわでわ。
本記事に関するご質問やコメント、疑問に感じた点がございましたら、ぜひ、お問い合わせフォームより連絡ください。最後までお読みいただきありがとうございました。
株式会社アイディアポイント
代表取締役社長
岩田 徹