【Python実践編①】食中毒のデータを分析する(事前準備)

【食品安全のデジタル化⑦】食中毒のデータを分析する(事前準備)

食品安全分野で働く人であっても、デジタルリテラシー向上が必要な理由については、以下の記事をご覧ください。

Pythonの基本操作(データの型)については、以下の記事を読んでください。

今回からPython実践編です。
今まで学んだことを使って、データ分析を行います!

ここからは、実際のデータを使ってデータ分析を行います。

最終的な目標として、下のようなグラフを作ります。アメリカの各州の10万人あたりの食中毒患者数(10年間の平均値)を示しています。

この記事では、データ分析の事前準備として、①データを用意する、②データをGoogleドライブにアップロードする、③データとノートブックを連携する、まで行います。

目次

食中毒のデータを準備する

まずは事前準備として、データ分析に使用するデータをダウンロードします。

今回は、アメリカの食中毒のデータを使用することにします。CDCのNORS Dashboardからアメリカの食中毒統計データをダウンロードしましょう。

ウェブサイトを開くと下の画面になります。

01 NORS Dashboard(2021-2012の10年間分の食中毒を選択)

最初の四角く囲まれた「What types of outbreaks would you like to include?」(どの種類のアウトブレイクを含めますか?)では、「Foodborne」(食品由来)以外のすべてのチェックを外します。

次に左側にあるYearの「Custom rangeが「2009 to 2021」になっているので、これを「2012 to 2021」とします。これで、直近10年間(2012~2021)分の食中毒のデータが選択できました。

ウェブサイトの下の方に行き「Download Data*」から「Download current search data (Excel).」を選択します。

02 NORS Dashboard(ダウンロード)

注意書きがポップアップしますので、気にせず「Download」を選びます。

03 NORSダウンロード前の注意メッセージ

すると「NationalOutbreakPublicDataTool.xlsx」という名前のエクセルファイルがパソコンにダウンロードされます。(データがダウンロードされる場所は自分のパソコンの設定によって異なります。)

以上で必要なデータのダウンロードが完了しました。

ダウンロードしたデータをGoogleドライブにアップロードする

次にダウンロードした「NationalOutbreakPublicDataTool.xlsx」を自分のGoogleドライブにアップロードしましょう。

やり方は2つあります。

  1. ファイルをマイドライブにドラッグ&ドロップする。または
  2. マイドライブの空いているところ(下の画像では「test1.ipynb」の下辺り)で右クリックし、「ファイルをアップロード」でアップロードするファイルを選択する。
04 Googleドライブにデータを移す前

マイドライブへのアップロードが完了するとこのような状態になります。

05 Googleドライブにデータを移した後

「NationalOutbreakPublicDataTool.xlsx」がマイドライブにありますね。以上でGoogleドライブへのアップロードが完了しました。

ノートブックとマイドライブを紐づける

それでは新しいColaboratoryのノートブックを作成します。

Googleドライブの「+新規」を選び、「その他」の中にある「Google Colaboratory」をクリックすると新しいノートブックが作られます。

もし新しいノートブックの作り方が分からなければ、こちらの記事を読んでください。

06 新しいノートブックを作成

新しいノートブックが作られました。タイトルは「us_fbd_analysis.ipynb」としました。タイトルはあとで見たときに内容が分かる名前であれば、自由につけて大丈夫です。

07 ノートブックを開き、タイトルを変更する

それではノートブックをGoogle ドライブにマウント(連携)します。

「マウント???」と思われるかもしれません。マウントは「連携」と同じような意味で理解すれば大丈夫です。作成したノートブックとGoogleドライブを紐づけて、ドライブ内にあるデータをノートブックで使えるようにします。

以下のコードをノートブックの1つのセルに入力後、キーボードで「Shift」と「Enter」を押す、または「▶︎」をクリックすると、Pythonが実行されます。

# Googleドライブのファイルにマウントする
from google.colab import drive
drive.mount('/content/drive')

すると「このノートブックにGoogleドライブのファイルへのアクセスを許可しますか?」と聞かれるので、「Googleドライブに接続」を選びます。

09 ドライブにアクセスする許可のポップアップ

アカウントの選択の画面が出てくるので、自分のアカウントを選びます。

10 自分のアカウントを選択

「Google Drive for desktopがGoogleアカウントへのアクセスをリクエストしています」と表示されるので、「許可」をクリックします。

11 許可を選択

コードが完了し、結果に「Mounted at /content/drive」と表示されます。これでマウントが完了しました。「contentフォルダの中にあるdriveフォルダとノートブックが連携した」ということです。

12 結果(Mounted at content_drive)

念のためノートブックとdriveが連携したことを確認してみましょう。左側にあるフォルダのアイコン(📁)をクリックし、次に「drive」をクリック、そして「MyDrive」をクリックすると、左のような画面になります。確かに「NationalOutbreakPublicDataTool.xlsx」がマイドライブの中にあることが分かりますね。

13 ノートブックがマイドライブにつながった

ここまでくれば、事前準備はあと少しです。

次のセルに下のコードを入力してください。

# PATHにエクセルデータが格納されているフォルダの場所を代入する
PATH = '/content/drive/MyDrive/'

このコードは何をしているのか分かりますか。先ほどマウントし、ノートブックとdriveが連携しました。その際に「Mounted at /content/drive」と表示されましたね。そのため、現在ノートブックは「drive」というフォルダと連携しています。

そして今回使用するエクセルデータはどこにあるかというと

/content/drive/MyDrive/NationalOutbreakPublicDataTool.xlsx

です。つまり、使用するデータは「drive」よりさらに下の「MyDrive」フォルダの中にあるということです。

そこで、ノートブックのデータの参照先を「MyDrive」に設定するために、PATHという変数に参照するフォルダの場所を代入しました。

最後に下のコードを入力し、実行してください。

# PATHを現在のディレクトリに設定する
cd {PATH}

このコードにより、ノートブックのデータの参照先が、先ほどPATHに変更されました。

ちなみにPATHに代入するコードの内容を変えると、ノートブックの参照先も変えることができます。もし、マイドライブの中にさらにフォルダを作り、そこに使用するデータを入れている場合は必要に応じて変更してください。

# (例)使用するデータが、マイドライブに新たに作った「data_analysis」フォルダにある場合
PATH = '/content/drive/MyDrive/data_analysis/'

以上がデータ分析を行う事前準備です。

コードの量自体は多くはないですが、よくわからないコードを入力していて、不安に感じたのではないでしょうか。

今回のコードの内容はColaboratoryとGoogleドライブを紐づけているだけなので、それほど重要ではなく、分からなくても正直問題ありません。「今こういうことをやっているんだなー」くらいの理解で大丈夫です。

そして、次回からがデータ分析の本番になります。

また、今回使用したCDCのNORS Dashboradは、とても便利なウェブサイトです。食中毒に限らず、様々なデータをインタラクティブに扱うことができます。

データ分析用に10年間分の食中毒のデータをダウンロードしましたが、あっという間にできましたね。これと同じことを厚生労働省のウェブサイトで行おうとすると、10倍くらい時間がかかります。

データの2次利用までを考慮した「データの公開方法」については、アメリカの方がかなり進んでいるなと感じます。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

目次