![【食品安全のデジタル化⑦】食中毒のデータを分析する(事前準備)](https://myfoodsafetyview.com/wp-content/uploads/2023/08/d1cf5cd0a4160e20234cfd94bfd49e85-1024x536.png)
食品安全分野で働く人であっても、デジタルリテラシー向上が必要な理由については、以下の記事をご覧ください。
![](https://myfoodsafetyview.com/wp-content/uploads/2023/08/f10e93faa1295a358ba2f250593b5596-300x169.png)
Pythonの基本操作(データの型)については、以下の記事を読んでください。
![](https://myfoodsafetyview.com/wp-content/uploads/2023/08/83257221cbdb8a787f8c5e963fb1803f-300x157.png)
![](https://myfoodsafetyview.com/wp-content/uploads/2023/12/6a3de9b22df3900a0b4431d275b771df-e1703917532594-150x150.png)
今回からPython実践編です。
今まで学んだことを使って、データ分析を行います!
ここからは、実際のデータを使ってデータ分析を行います。
最終的な目標として、下のようなグラフを作ります。アメリカの各州の10万人あたりの食中毒患者数(10年間の平均値)を示しています。
この記事では、データ分析の事前準備として、①データを用意する、②データをGoogleドライブにアップロードする、③データとノートブックを連携する、まで行います。
食中毒のデータを準備する
まずは事前準備として、データ分析に使用するデータをダウンロードします。
今回は、アメリカの食中毒のデータを使用することにします。CDCのNORS Dashboardからアメリカの食中毒統計データをダウンロードしましょう。
ウェブサイトを開くと下の画面になります。
![01 NORS Dashboard(2021-2012の10年間分の食中毒を選択)](https://myfoodsafetyview.com/wp-content/uploads/2023/08/42e84e3ab1a7fdb5739086a9647a91cf.png)
![01 NORS Dashboard(2021-2012の10年間分の食中毒を選択)](https://myfoodsafetyview.com/wp-content/uploads/2023/08/42e84e3ab1a7fdb5739086a9647a91cf.png)
最初の四角く囲まれた「What types of outbreaks would you like to include?」(どの種類のアウトブレイクを含めますか?)では、「Foodborne」(食品由来)以外のすべてのチェックを外します。
次に左側にある「Year」の「Custom range」が「2009 to 2021」になっているので、これを「2012 to 2021」とします。これで、直近10年間(2012~2021)分の食中毒のデータが選択できました。
ウェブサイトの下の方に行き「Download Data*」から「Download current search data (Excel).」を選択します。
![02 NORS Dashboard(ダウンロード)](https://myfoodsafetyview.com/wp-content/uploads/2023/08/5b0434d53e07d79c8b533c2a8f2594c1-1024x702.png)
![02 NORS Dashboard(ダウンロード)](https://myfoodsafetyview.com/wp-content/uploads/2023/08/5b0434d53e07d79c8b533c2a8f2594c1-1024x702.png)
注意書きがポップアップしますので、気にせず「Download」を選びます。
![03 NORSダウンロード前の注意メッセージ](https://myfoodsafetyview.com/wp-content/uploads/2023/08/1f002081ac11afbbde27ce58fb0ad3a7.png)
![03 NORSダウンロード前の注意メッセージ](https://myfoodsafetyview.com/wp-content/uploads/2023/08/1f002081ac11afbbde27ce58fb0ad3a7.png)
すると「NationalOutbreakPublicDataTool.xlsx」という名前のエクセルファイルがパソコンにダウンロードされます。(データがダウンロードされる場所は自分のパソコンの設定によって異なります。)
以上で必要なデータのダウンロードが完了しました。
ダウンロードしたデータをGoogleドライブにアップロードする
次にダウンロードした「NationalOutbreakPublicDataTool.xlsx」を自分のGoogleドライブにアップロードしましょう。
やり方は2つあります。
- ファイルをマイドライブにドラッグ&ドロップする。または
- マイドライブの空いているところ(下の画像では「test1.ipynb」の下辺り)で右クリックし、「ファイルをアップロード」でアップロードするファイルを選択する。
![04 Googleドライブにデータを移す前](https://myfoodsafetyview.com/wp-content/uploads/2023/08/1c4f39fd1f7ad258389ee7229b79c5a7-1-1024x499.png)
![04 Googleドライブにデータを移す前](https://myfoodsafetyview.com/wp-content/uploads/2023/08/1c4f39fd1f7ad258389ee7229b79c5a7-1-1024x499.png)
マイドライブへのアップロードが完了するとこのような状態になります。
![05 Googleドライブにデータを移した後](https://myfoodsafetyview.com/wp-content/uploads/2023/08/31b0dfb4783182319b98d619aedd346c-1-1024x427.png)
![05 Googleドライブにデータを移した後](https://myfoodsafetyview.com/wp-content/uploads/2023/08/31b0dfb4783182319b98d619aedd346c-1-1024x427.png)
「NationalOutbreakPublicDataTool.xlsx」がマイドライブにありますね。以上でGoogleドライブへのアップロードが完了しました。
ノートブックとマイドライブを紐づける
それでは新しいColaboratoryのノートブックを作成します。
Googleドライブの「+新規」を選び、「その他」の中にある「Google Colaboratory」をクリックすると新しいノートブックが作られます。
もし新しいノートブックの作り方が分からなければ、こちらの記事を読んでください。
![06 新しいノートブックを作成](https://myfoodsafetyview.com/wp-content/uploads/2023/08/33999fec4c1e0a65b61c941569587ed6-1024x480.png)
![06 新しいノートブックを作成](https://myfoodsafetyview.com/wp-content/uploads/2023/08/33999fec4c1e0a65b61c941569587ed6-1024x480.png)
新しいノートブックが作られました。タイトルは「us_fbd_analysis.ipynb」としました。タイトルはあとで見たときに内容が分かる名前であれば、自由につけて大丈夫です。
![07 ノートブックを開き、タイトルを変更する](https://myfoodsafetyview.com/wp-content/uploads/2023/08/e17c7fc7186dbab718ea47a9620a9c0f-1024x276.png)
![07 ノートブックを開き、タイトルを変更する](https://myfoodsafetyview.com/wp-content/uploads/2023/08/e17c7fc7186dbab718ea47a9620a9c0f-1024x276.png)
それではノートブックをGoogle ドライブにマウント(連携)します。
「マウント???」と思われるかもしれません。マウントは「連携」と同じような意味で理解すれば大丈夫です。作成したノートブックとGoogleドライブを紐づけて、ドライブ内にあるデータをノートブックで使えるようにします。
以下のコードをノートブックの1つのセルに入力後、キーボードで「Shift」と「Enter」を押す、または「▶︎」をクリックすると、Pythonが実行されます。
# Googleドライブのファイルにマウントする
from google.colab import drive
drive.mount('/content/drive')
すると「このノートブックにGoogleドライブのファイルへのアクセスを許可しますか?」と聞かれるので、「Googleドライブに接続」を選びます。
![09 ドライブにアクセスする許可のポップアップ](https://myfoodsafetyview.com/wp-content/uploads/2023/08/0793403ebf6668fa6fd23e000f677f1c-1.png)
![09 ドライブにアクセスする許可のポップアップ](https://myfoodsafetyview.com/wp-content/uploads/2023/08/0793403ebf6668fa6fd23e000f677f1c-1.png)
アカウントの選択の画面が出てくるので、自分のアカウントを選びます。
![10 自分のアカウントを選択](https://myfoodsafetyview.com/wp-content/uploads/2023/08/2343d6fed3c428e79a881fa6e22d0704-1.png)
![10 自分のアカウントを選択](https://myfoodsafetyview.com/wp-content/uploads/2023/08/2343d6fed3c428e79a881fa6e22d0704-1.png)
「Google Drive for desktopがGoogleアカウントへのアクセスをリクエストしています」と表示されるので、「許可」をクリックします。
![11 許可を選択](https://myfoodsafetyview.com/wp-content/uploads/2023/08/6da4514fc5f3a2fd3d6f2ed6f1fe7055-435x1024.png)
![11 許可を選択](https://myfoodsafetyview.com/wp-content/uploads/2023/08/6da4514fc5f3a2fd3d6f2ed6f1fe7055-435x1024.png)
コードが完了し、結果に「Mounted at /content/drive」と表示されます。これでマウントが完了しました。「contentフォルダの中にあるdriveフォルダとノートブックが連携した」ということです。
![12 結果(Mounted at content_drive)](https://myfoodsafetyview.com/wp-content/uploads/2023/08/67b69a3bff633b6acb98b21a89883529-1.png)
![12 結果(Mounted at content_drive)](https://myfoodsafetyview.com/wp-content/uploads/2023/08/67b69a3bff633b6acb98b21a89883529-1.png)
念のためノートブックとdriveが連携したことを確認してみましょう。左側にあるフォルダのアイコン(📁)をクリックし、次に「drive」をクリック、そして「MyDrive」をクリックすると、左のような画面になります。確かに「NationalOutbreakPublicDataTool.xlsx」がマイドライブの中にあることが分かりますね。
![13 ノートブックがマイドライブにつながった](https://myfoodsafetyview.com/wp-content/uploads/2023/08/e713012fe829dc63303394108a5a3a43-2.png)
![13 ノートブックがマイドライブにつながった](https://myfoodsafetyview.com/wp-content/uploads/2023/08/e713012fe829dc63303394108a5a3a43-2.png)
ここまでくれば、事前準備はあと少しです。
次のセルに下のコードを入力してください。
# PATHにエクセルデータが格納されているフォルダの場所を代入する
PATH = '/content/drive/MyDrive/'
このコードは何をしているのか分かりますか。先ほどマウントし、ノートブックとdriveが連携しました。その際に「Mounted at /content/drive」と表示されましたね。そのため、現在ノートブックは「drive」というフォルダと連携しています。
そして今回使用するエクセルデータはどこにあるかというと
/content/drive/MyDrive/NationalOutbreakPublicDataTool.xlsx
です。つまり、使用するデータは「drive」よりさらに下の「MyDrive」フォルダの中にあるということです。
そこで、ノートブックのデータの参照先を「MyDrive」に設定するために、PATHという変数に参照するフォルダの場所を代入しました。
最後に下のコードを入力し、実行してください。
# PATHを現在のディレクトリに設定する
cd {PATH}
このコードにより、ノートブックのデータの参照先が、先ほどPATHに変更されました。
ちなみにPATHに代入するコードの内容を変えると、ノートブックの参照先も変えることができます。もし、マイドライブの中にさらにフォルダを作り、そこに使用するデータを入れている場合は必要に応じて変更してください。
# (例)使用するデータが、マイドライブに新たに作った「data_analysis」フォルダにある場合
PATH = '/content/drive/MyDrive/data_analysis/'
以上がデータ分析を行う事前準備です。
![](https://myfoodsafetyview.com/wp-content/uploads/2023/12/8f5558744934a24aecfdda0f752c359e-e1703916995688-150x150.png)
![](https://myfoodsafetyview.com/wp-content/uploads/2023/12/8f5558744934a24aecfdda0f752c359e-e1703916995688-150x150.png)
![](https://myfoodsafetyview.com/wp-content/uploads/2023/12/8f5558744934a24aecfdda0f752c359e-e1703916995688-150x150.png)
コードの量自体は多くはないですが、よくわからないコードを入力していて、不安に感じたのではないでしょうか。
今回のコードの内容はColaboratoryとGoogleドライブを紐づけているだけなので、それほど重要ではなく、分からなくても正直問題ありません。「今こういうことをやっているんだなー」くらいの理解で大丈夫です。
そして、次回からがデータ分析の本番になります。
また、今回使用したCDCのNORS Dashboradは、とても便利なウェブサイトです。食中毒に限らず、様々なデータをインタラクティブに扱うことができます。
データ分析用に10年間分の食中毒のデータをダウンロードしましたが、あっという間にできましたね。これと同じことを厚生労働省のウェブサイトで行おうとすると、10倍くらい時間がかかります。
データの2次利用までを考慮した「データの公開方法」については、アメリカの方がかなり進んでいるなと感じます。
コメント