Bí mật python thực hành tốt nhất

Cấu trúc dự án hợp lý, được tiêu chuẩn hóa hợp lý nhưng linh hoạt để thực hiện và chia sẻ công việc khoa học dữ liệu

Tại sao sử dụng cấu trúc dự án này?

Chúng tôi không nói về việc thay đổi tính thẩm mỹ của vết lõm hoặc các tiêu chuẩn định dạng mô phạm - cuối cùng, chất lượng mã khoa học dữ liệu là về tính chính xác và khả năng tái tạo

Khi nghĩ về phân tích dữ liệu, chúng ta thường chỉ nghĩ về các báo cáo kết quả, thông tin chi tiết hoặc trực quan hóa. Mặc dù các sản phẩm cuối này thường là sự kiện chính, nhưng thật dễ dàng để tập trung vào việc làm cho các sản phẩm trông đẹp mắt và bỏ qua chất lượng của mã tạo ra chúng. Vì những sản phẩm cuối cùng này được tạo theo chương trình nên chất lượng mã vẫn rất quan trọng. Và chúng tôi không nói về việc thay đổi tính thẩm mỹ của vết lõm hoặc các tiêu chuẩn định dạng mô phạm - cuối cùng, chất lượng mã khoa học dữ liệu là về tính chính xác và khả năng tái tạo

Không có gì bí mật rằng các phân tích tốt thường là kết quả của những khám phá rất ngẫu hứng và ngẫu nhiên. Các thử nghiệm dự kiến ​​và các phương pháp thử nghiệm nhanh có thể không thành công đều là một phần của quy trình để đạt được nội dung tốt và không có viên đạn thần kỳ nào để biến việc khám phá dữ liệu thành một tiến trình tuyến tính, đơn giản

Điều đó đang được nói, một khi đã bắt đầu, nó không phải là một quá trình khiến bản thân nó phải suy nghĩ cẩn thận về cấu trúc của mã hoặc bố cục dự án của bạn, vì vậy, tốt nhất là bắt đầu với một cấu trúc hợp lý, rõ ràng và tuân theo nó trong suốt quá trình. Chúng tôi nghĩ rằng đó là một chiến thắng khá lớn khi sử dụng một thiết lập khá chuẩn như thế này. Đây là lý do tại sao

Người khác sẽ cảm ơn bạn

Không ai ngồi một chỗ trước khi tạo một dự án Rails mới để tìm ra nơi họ muốn đặt quan điểm của mình;

Một cấu trúc dự án tiêu chuẩn, được xác định rõ ràng có nghĩa là một người mới có thể bắt đầu hiểu một phân tích mà không cần đào sâu vào tài liệu mở rộng. Điều đó cũng có nghĩa là họ không nhất thiết phải đọc 100% mã trước khi biết nơi tìm kiếm những thứ rất cụ thể

Mã được tổ chức tốt có xu hướng tự viết tài liệu trong đó tổ chức tự cung cấp ngữ cảnh cho mã của bạn mà không cần nhiều chi phí. Mọi người sẽ cảm ơn bạn vì điều này vì họ có thể

  • Cộng tác dễ dàng hơn với bạn trong phân tích này
  • Tìm hiểu từ phân tích của bạn về quy trình và miền
  • Cảm thấy tự tin vào kết luận mà phân tích đưa ra

Một ví dụ điển hình về điều này có thể được tìm thấy trong bất kỳ khung phát triển web chính nào như Django hoặc Ruby on Rails. Không ai ngồi một chỗ trước khi tạo một dự án Rails mới để tìm ra nơi họ muốn đặt quan điểm của mình; . Bởi vì cấu trúc dự án mặc định đó là tiêu chuẩn hợp lý và hợp lý trong hầu hết các dự án, nên sẽ dễ dàng hơn nhiều đối với những người chưa bao giờ xem một dự án cụ thể để tìm ra nơi họ sẽ tìm thấy các bộ phận chuyển động khác nhau

Một ví dụ tuyệt vời khác là Tiêu chuẩn phân cấp hệ thống tệp cho các hệ thống giống Unix. Thư mục /etc có một mục đích rất cụ thể, cũng như thư mục /tmp và mọi người (ít nhiều) đồng ý tôn trọng hợp đồng xã hội đó. Điều đó có nghĩa là người dùng Red Hat và người dùng Ubuntu đều biết đại khái nơi tìm kiếm một số loại tệp nhất định, ngay cả khi sử dụng hệ thống của nhau — hoặc bất kỳ hệ thống tuân thủ tiêu chuẩn nào khác cho vấn đề đó

Lý tưởng nhất, đó là cách nên diễn ra khi một đồng nghiệp mở ra dự án khoa học dữ liệu của bạn

Bạn sẽ cảm ơn bạn

Bạn đã bao giờ cố gắng tái tạo một phân tích mà bạn đã thực hiện cách đây vài tháng hoặc thậm chí vài năm chưa? . Dưới đây là một số câu hỏi mà chúng tôi đã học cách hỏi với cảm giác sợ hãi về sự tồn tại

  • Chúng ta có phải đi vào và nối cột X với dữ liệu trước khi bắt đầu hay dữ liệu đó đến từ một trong các sổ ghi chép?
  • Hãy nghĩ về nó, chúng ta phải chạy sổ ghi chép nào trước khi chạy mã vẽ. đó là "dữ liệu xử lý" hay "dữ liệu sạch"?
  • Các tệp hình dạng được tải xuống từ đâu cho các ô địa lý?
  • Vân vân, lần vô cực

Những loại câu hỏi này rất khó và là triệu chứng của một dự án vô tổ chức. Một cấu trúc dự án tốt khuyến khích các phương pháp giúp quay lại công việc cũ dễ dàng hơn, chẳng hạn như tách các mối quan tâm, phân tích trừu tượng dưới dạng DAG và các phương pháp hay nhất về kỹ thuật như kiểm soát phiên bản

Không có gì ở đây là ràng buộc

"Sự nhất quán ngớ ngẩn là con yêu tinh của những bộ óc nhỏ bé" - Ralph Waldo Emerson (và )

Không đồng ý với một vài tên thư mục mặc định?

Cứ liều thử đi. Đây là một cấu trúc nhẹ và được coi là điểm khởi đầu tốt cho nhiều dự án. Hoặc, như PEP 8 đã nói

Tính nhất quán trong một dự án quan trọng hơn. Tính nhất quán trong một mô-đun hoặc chức năng là quan trọng nhất. . Tuy nhiên, hãy biết khi nào không nhất quán -- đôi khi các đề xuất hướng dẫn về phong cách không áp dụng được. Khi nghi ngờ, hãy sử dụng phán đoán tốt nhất của bạn. Nhìn vào các ví dụ khác và quyết định những gì có vẻ tốt nhất. Và đừng ngần ngại hỏi

Bắt đầu

Với suy nghĩ này, chúng tôi đã tạo một mẫu cookiecutter khoa học dữ liệu cho các dự án trong Python. Phân tích của bạn không nhất thiết phải bằng Python, nhưng mẫu cung cấp một số bản mẫu Python mà bạn muốn xóa (ví dụ: trong thư mục

├── Makefile           <- Makefile with commands like `make data` or `make train`
├── README.md          <- The top-level README for developers using this project.
├── data
│   ├── external       <- Data from third party sources.
│   ├── interim        <- Intermediate data that has been transformed.
│   ├── processed      <- The final, canonical data sets for modeling.
│   └── raw            <- The original, immutable data dump.
├── docs               <- A default Sphinx project; see sphinx-doc.org for details
├── models             <- Trained and serialized models, model predictions, or model summaries
├── notebooks          <- Jupyter notebooks. Naming convention is a number (for ordering),
│                         the creator's initials, and a short `-` delimited description, e.g.
│                         `1.0-jqp-initial-data-exploration`.
├── references         <- Data dictionaries, manuals, and all other explanatory materials.
├── reports            <- Generated analysis as HTML, PDF, LaTeX, etc.
│   └── figures        <- Generated graphics and figures to be used in reporting
├── requirements.txt   <- The requirements file for reproducing the analysis environment, e.g.
│                         generated with `pip freeze > requirements.txt`
├── setup.py           <- Make this project pip installable with `pip install -e`
├── src                <- Source code for use in this project.
│   ├── __init__.py    <- Makes src a Python module
│   │
│   ├── data           <- Scripts to download or generate data
│   │   └── make_dataset.py
│   │
│   ├── features       <- Scripts to turn raw data into features for modeling
│   │   └── build_features.py
│   │
│   ├── models         <- Scripts to train models and then use trained models to make
│   │   │                 predictions
│   │   ├── predict_model.py
│   │   └── train_model.py
│   │
│   └── visualization  <- Scripts to create exploratory and results oriented visualizations
│       └── visualize.py
└── tox.ini            <- tox file with settings for running tox; see tox.readthedocs.io
3 và khung tài liệu Sphinx trong
├── Makefile           <- Makefile with commands like `make data` or `make train`
├── README.md          <- The top-level README for developers using this project.
├── data
│   ├── external       <- Data from third party sources.
│   ├── interim        <- Intermediate data that has been transformed.
│   ├── processed      <- The final, canonical data sets for modeling.
│   └── raw            <- The original, immutable data dump.
├── docs               <- A default Sphinx project; see sphinx-doc.org for details
├── models             <- Trained and serialized models, model predictions, or model summaries
├── notebooks          <- Jupyter notebooks. Naming convention is a number (for ordering),
│                         the creator's initials, and a short `-` delimited description, e.g.
│                         `1.0-jqp-initial-data-exploration`.
├── references         <- Data dictionaries, manuals, and all other explanatory materials.
├── reports            <- Generated analysis as HTML, PDF, LaTeX, etc.
│   └── figures        <- Generated graphics and figures to be used in reporting
├── requirements.txt   <- The requirements file for reproducing the analysis environment, e.g.
│                         generated with `pip freeze > requirements.txt`
├── setup.py           <- Make this project pip installable with `pip install -e`
├── src                <- Source code for use in this project.
│   ├── __init__.py    <- Makes src a Python module
│   │
│   ├── data           <- Scripts to download or generate data
│   │   └── make_dataset.py
│   │
│   ├── features       <- Scripts to turn raw data into features for modeling
│   │   └── build_features.py
│   │
│   ├── models         <- Scripts to train models and then use trained models to make
│   │   │                 predictions
│   │   ├── predict_model.py
│   │   └── train_model.py
│   │
│   └── visualization  <- Scripts to create exploratory and results oriented visualizations
│       └── visualize.py
└── tox.ini            <- tox file with settings for running tox; see tox.readthedocs.io

Yêu cầu

Bắt đầu một dự án mới

Bắt đầu một dự án mới dễ dàng như chạy lệnh này tại dòng lệnh. Không cần tạo thư mục trước, cookiecutter sẽ làm điều đó cho bạn

cookiecutter https://github.com/drivendata/cookiecutter-data-science

Ví dụ

Cấu trúc thư mục

├── Makefile           <- Makefile with commands like `make data` or `make train`
├── README.md          <- The top-level README for developers using this project.
├── data
│   ├── external       <- Data from third party sources.
│   ├── interim        <- Intermediate data that has been transformed.
│   ├── processed      <- The final, canonical data sets for modeling.
│   └── raw            <- The original, immutable data dump.
├── docs               <- A default Sphinx project; see sphinx-doc.org for details
├── models             <- Trained and serialized models, model predictions, or model summaries
├── notebooks          <- Jupyter notebooks. Naming convention is a number (for ordering),
│                         the creator's initials, and a short `-` delimited description, e.g.
│                         `1.0-jqp-initial-data-exploration`.
├── references         <- Data dictionaries, manuals, and all other explanatory materials.
├── reports            <- Generated analysis as HTML, PDF, LaTeX, etc.
│   └── figures        <- Generated graphics and figures to be used in reporting
├── requirements.txt   <- The requirements file for reproducing the analysis environment, e.g.
│                         generated with `pip freeze > requirements.txt`
├── setup.py           <- Make this project pip installable with `pip install -e`
├── src                <- Source code for use in this project.
│   ├── __init__.py    <- Makes src a Python module
│   │
│   ├── data           <- Scripts to download or generate data
│   │   └── make_dataset.py
│   │
│   ├── features       <- Scripts to turn raw data into features for modeling
│   │   └── build_features.py
│   │
│   ├── models         <- Scripts to train models and then use trained models to make
│   │   │                 predictions
│   │   ├── predict_model.py
│   │   └── train_model.py
│   │
│   └── visualization  <- Scripts to create exploratory and results oriented visualizations
│       └── visualize.py
└── tox.ini            <- tox file with settings for running tox; see tox.readthedocs.io

ý kiến

Có một số ý kiến ​​tiềm ẩn trong cấu trúc dự án đã phát triển từ kinh nghiệm của chúng tôi về những gì hiệu quả và những gì không khi cộng tác trong các dự án khoa học dữ liệu. Một số ý kiến ​​về quy trình làm việc và một số ý kiến ​​về các công cụ giúp cuộc sống dễ dàng hơn. Đây là một số niềm tin mà dự án này được xây dựng dựa trên—nếu bạn có suy nghĩ, xin vui lòng

Dữ liệu là bất biến

Đừng bao giờ chỉnh sửa dữ liệu thô của bạn, đặc biệt là không được chỉnh sửa thủ công và đặc biệt là không được chỉnh sửa trong Excel. Đừng ghi đè lên dữ liệu thô của bạn. Không lưu nhiều phiên bản của dữ liệu thô. Coi dữ liệu (và định dạng của nó) là bất biến. Mã bạn viết sẽ di chuyển dữ liệu thô qua một đường dẫn đến phân tích cuối cùng của bạn. Bạn không cần phải thực hiện tất cả các bước mỗi khi muốn tạo một hình mới (xem ), nhưng bất kỳ ai cũng có thể tạo ra sản phẩm cuối cùng chỉ với mã trong

├── Makefile           <- Makefile with commands like `make data` or `make train`
├── README.md          <- The top-level README for developers using this project.
├── data
│   ├── external       <- Data from third party sources.
│   ├── interim        <- Intermediate data that has been transformed.
│   ├── processed      <- The final, canonical data sets for modeling.
│   └── raw            <- The original, immutable data dump.
├── docs               <- A default Sphinx project; see sphinx-doc.org for details
├── models             <- Trained and serialized models, model predictions, or model summaries
├── notebooks          <- Jupyter notebooks. Naming convention is a number (for ordering),
│                         the creator's initials, and a short `-` delimited description, e.g.
│                         `1.0-jqp-initial-data-exploration`.
├── references         <- Data dictionaries, manuals, and all other explanatory materials.
├── reports            <- Generated analysis as HTML, PDF, LaTeX, etc.
│   └── figures        <- Generated graphics and figures to be used in reporting
├── requirements.txt   <- The requirements file for reproducing the analysis environment, e.g.
│                         generated with `pip freeze > requirements.txt`
├── setup.py           <- Make this project pip installable with `pip install -e`
├── src                <- Source code for use in this project.
│   ├── __init__.py    <- Makes src a Python module
│   │
│   ├── data           <- Scripts to download or generate data
│   │   └── make_dataset.py
│   │
│   ├── features       <- Scripts to turn raw data into features for modeling
│   │   └── build_features.py
│   │
│   ├── models         <- Scripts to train models and then use trained models to make
│   │   │                 predictions
│   │   ├── predict_model.py
│   │   └── train_model.py
│   │
│   └── visualization  <- Scripts to create exploratory and results oriented visualizations
│       └── visualize.py
└── tox.ini            <- tox file with settings for running tox; see tox.readthedocs.io
3 và dữ liệu trong
├── Makefile           <- Makefile with commands like `make data` or `make train`
├── README.md          <- The top-level README for developers using this project.
├── data
│   ├── external       <- Data from third party sources.
│   ├── interim        <- Intermediate data that has been transformed.
│   ├── processed      <- The final, canonical data sets for modeling.
│   └── raw            <- The original, immutable data dump.
├── docs               <- A default Sphinx project; see sphinx-doc.org for details
├── models             <- Trained and serialized models, model predictions, or model summaries
├── notebooks          <- Jupyter notebooks. Naming convention is a number (for ordering),
│                         the creator's initials, and a short `-` delimited description, e.g.
│                         `1.0-jqp-initial-data-exploration`.
├── references         <- Data dictionaries, manuals, and all other explanatory materials.
├── reports            <- Generated analysis as HTML, PDF, LaTeX, etc.
│   └── figures        <- Generated graphics and figures to be used in reporting
├── requirements.txt   <- The requirements file for reproducing the analysis environment, e.g.
│                         generated with `pip freeze > requirements.txt`
├── setup.py           <- Make this project pip installable with `pip install -e`
├── src                <- Source code for use in this project.
│   ├── __init__.py    <- Makes src a Python module
│   │
│   ├── data           <- Scripts to download or generate data
│   │   └── make_dataset.py
│   │
│   ├── features       <- Scripts to turn raw data into features for modeling
│   │   └── build_features.py
│   │
│   ├── models         <- Scripts to train models and then use trained models to make
│   │   │                 predictions
│   │   ├── predict_model.py
│   │   └── train_model.py
│   │
│   └── visualization  <- Scripts to create exploratory and results oriented visualizations
│       └── visualize.py
└── tox.ini            <- tox file with settings for running tox; see tox.readthedocs.io

Ngoài ra, nếu dữ liệu là bất biến, nó không cần kiểm soát nguồn giống như mã. Do đó, theo mặc định, thư mục dữ liệu được bao gồm trong tệp

├── Makefile           <- Makefile with commands like `make data` or `make train`
├── README.md          <- The top-level README for developers using this project.
├── data
│   ├── external       <- Data from third party sources.
│   ├── interim        <- Intermediate data that has been transformed.
│   ├── processed      <- The final, canonical data sets for modeling.
│   └── raw            <- The original, immutable data dump.
├── docs               <- A default Sphinx project; see sphinx-doc.org for details
├── models             <- Trained and serialized models, model predictions, or model summaries
├── notebooks          <- Jupyter notebooks. Naming convention is a number (for ordering),
│                         the creator's initials, and a short `-` delimited description, e.g.
│                         `1.0-jqp-initial-data-exploration`.
├── references         <- Data dictionaries, manuals, and all other explanatory materials.
├── reports            <- Generated analysis as HTML, PDF, LaTeX, etc.
│   └── figures        <- Generated graphics and figures to be used in reporting
├── requirements.txt   <- The requirements file for reproducing the analysis environment, e.g.
│                         generated with `pip freeze > requirements.txt`
├── setup.py           <- Make this project pip installable with `pip install -e`
├── src                <- Source code for use in this project.
│   ├── __init__.py    <- Makes src a Python module
│   │
│   ├── data           <- Scripts to download or generate data
│   │   └── make_dataset.py
│   │
│   ├── features       <- Scripts to turn raw data into features for modeling
│   │   └── build_features.py
│   │
│   ├── models         <- Scripts to train models and then use trained models to make
│   │   │                 predictions
│   │   ├── predict_model.py
│   │   └── train_model.py
│   │
│   └── visualization  <- Scripts to create exploratory and results oriented visualizations
│       └── visualize.py
└── tox.ini            <- tox file with settings for running tox; see tox.readthedocs.io
7. Nếu bạn có một lượng nhỏ dữ liệu hiếm khi thay đổi, bạn có thể muốn đưa dữ liệu vào kho lưu trữ. Github hiện cảnh báo nếu các tệp vượt quá 50 MB và từ chối các tệp trên 100 MB. Một số tùy chọn khác để lưu trữ/đồng bộ hóa dữ liệu lớn bao gồm AWS S3 với công cụ đồng bộ hóa (e. g. ,
├── Makefile           <- Makefile with commands like `make data` or `make train`
├── README.md          <- The top-level README for developers using this project.
├── data
│   ├── external       <- Data from third party sources.
│   ├── interim        <- Intermediate data that has been transformed.
│   ├── processed      <- The final, canonical data sets for modeling.
│   └── raw            <- The original, immutable data dump.
├── docs               <- A default Sphinx project; see sphinx-doc.org for details
├── models             <- Trained and serialized models, model predictions, or model summaries
├── notebooks          <- Jupyter notebooks. Naming convention is a number (for ordering),
│                         the creator's initials, and a short `-` delimited description, e.g.
│                         `1.0-jqp-initial-data-exploration`.
├── references         <- Data dictionaries, manuals, and all other explanatory materials.
├── reports            <- Generated analysis as HTML, PDF, LaTeX, etc.
│   └── figures        <- Generated graphics and figures to be used in reporting
├── requirements.txt   <- The requirements file for reproducing the analysis environment, e.g.
│                         generated with `pip freeze > requirements.txt`
├── setup.py           <- Make this project pip installable with `pip install -e`
├── src                <- Source code for use in this project.
│   ├── __init__.py    <- Makes src a Python module
│   │
│   ├── data           <- Scripts to download or generate data
│   │   └── make_dataset.py
│   │
│   ├── features       <- Scripts to turn raw data into features for modeling
│   │   └── build_features.py
│   │
│   ├── models         <- Scripts to train models and then use trained models to make
│   │   │                 predictions
│   │   ├── predict_model.py
│   │   └── train_model.py
│   │
│   └── visualization  <- Scripts to create exploratory and results oriented visualizations
│       └── visualize.py
└── tox.ini            <- tox file with settings for running tox; see tox.readthedocs.io
8), Lưu trữ tệp lớn Git, Phụ lục Git và dat. Hiện tại, theo mặc định, chúng tôi yêu cầu bộ chứa S3 và sử dụng AWS CLI để đồng bộ hóa dữ liệu trong thư mục
├── Makefile           <- Makefile with commands like `make data` or `make train`
├── README.md          <- The top-level README for developers using this project.
├── data
│   ├── external       <- Data from third party sources.
│   ├── interim        <- Intermediate data that has been transformed.
│   ├── processed      <- The final, canonical data sets for modeling.
│   └── raw            <- The original, immutable data dump.
├── docs               <- A default Sphinx project; see sphinx-doc.org for details
├── models             <- Trained and serialized models, model predictions, or model summaries
├── notebooks          <- Jupyter notebooks. Naming convention is a number (for ordering),
│                         the creator's initials, and a short `-` delimited description, e.g.
│                         `1.0-jqp-initial-data-exploration`.
├── references         <- Data dictionaries, manuals, and all other explanatory materials.
├── reports            <- Generated analysis as HTML, PDF, LaTeX, etc.
│   └── figures        <- Generated graphics and figures to be used in reporting
├── requirements.txt   <- The requirements file for reproducing the analysis environment, e.g.
│                         generated with `pip freeze > requirements.txt`
├── setup.py           <- Make this project pip installable with `pip install -e`
├── src                <- Source code for use in this project.
│   ├── __init__.py    <- Makes src a Python module
│   │
│   ├── data           <- Scripts to download or generate data
│   │   └── make_dataset.py
│   │
│   ├── features       <- Scripts to turn raw data into features for modeling
│   │   └── build_features.py
│   │
│   ├── models         <- Scripts to train models and then use trained models to make
│   │   │                 predictions
│   │   ├── predict_model.py
│   │   └── train_model.py
│   │
│   └── visualization  <- Scripts to create exploratory and results oriented visualizations
│       └── visualize.py
└── tox.ini            <- tox file with settings for running tox; see tox.readthedocs.io
9 với máy chủ

Sổ tay là để khám phá và giao tiếp

Các gói máy tính xách tay như máy tính xách tay Jupyter, máy tính xách tay Beaker, Zeppelin và các công cụ lập trình biết chữ khác rất hiệu quả để phân tích dữ liệu khám phá. Tuy nhiên, những công cụ này có thể kém hiệu quả hơn để tái tạo một phân tích. Khi sử dụng sổ ghi chép trong công việc, chúng tôi thường chia nhỏ thư mục

# OPTIONAL: Load the "autoreload" extension so that code can change
%load_ext autoreload

# OPTIONAL: always reload modules so that as you change code in src, it gets loaded
%autoreload 2

from src.data import make_dataset
0. Ví dụ:
# OPTIONAL: Load the "autoreload" extension so that code can change
%load_ext autoreload

# OPTIONAL: always reload modules so that as you change code in src, it gets loaded
%autoreload 2

from src.data import make_dataset
1 chứa các khám phá ban đầu, trong khi đó,
# OPTIONAL: Load the "autoreload" extension so that code can change
%load_ext autoreload

# OPTIONAL: always reload modules so that as you change code in src, it gets loaded
%autoreload 2

from src.data import make_dataset
2 là tác phẩm bóng bẩy hơn có thể được xuất dưới dạng html sang thư mục
# OPTIONAL: Load the "autoreload" extension so that code can change
%load_ext autoreload

# OPTIONAL: always reload modules so that as you change code in src, it gets loaded
%autoreload 2

from src.data import make_dataset

Vì sổ ghi chép là đối tượng thách thức để kiểm soát nguồn (e. g. , khác biệt của

# OPTIONAL: Load the "autoreload" extension so that code can change
%load_ext autoreload

# OPTIONAL: always reload modules so that as you change code in src, it gets loaded
%autoreload 2

from src.data import make_dataset
4 thường không thể đọc được bằng con người và việc hợp nhất gần như không thể), chúng tôi khuyên bạn không nên cộng tác trực tiếp với người khác trên sổ ghi chép Jupyter. Có hai bước chúng tôi khuyên dùng để sử dụng sổ ghi chép một cách hiệu quả

  1. Tuân theo quy ước đặt tên hiển thị chủ sở hữu và thứ tự phân tích được thực hiện trong. Chúng tôi sử dụng định dạng

    # OPTIONAL: Load the "autoreload" extension so that code can change
    %load_ext autoreload
    # OPTIONAL: always reload modules so that as you change code in src, it gets loaded
    %autoreload 2
    from src.data import make_dataset
    5 (e. g. ,
    # OPTIONAL: Load the "autoreload" extension so that code can change
    %load_ext autoreload
    # OPTIONAL: always reload modules so that as you change code in src, it gets loaded
    %autoreload 2
    from src.data import make_dataset

  2. Tái cấu trúc các phần tốt. Không viết mã để thực hiện cùng một tác vụ trong nhiều sổ ghi chép. Nếu đó là một nhiệm vụ tiền xử lý dữ liệu, hãy đưa nó vào quy trình tại

    # OPTIONAL: Load the "autoreload" extension so that code can change
    %load_ext autoreload
    # OPTIONAL: always reload modules so that as you change code in src, it gets loaded
    %autoreload 2
    from src.data import make_dataset
    7 và tải dữ liệu từ
    # OPTIONAL: Load the "autoreload" extension so that code can change
    %load_ext autoreload
    # OPTIONAL: always reload modules so that as you change code in src, it gets loaded
    %autoreload 2
    from src.data import make_dataset
    8. Nếu đó là mã tiện ích hữu ích, hãy cấu trúc lại nó thành
    ├── LICENSE
    ├── Makefile           <- Makefile with commands like `make data` or `make train`
    ├── README.md          <- The top-level README for developers using this project.
    ├── data
    │   ├── external       <- Data from third party sources.
    │   ├── interim        <- Intermediate data that has been transformed.
    │   ├── processed      <- The final, canonical data sets for modeling.
    │   └── raw            <- The original, immutable data dump.
    ├── docs               <- A default Sphinx project; see sphinx-doc.org for details
    ├── models             <- Trained and serialized models, model predictions, or model summaries
    ├── notebooks          <- Jupyter notebooks. Naming convention is a number (for ordering),
    │                         the creator's initials, and a short `-` delimited description, e.g.
    │                         `1.0-jqp-initial-data-exploration`.
    ├── references         <- Data dictionaries, manuals, and all other explanatory materials.
    ├── reports            <- Generated analysis as HTML, PDF, LaTeX, etc.
    │   └── figures        <- Generated graphics and figures to be used in reporting
    ├── requirements.txt   <- The requirements file for reproducing the analysis environment, e.g.
    │                         generated with `pip freeze > requirements.txt`
    ├── setup.py           <- Make this project pip installable with `pip install -e`
    ├── src                <- Source code for use in this project.
    │   ├── __init__.py    <- Makes src a Python module
    │   │
    │   ├── data           <- Scripts to download or generate data
    │   │   └── make_dataset.py
    │   │
    │   ├── features       <- Scripts to turn raw data into features for modeling
    │   │   └── build_features.py
    │   │
    │   ├── models         <- Scripts to train models and then use trained models to make
    │   │   │                 predictions
    │   │   ├── predict_model.py
    │   │   └── train_model.py
    │   │
    │   └── visualization  <- Scripts to create exploratory and results oriented visualizations
    │       └── visualize.py
    └── tox.ini            <- tox file with settings for running tox; see tox.readthedocs.io

Bây giờ, theo mặc định, chúng tôi biến dự án thành gói Python (xem tệp

# example .env file
0). Bạn có thể nhập mã của mình và sử dụng mã đó trong sổ ghi chép có ô như sau

# OPTIONAL: Load the "autoreload" extension so that code can change
%load_ext autoreload

# OPTIONAL: always reload modules so that as you change code in src, it gets loaded
%autoreload 2

from src.data import make_dataset

Phân tích là một DAG

Thông thường, trong một phân tích, bạn có các bước chạy dài để xử lý trước dữ liệu hoặc đào tạo mô hình. Nếu các bước này đã được chạy rồi (và bạn đã lưu đầu ra ở đâu đó như thư mục

# OPTIONAL: Load the "autoreload" extension so that code can change
%load_ext autoreload

# OPTIONAL: always reload modules so that as you change code in src, it gets loaded
%autoreload 2

from src.data import make_dataset
8), bạn không muốn phải đợi để chạy lại chúng mỗi lần. Chúng tôi thích
# example .env file
2 hơn để quản lý các bước phụ thuộc vào nhau, đặc biệt là các bước chạy dài. Make là một công cụ phổ biến trên các nền tảng dựa trên Unix (và có sẵn cho Windows). Làm theo tài liệu
# example .env file
2, và sẽ giúp đảm bảo Makefiles của bạn hoạt động hiệu quả trên các hệ thống. Dưới đây là một số ví dụ để bắt đầu. Một số người sử dụng dữ liệu
# example .env file
2 làm công cụ lựa chọn của họ, bao gồm cả Mike Bostock

Có các công cụ khác để quản lý DAG được viết bằng Python thay vì DSL (e. g. , , Luigi, Airflow, Snakemake, Ruffus hoặc Joblib). Vui lòng sử dụng chúng nếu chúng phù hợp hơn cho phân tích của bạn

Xây dựng từ môi trường lên

Bước đầu tiên trong việc tái tạo một phân tích luôn là tái tạo môi trường tính toán mà nó được chạy trong đó. Bạn cần các công cụ giống nhau, cùng thư viện và cùng phiên bản để làm cho mọi thứ hoạt động tốt với nhau

Một cách tiếp cận hiệu quả cho vấn đề này là sử dụng virtualenv (chúng tôi khuyên dùng virtualenvwrapper để quản lý virtualenv). Bằng cách liệt kê tất cả các yêu cầu của bạn trong kho lưu trữ (chúng tôi bao gồm tệp

# example .env file
5), bạn có thể dễ dàng theo dõi các gói cần thiết để tạo lại phân tích. Đây là một quy trình làm việc tốt

  1. Chạy
    # example .env file
    6 khi tạo dự án mới
  2. # example .env file
    7 các gói mà phân tích của bạn cần
  3. Chạy
    # example .env file
    8 để ghim các phiên bản gói chính xác được sử dụng để tạo lại phân tích
  4. Nếu bạn thấy mình cần cài đặt một gói khác, hãy chạy lại
    # example .env file
    8 và cam kết các thay đổi đối với kiểm soát phiên bản

Nếu bạn có các yêu cầu phức tạp hơn để tạo lại môi trường của mình, hãy xem xét phương pháp tiếp cận dựa trên máy ảo như Docker hoặc Vagrant. Cả hai công cụ này đều sử dụng các định dạng dựa trên văn bản (Dockerfile và Vagrantfile tương ứng) bạn có thể dễ dàng thêm vào kiểm soát nguồn để mô tả cách tạo một máy ảo với các yêu cầu mà bạn cần

Giữ bí mật và cấu hình ngoài kiểm soát phiên bản

Bạn thực sự không muốn rò rỉ khóa bí mật AWS hoặc tên người dùng và mật khẩu Postgres của mình trên Github. Nói đủ rồi — hãy xem các nguyên tắc của Ứng dụng Mười hai Yếu tố về điểm này. Đây là một cách để làm điều này

Lưu trữ bí mật và các biến cấu hình của bạn trong một tệp đặc biệt

Tạo tệp

# src/data/dotenv_example.py
import os
from dotenv import load_dotenv, find_dotenv

# find .env automagically by walking up directories until it's found
dotenv_path = find_dotenv()

# load up the entries as environment variables

database_url = os.environ.get("DATABASE_URL")
other_variable = os.environ.get("OTHER_VARIABLE")
0 trong thư mục gốc của dự án. Nhờ có
├── Makefile           <- Makefile with commands like `make data` or `make train`
├── README.md          <- The top-level README for developers using this project.
├── data
│   ├── external       <- Data from third party sources.
│   ├── interim        <- Intermediate data that has been transformed.
│   ├── processed      <- The final, canonical data sets for modeling.
│   └── raw            <- The original, immutable data dump.
├── docs               <- A default Sphinx project; see sphinx-doc.org for details
├── models             <- Trained and serialized models, model predictions, or model summaries
├── notebooks          <- Jupyter notebooks. Naming convention is a number (for ordering),
│                         the creator's initials, and a short `-` delimited description, e.g.
│                         `1.0-jqp-initial-data-exploration`.
├── references         <- Data dictionaries, manuals, and all other explanatory materials.
├── reports            <- Generated analysis as HTML, PDF, LaTeX, etc.
│   └── figures        <- Generated graphics and figures to be used in reporting
├── requirements.txt   <- The requirements file for reproducing the analysis environment, e.g.
│                         generated with `pip freeze > requirements.txt`
├── setup.py           <- Make this project pip installable with `pip install -e`
├── src                <- Source code for use in this project.
│   ├── __init__.py    <- Makes src a Python module
│   │
│   ├── data           <- Scripts to download or generate data
│   │   └── make_dataset.py
│   │
│   ├── features       <- Scripts to turn raw data into features for modeling
│   │   └── build_features.py
│   │
│   ├── models         <- Scripts to train models and then use trained models to make
│   │   │                 predictions
│   │   ├── predict_model.py
│   │   └── train_model.py
│   │
│   └── visualization  <- Scripts to create exploratory and results oriented visualizations
│       └── visualize.py
└── tox.ini            <- tox file with settings for running tox; see tox.readthedocs.io
7, tệp này sẽ không bao giờ được cam kết vào kho lưu trữ kiểm soát phiên bản. Đây là một ví dụ

# example .env file

Sử dụng gói để tải các biến này tự động

Nếu bạn xem tập lệnh sơ khai trong

# OPTIONAL: Load the "autoreload" extension so that code can change
%load_ext autoreload

# OPTIONAL: always reload modules so that as you change code in src, it gets loaded
%autoreload 2

from src.data import make_dataset
7, thì nó sử dụng gói có tên python-dotenv để tải lên tất cả các mục nhập trong tệp này dưới dạng biến môi trường để chúng có thể truy cập được bằng
# src/data/dotenv_example.py
import os
from dotenv import load_dotenv, find_dotenv

# find .env automagically by walking up directories until it's found
dotenv_path = find_dotenv()

# load up the entries as environment variables

database_url = os.environ.get("DATABASE_URL")
other_variable = os.environ.get("OTHER_VARIABLE")
3. Đây là một đoạn ví dụ được điều chỉnh từ tài liệu
# src/data/dotenv_example.py
import os
from dotenv import load_dotenv, find_dotenv

# find .env automagically by walking up directories until it's found
dotenv_path = find_dotenv()

# load up the entries as environment variables

database_url = os.environ.get("DATABASE_URL")
other_variable = os.environ.get("OTHER_VARIABLE")

# src/data/dotenv_example.py
import os
from dotenv import load_dotenv, find_dotenv

# find .env automagically by walking up directories until it's found
dotenv_path = find_dotenv()

# load up the entries as environment variables

database_url = os.environ.get("DATABASE_URL")
other_variable = os.environ.get("OTHER_VARIABLE")

Cấu hình AWS CLI

Khi sử dụng Amazon S3 để lưu trữ dữ liệu, một phương pháp đơn giản để quản lý quyền truy cập AWS là đặt các khóa truy cập của bạn thành các biến môi trường. Tuy nhiên, việc quản lý nhiều bộ khóa trên một máy (e. g. khi làm việc trên nhiều dự án) thì tốt nhất nên sử dụng tệp thông tin đăng nhập, thường nằm ở

# src/data/dotenv_example.py
import os
from dotenv import load_dotenv, find_dotenv

# find .env automagically by walking up directories until it's found
dotenv_path = find_dotenv()

# load up the entries as environment variables

database_url = os.environ.get("DATABASE_URL")
other_variable = os.environ.get("OTHER_VARIABLE")
5. Một tập tin điển hình có thể trông giống như



Bạn có thể thêm tên hồ sơ khi khởi tạo một dự án;

Thận trọng trong việc thay đổi cấu trúc thư mục mặc định

Để giữ cho cấu trúc này có thể áp dụng rộng rãi cho nhiều loại dự án khác nhau, chúng tôi nghĩ cách tiếp cận tốt nhất là tự do thay đổi các thư mục xung quanh dự án của bạn, nhưng hãy thận trọng trong việc thay đổi cấu trúc mặc định cho tất cả các dự án

Chúng tôi đã tạo nhãn bố cục thư mục dành riêng cho các sự cố đề xuất thêm, bớt, đổi tên hoặc di chuyển thư mục xung quanh. Tổng quát hơn, chúng tôi cũng đã tạo nhãn thảo luận về nhu cầu cho các vấn đề cần được thảo luận kỹ lưỡng và hỗ trợ rộng rãi trước khi triển khai

Đóng góp

Dự án Khoa học dữ liệu Cookiecutter có quan điểm, nhưng không sợ sai. Thực tiễn tốt nhất thay đổi, công cụ phát triển và bài học được rút ra. Mục tiêu của dự án này là làm cho việc bắt đầu, cấu trúc và chia sẻ phân tích trở nên dễ dàng hơn. Yêu cầu kéo và nộp các vấn đề được khuyến khích. Chúng tôi muốn biết những gì phù hợp với bạn và những gì không

Nếu bạn sử dụng dự án Khoa học dữ liệu Cookiecutter, hãy liên kết lại trang này hoặc gọi cho chúng tôi và cho chúng tôi biết

Cấu trúc dự án và khả năng tái sản xuất được nói đến nhiều hơn trong cộng đồng nghiên cứu R. Dưới đây là một số dự án và bài đăng trên blog nếu bạn đang làm việc trong R có thể giúp ích cho bạn

Cuối cùng, xin chân thành cảm ơn dự án Cookiecutter (github), dự án này đang giúp tất cả chúng ta dành ít thời gian hơn để suy nghĩ và viết bản mẫu và có nhiều thời gian hơn để hoàn thành công việc