Bootstrapping có tăng độ chính xác không?

Một phương pháp bootstrap để đánh giá độ chính xác và độ tin cậy của phân loại đối với việc lập bản đồ sử dụng đất nông nghiệp ở Canada

Tác giả liên kết mở bảng điều khiển lớp phủCatherineSâm panh PersonEnvelopeHeatherMcNairn1EnvelopeBahramDaneshfar2EnvelopeJialiShang3Envelope

Nội dung chính Show

Điểm nổi bật
trừu tượng
Làm việc trên một bản thảo?
Giới thiệu
Sơ bộ ước lượng ngoài mẫu
Xác thực chéo với điều chỉnh (CVT)
Giao thức xác thực chéo lồng nhau (NCV)
Giao thức Tibshirani và Tibshirani
The Bootstrap Bias Corrected Cross-Validation (BBC-CV)
Tính toán khoảng tin cậy với bootstrap
BCC-CV có lặp lại
Công việc có liên quan
Bootstrap Bias Corrected with Dropping Cross-Validation (BBCD-CV)
The BBCD-CV protocol
Công việc có liên quan
Empirical evaluation
nghiên cứu mô phỏng
tập dữ liệu thực
Discussion and conclusions
Người giới thiệu
Sự nhìn nhận
Author information
Tác giả và Chi nhánh
Đồng tác giả
Thông tin thêm
Quyền và quyền
Về bài viết này
Trích dẫn bài viết này
Bootstrapping có chính xác hơn không?
Lợi thế của số liệu thống kê bootstrapping là gì?
Bootstrapping giúp ích gì?
Bootstrapping có làm giảm Overfitting không?

Hiển thị thêm Điều hướng xuống

Chia sẻ Chia sẻ

Được trích dẫn bởi Trích dẫn

https. //doi. tổ chức/10. 1016/j. răng cưa. 2013. 12. 016Nhận quyền và nội dung

Theo giấy phép Creative Commons

truy cập mở

Điểm nổi bật

•

Một phương pháp bootstrap để định lượng độ tin cậy phân loại được thể hiện

•

Độ chính xác và độ tin cậy của phân loại có liên quan đến cỡ mẫu tham chiếu

•

Giới hạn tin cậy có thể thể hiện sự không chắc chắn trong phân loại khi độ chính xác cao

trừu tượng

Phân loại độ che phủ và sử dụng đất từ viễn thám ngày càng trở thành bộ dữ liệu khung được thể chế hóa để theo dõi biến đổi môi trường. Do đó, nhu cầu về các tuyên bố mạnh mẽ về độ chính xác của phân loại là rất quan trọng. Bài viết này mô tả một phương pháp ước tính độ tin cậy về độ chính xác của mô hình phân loại bằng cách sử dụng phương pháp bootstrap. Sử dụng phương pháp này, người ta thấy rằng độ chính xác và độ tin cậy của phân loại, mặc dù có liên quan chặt chẽ với nhau, nhưng có thể được sử dụng theo những cách bổ sung để cung cấp thông tin bổ sung về độ chính xác của bản đồ và xác định các nhóm lớp và để cung cấp thông tin cho các chiến lược lấy mẫu tham chiếu trong tương lai. Độ chính xác phân loại tổng thể tăng lên cùng với sự gia tăng số lượng trường được khảo sát, trong đó độ rộng của giới hạn độ tin cậy phân loại giảm. Độ chính xác và độ tin cậy của từng lớp có liên quan phi tuyến tính với số lượng trường được khảo sát. Kết quả chỉ ra rằng một số lớp có thể được ước tính chính xác và đáng tin cậy với số lượng mẫu ít hơn, trong khi những lớp khác yêu cầu bộ dữ liệu tham chiếu lớn hơn để đạt được kết quả khả quan. Cách tiếp cận này là một cải tiến so với các phương pháp khác để ước tính độ chính xác và độ tin cậy của lớp vì nó sử dụng lấy mẫu lặp đi lặp lại để tạo ra ước tính thực tế hơn về phạm vi độ chính xác và độ tin cậy của phân loại có thể thu được với các đầu vào dữ liệu tham chiếu khác nhau

Xác thực chéo (CV) và các giao thức ước tính hiệu suất ngoài mẫu nói chung, thường được sử dụng cho cả hai mục đích (a) chọn kết hợp tối ưu giữa thuật toán và giá trị của siêu tham số (được gọi là cấu hình) để tạo dự đoán cuối cùng . Tuy nhiên, hiệu suất được xác thực chéo của cấu hình tốt nhất bị sai lệch lạc quan. Chúng tôi trình bày một phương pháp bootstrap hiệu quả để sửa sai lệch, được gọi là Bootstrap Bias Corrected CV (BBC-CV). Ý tưởng chính của BBC-CV là khởi động toàn bộ quá trình chọn cấu hình hoạt động tốt nhất dựa trên các dự đoán ngoài mẫu của từng cấu hình mà không cần đào tạo thêm các mô hình. So với các giải pháp thay thế, cụ thể là xác thực chéo lồng nhau (Varma và Simon trong BMC Bioinform 7(1). 91, 2006) và một phương pháp của Tibshirani và Tibshirani (Ann Appl Stat 822–829, 2009), BBC-CV hiệu quả hơn về mặt tính toán, có phương sai và độ lệch nhỏ hơn, đồng thời có thể áp dụng cho bất kỳ thước đo hiệu suất nào (độ chính xác, AUC, sự phù hợp . Sau đó, chúng tôi sử dụng lại ý tưởng khởi động lại các dự đoán ngoài mẫu để tăng tốc quá trình CV. Cụ thể, bằng cách sử dụng tiêu chí thống kê dựa trên bootstrap, chúng tôi ngừng đào tạo các mô hình trên các nếp gấp mới có cấu hình kém hơn (với xác suất cao). Chúng tôi đặt tên cho phương pháp Bootstrap Bias Corrected with Dropping CV (BBCD-CV) vừa hiệu quả vừa cung cấp ước tính hiệu suất chính xác

Làm việc trên một bản thảo?

Tránh những sai lầm phổ biến nhất và chuẩn bị bản thảo của bạn cho các biên tập viên tạp chí

Tìm hiểu thêm

Giới thiệu

Thông thường, các mục tiêu của nhiệm vụ lập mô hình dự đoán học máy có hai mặt. để trả về một mô hình dự đoán có hiệu suất cao để sử dụng trong vận hành và ước tính hiệu suất của mô hình đó. Quá trình này thường bao gồm các bước sau. (a) Điều chỉnh, trong đó các tổ hợp thuật toán khác nhau và các giá trị siêu tham số của chúng (được gọi là cấu hình) được thử tạo ra một số mô hình, hiệu suất của chúng được ước tính và cấu hình tốt nhất được xác định, (b) Sản xuất mô hình cuối cùng được đào tạo trên tất cả các mô hình có sẵn

Trước tiên, tập trung vào điều chỉnh, chúng tôi lưu ý rằng một cấu hình có thể liên quan đến việc kết hợp một số thuật toán cho từng bước của quy trình học, chẳng hạn như. tiền xử lý, chuyển đổi các biến, quy nạp các giá trị còn thiếu, lựa chọn tính năng và lập mô hình. Ngoại trừ những trường hợp hiếm hoi, mỗi thuật toán này chấp nhận một số siêu tham số điều chỉnh hành vi của nó. Thông thường, các siêu tham số này ảnh hưởng đến độ nhạy của các thuật toán đối với việc phát hiện các mẫu, sự đánh đổi sai lệch-phương sai, sự đánh đổi giữa độ phức tạp của mô hình và sự phù hợp của dữ liệu hoặc có thể đánh đổi độ phức tạp tính toán để đạt được mức độ phù hợp tối ưu. Các ví dụ bao gồm số lượng tính năng tối đa để chọn trong thuật toán lựa chọn tính năng hoặc loại hạt nhân sẽ sử dụng trong Học tập quy trình Gaussian và Máy vectơ hỗ trợ

Có một số chiến lược hướng dẫn thứ tự thử các cấu hình khác nhau, từ những chiến lược tinh vi như Tối ưu hóa Bayes tuần tự (Snoek et al. 2012; . 2010) để tìm kiếm dạng lưới đơn giản trong không gian của các giá trị siêu tham số. Tuy nhiên, không phụ thuộc vào thứ tự sản xuất các cấu hình, nhà phân tích cần ước tính hiệu suất của mô hình trung bình do mỗi cấu hình tạo ra trong nhiệm vụ nhất định và chọn ra mô hình tốt nhất.

Các phương pháp ước tính được hầu hết các nhà phân tích lựa chọn là các giao thức ước tính ngoài mẫu, trong đó một phần của các trường hợp đào tạo dữ liệu bị ẩn khỏi thuật toán đào tạo để phục vụ như một bộ kiểm tra độc lập. Hiệu suất của một số mô hình xuất phát từ các cấu hình khác nhau được thử trên bộ thử nghiệm, còn được gọi là bộ giữ lại, để chọn ra một bộ hoạt động tốt nhất. Quy trình này được gọi là giao thức Giữ lại. Chúng tôi sẽ đề cập đến một bộ kiểm tra như một bộ điều chỉnh để nhấn mạnh thực tế rằng nó được sử dụng lặp đi lặp lại bởi tất cả các cấu hình nhằm mục đích điều chỉnh các thuật toán và các giá trị siêu tham số của quy trình học tập. Chúng tôi lưu ý rằng mặc dù tồn tại các phương pháp không sử dụng ước lượng ngoài mẫu, chẳng hạn như sử dụng Tiêu chí thông tin Akaike (AIC) (Akaike 1974) của các mô hình, Tiêu chí thông tin Bayes (BIC) (Schwarz 1978) và các phương pháp khác

Quá trình giữ lại một bộ điều chỉnh có thể được lặp lại nhiều lần dẫn đến một số biến thể của giao thức phân tích. Cách đơn giản nhất là liên tục giữ lại các bộ điều chỉnh khác nhau, được chọn ngẫu nhiên và chọn một bộ có hiệu suất trung bình tốt nhất trong tất cả các bộ điều chỉnh. Giao thức này được gọi là Giữ lại lặp đi lặp lại

Tuy nhiên, có thể cho rằng, giao thức phổ biến nhất để ước tính hiệu suất cho các cỡ mẫu tương đối thấp là Xác thực chéo K-fold hoặc đơn giản là Xác thực chéo (CV). Trong CV, các phiên bản đào tạo dữ liệu được phân chia thành K tập hợp con có kích thước xấp xỉ bằng nhau, mỗi tập hợp con đóng vai trò là tập hợp điều chỉnh và các tập hợp còn lại là tập hợp đào tạo. Hiệu suất của từng cấu hình được tính trung bình trên tất cả các lần điều chỉnh. Sự khác biệt với Giữ lại lặp lại là quy trình được lặp lại chính xác K lần và các bộ điều chỉnh được thực thi để không chồng chéo trong các mẫu (còn được gọi là phiên bản, ví dụ hoặc bản ghi). Quá trình này có thể được lặp lại với các phân vùng khác nhau của dữ liệu thành các nếp gấp dẫn đến CV lặp lại

Một lưu ý cuối cùng về điều chỉnh liên quan đến tên của nó. Trong thống kê, thuật ngữ lựa chọn mô hình được ưu tiên cho các mục đích tương tự. Lý do là một thực tế phổ biến trong phân tích thống kê là tạo ra một số mô hình sử dụng các cấu hình khác nhau trên tất cả các dữ liệu có sẵn, kiểm tra thủ công sự phù hợp, bậc tự do, phần dư, AIC và các số liệu khác của chúng và sau đó đưa ra lựa chọn sáng suốt (nhưng thủ công) . Ngược lại, theo kinh nghiệm của chúng tôi, các nhà phân tích máy học ước tính hiệu suất của từng cấu hình và chọn cấu hình tốt nhất để sử dụng trên tất cả dữ liệu, thay vì chọn mô hình tốt nhất. Vì vậy, theo chúng tôi, thuật ngữ điều chỉnh phù hợp hơn so với lựa chọn mô hình cho cách tiếp cận sau

Bây giờ xem xét việc sản xuất mô hình cuối cùng để triển khai hoạt động, lựa chọn hợp lý nhất được cho là đào tạo một mô hình duy nhất bằng cách sử dụng cấu hình tốt nhất được tìm thấy trên tất cả các dữ liệu có sẵn. Lưu ý rằng mỗi cấu hình có thể đã tạo ra một số mô hình trong CV hoặc Giữ lại lặp lại cho mục đích điều chỉnh, mỗi lần sử dụng một tập hợp con dữ liệu để đào tạo. Tuy nhiên, giả sử rằng—trung bình—một cấu hình tạo ra các mô hình dự đoán tốt hơn khi được đào tạo với cỡ mẫu lớn hơn (i. e. , đường cong học tập của nó được cải thiện một cách đơn điệu) thật hợp lý khi sử dụng tất cả dữ liệu để đào tạo mô hình cuối cùng và không lãng phí bất kỳ ví dụ đào tạo (mẫu) nào để điều chỉnh hoặc ước tính hiệu suất. Có thể có những trường hợp ngoại lệ về thuật toán học không tuân theo giả định này (xem Krueger et al. 2015 cho một cuộc thảo luận) nhưng nó phần lớn được chấp nhận và đúng với hầu hết các thuật toán mô hình dự đoán

Bước thứ ba là tính toán và trả về ước tính hiệu suất của mô hình cuối cùng. Hiệu suất được xác thực chéo của cấu hình tốt nhất (ước tính trên bộ điều chỉnh) là ước tính sai lệch lạc quan về hiệu suất của mô hình cuối cùng. Vì vậy, nó không nên được báo cáo là ước tính hiệu suất. Đặc biệt đối với các cỡ mẫu nhỏ (dưới vài trăm) như các cỡ mẫu điển hình trong sinh học phân tử và các ngành khoa học đời sống khác, và khi nhiều cấu hình được thử, sự lạc quan có thể là đáng kể

Vấn đề chính của việc sử dụng ước tính được cung cấp trên các bộ điều chỉnh là các bộ này đã được sử dụng lặp đi lặp lại bởi tất cả các cấu hình, trong đó các nhà phân tích đã chọn ra cấu hình tốt nhất. Như vậy, hiện tượng thống kê tương đương xảy ra như trong kiểm định nhiều giả thuyết. Bài toán được đặt tên là phép so sánh nhiều lần trong các bài toán quy nạp và lần đầu tiên được báo cáo trong tài liệu học máy bởi Jensen và Cohen (2000). Một bằng chứng toán học đơn giản về sự thiên vị như sau. Đặt $\mu _i$ là hiệu suất trung bình thực (tổn thất) của các mô hình do cấu hình i tạo ra khi được huấn luyện trên dữ liệu có kích thước $|D_ train |$ từ phân phối dữ liệu nhất định, trong đó $. D_ xe lửa. $ là kích thước của tập huấn luyện. Ước tính mẫu của $\mu _i$ trên bộ điều chỉnh là $m_i$, and so we expect that $\mu _i = E(m_i)$ for estimations that are unbiased. Returning the estimate of the configuration with the smallest loss returns $\min \{m_1, \ldots , m_n\}$ , trong đó n là . Trung bình, ước tính về cấu hình tốt nhất trên bộ điều chỉnh là $E(\min \{m_1, \ldots , m_n\})$ while the estimate of the true best is $\min \{\mu _1, \ldots , \mu _n\} = \min \{E(m_1), \ldots , E(m_n)\}$. The optimism (bias) is \( Bias = \min \{E(m_1), \ldots , E(m_n)\} - E(\min \{m_1, \ldots , m_n . Đối với các số liệu như độ chính xác của phân loại và Diện tích dưới Đường cong Đặc tính Hoạt động của Máy thu (AUC) (Fawcett 2006), càng cao càng tốt, giá trị tối thiểu được thay thế bằng giá trị tối đa và sự bất bình đẳng được đảo ngược. by Jensen’s inequality (1906). For metrics such as classification accuracy and Area Under the Receiver’s Operating Characteristic Curve (AUC) (Fawcett 2006), where higher is better, the min is substituted with max and the inequality is reversed.

Xu hướng xác thực chéo khi thử nhiều cấu hình đã được khám phá theo kinh nghiệm trong Tsamardinos et al. (2015) trên bộ dữ liệu thực. Đối với các mẫu nhỏ (< 100), độ lệch AUC thường nằm trong khoảng từ 5 đến 10%. Độ lệch phụ thuộc vào một số yếu tố, chẳng hạn như (a) số lượng cấu hình đã thử, (b) mối tương quan giữa hiệu suất của các mô hình được đào tạo bởi từng cấu hình, (c) kích thước mẫu và (d) sự khác biệt giữa hiệu suất của . Các công trình trước đây (Varma và Simon 2006; Boulesteix và Strobl 2009; Yousefi et al. 2011) cũng đã điều tra và xác định độ chệch của CV khi điều chỉnh cả trên dữ liệu thực và dữ liệu mô phỏng.

Để tránh sai lệch này, quy trình đơn giản nhất là giữ lại một tập hợp thứ hai, chưa được làm mờ, được sử dụng riêng cho mục đích ước tính trên một mô hình duy nhất. Tất nhiên, mô hình duy nhất này là mô hình được sản xuất với cấu hình tốt nhất được tìm thấy trên các bộ điều chỉnh. Cách tiếp cận này đã được ủng hộ đặc biệt trong tài liệu về Mạng nơ-ron nhân tạo vì hiệu suất của mạng hiện tại được ước tính trên một bộ xác thực (tương đương với một bộ điều chỉnh) như một tiêu chí dừng đào tạo (cập nhật trọng số). Do đó, bộ xác thực được sử dụng lặp đi lặp lại trên các mạng (mô hình) khác nhau, mặc dù chỉ khác một chút bởi các cập nhật trọng số của một kỷ nguyên. Đối với ước tính hiệu suất cuối cùng, một bộ thử nghiệm độc lập, riêng biệt được sử dụng. Do đó, về bản chất, dữ liệu được phân vùng thành các tập con ước tính điều chỉnh đào tạo. bộ điều chỉnh được sử dụng nhiều lần để điều chỉnh cấu hình; . Tổng quát hóa giao thức này để tất cả các nếp gấp đóng vai trò là tập hợp con điều chỉnh và ước tính và hiệu suất được tính trung bình trên tất cả các tập hợp con dẫn đến giao thức Xác thực chéo lồng nhau (NCV) (Varma và Simon 2006). Vấn đề với NCV là nó yêu cầu các mô hình $O(K^2\cdot C)$ được đào tạo, trong đó K là số lần gấp .

Đóng góp chính của bài báo này là ý tưởng rằng người ta có thể khởi động các dự đoán gộp của tất cả các cấu hình trên tất cả các bộ điều chỉnh (dự đoán ngoài mẫu) để đạt được một số mục tiêu. Mục tiêu đầu tiên là ước tính tổn thất của cấu hình tốt nhất (i. e. , hãy xóa $ bias $ của việc xác thực chéo nhiều cấu hình) mà không cần đào tạo các mô hình bổ sung. Cụ thể, các dự đoán (ngoài mẫu) của tất cả các cấu hình được khởi động, tôi. e. , được chọn với sự thay thế, dẫn đến một ma trận dự đoán. Cấu hình có tổn thất tối thiểu trên dữ liệu được khởi động được chọn và tổn thất của nó được tính toán trên các mẫu bên ngoài (không được chọn bởi bootstrap). Quy trình này được lặp lại trong vài trăm lần khởi động và tỷ lệ mất trung bình của cấu hình tốt nhất đã chọn trên các mẫu bên ngoài được trả về. Về cơ bản, quy trình trên khởi động chiến lược chọn cấu hình tốt nhất và tính toán tổn thất trung bình của nó trên các mẫu không được chọn bởi bootstrap.

Bootstrapping có chi phí tính toán tương đối thấp và được song song hóa tầm thường. Chi phí tính toán cho mỗi lần lặp bootstrap tương đương với việc lấy mẫu lại các chỉ mục dự đoán mẫu, tính toán tổn thất trên các dự đoán bootstrap cho mỗi cấu hình và chọn giá trị tối thiểu. Chúng tôi gọi phương pháp này là Bootstrap Bias Corrected CV (BBC-CV). BBC-CV được so sánh theo kinh nghiệm với NCV, tiêu chuẩn để tránh sai lệch và một phương pháp của Tibshirani và Tibshirani (2009) (TT từ đây) giải quyết chi phí tính toán lớn của NCV. BBC-CV được hiển thị để thể hiện ước tính chính xác hơn về $ Bias $ so với TT và tương tự như của NCV, trong khi nó không cần đào tạo . Bootstrapping các dự đoán ngoài mẫu cũng có thể được sử dụng một cách tầm thường để tính khoảng tin cậy cho ước tính hiệu suất ngoài ước tính điểm. Trong các thử nghiệm trên dữ liệu thực, chúng tôi cho thấy rằng khoảng tin cậy là chính xác mặc dù hơi thận trọng (i. e. có phạm vi bảo hiểm cao hơn mong đợi).

Công dụng chính thứ hai của việc khởi động các dự đoán ngoài mẫu là tạo ra một thử nghiệm giả thuyết cho giả thuyết rằng một cấu hình thể hiện hiệu suất tương đương với cấu hình tốt nhất hiện tại. Thử nghiệm được sử dụng trong mọi nếp gấp mới phục vụ cho việc điều chỉnh trong CV. Khi giả thuyết có thể bị bác bỏ dựa trên các dự đoán về một số nếp gấp giới hạn, cấu hình sẽ bị loại bỏ hoặc loại bỏ khỏi việc xem xét thêm và không có mô hình bổ sung nào được đào tạo trên các nếp gấp còn lại. Chúng tôi kết hợp ý tưởng loại bỏ cấu hình với phương pháp BBC-CV để hiệu chỉnh sai lệch và nhận được Bootstrap Bias Corrected with Dropping CV (BBCD-CV). BBCD-CV mang lại lợi ích tính toán đáng kể, thường đạt tốc độ tăng từ 2-5 (trong một số trường hợp đạt đến mức tối đa theo lý thuyết bằng với số lần gấp, trong trường hợp này là 10) so với BBC-CV, đồng thời cung cấp các ước tính chính xác về . Cuối cùng, chúng tôi kiểm tra vai trò của việc lặp lại quy trình với các phân vùng khác nhau thành nếp gấp (BBC-CV lặp lại) và cho thấy rằng nhiều lần lặp lại cải thiện việc lựa chọn cấu hình tốt nhất (điều chỉnh) và dẫn đến các mô hình hoạt động tốt hơn. Ngoài ra, đối với cùng số lượng mô hình được đào tạo, BBC-CV được lặp lại dẫn đến các mô hình hoạt động tốt hơn NCV trong khi có độ lệch tương tự trong ước tính hiệu suất của chúng. Những kết quả này chứng thực một nhóm công việc đang phát triển về lợi ích của việc lặp lại phân tích với nhiều phân vùng gấp. Krstajic và cộng sự. (2014) và gần đây hơn, Seibold et al. (2017) cũng đã chỉ ra rằng việc lặp lại quy trình xác thực chéo làm giảm tính biến thiên trong quá trình điều chỉnh và tạo ra kết quả mạnh mẽ hơn về hiệu suất của mô hình cuối cùng. Đặc biệt, công việc thứ hai cũng kiểm tra tác động của việc lặp lại CV đối với việc lựa chọn các tính năng

Phần còn lại của bài viết này được cấu trúc như sau. Côn trùng. 2 chúng tôi trình bày và thảo luận về các giao thức được thiết lập rộng rãi để điều chỉnh và ước tính hiệu suất ngoài mẫu. Côn trùng. 3. 3 we discuss additional related work. Chúng tôi giới thiệu các phương pháp BBC-CV và BBCD-CV của chúng tôi trong Giáo phái. 3 và 4, tương ứng và đánh giá chúng theo kinh nghiệm trên các cài đặt tổng hợp và thực tế trong Giáo phái. 5. Chúng tôi kết thúc bài báo trong Phần. 6

Sơ bộ ước lượng ngoài mẫu

Trong phần này, chúng tôi trình bày những điều cơ bản về ước lượng ngoài mẫu về hiệu suất của phương pháp học f và giới thiệu ký hiệu được sử dụng trong phần còn lại của bài viết. Chúng tôi giả sử phương pháp học là một hàm chấp nhận đầu vào là tập dữ liệu $D = \{\langle x_j, y_j\rangle \}_{j=1}^N$ of pairs of training vectors x and their corresponding labels y and returns another function M(x) (a predictive model), so that $f(D) = M$. We can also think of D as a 2D matrix with the rows containing the examples, and the columns corresponding to features (a.k.a. variables, attributes, measured/observed quantities). It is convenient to employ the Matlab index notation on matrices to denote with D( : , j) the j-th column of D and D(i, : ) the i-th row of D; similarly D(I, j) is the vector of values in the j-th column from rows with indexes in vector I.

Chúng tôi cũng quá tải ký hiệu và sử dụng f(x, D) để biểu thị đầu ra (dự đoán) của mô hình M do f đào tạo trên tập dữ liệu D khi được cung cấp làm đầu vào một hoặc nhiều mẫu x. Chúng tôi biểu thị sự mất mát (số liệu lỗi) giữa giá trị y của nhãn và dự đoán tương ứng $\hat{y}$ là $l(y, \hat{y})$. For convenience, we can also define the loss between a vector of labels y and a vector of predictions $\hat{y}$ làm vectơ .

$$\begin{aligned}{}[l(y, \hat{y})]_j = l(y_j, \hat{y_j}) \end{aligned}$$

Hàm mất mát có thể là mất mát 0-1 để phân loại (i. e, một khi nhãn và dự đoán bằng nhau và bằng 0 nếu không), lỗi bình phương $(y-\hat{y})^2$ for regression or any other metric. Some metrics of performance such as the AUC or the Concordance Index for survival analysis problems (Harrell et al. 1982) cannot be expressed using a loss function defined on single pairs $\langle y, \hat{y}\rangle $ . Các chỉ số này chỉ có thể được tính toán trên một tập hợp thử nghiệm chứa ít nhất 2 dự đoán và do đó, $l(y, \hat{y}$ ) . $\hat{y}$ are vectors for such metrics.

Giao thức Xác thực chéo K-fold (CV) được cho là giao thức ước tính hiệu suất ngoài mẫu phổ biến nhất cho các cỡ mẫu tương đối nhỏ. Nó được hiển thị trong Thuật toán 1. Giao thức chấp nhận phương pháp học f, tập dữ liệu D đã được phân vùng thành K lần F. Mô hình trả về được tính toán bằng cách áp dụng phương pháp học f trên tất cả dữ liệu có sẵn. Để ước tính hiệu suất của mô hình này, CV lần lượt sử dụng từng nếp gấp $F_i$ làm bộ ước tính và huấn luyện mô hình $M_i$ on the remaining data (in the algorithm denoted as $D_{\setminus i}$) using f, i.e., $M_i = f(D_{\setminus i})$ . Sau đó, tính năng này sẽ tính toán việc mất $M_i$ khi giữ nếp gấp $F_i$< . Ước tính hiệu suất cuối cùng là tổn thất trung bình trên tất cả các lần. Mã giả trong Thuật toán 1 như đã trình bày, cũng thu thập và trả về tất cả các dự đoán ngoài mẫu trong một vectơ . The final performance estimate is the average loss over all folds. The pseudo-code in Algorithm 1 as presented, also collects and returns all out-of-sample predictions in a vector $\varPi $ . Điều này tạo thuận lợi cho việc trình bày một số phương pháp hiệu chỉnh sai lệch dưới đây, những người phụ thuộc vào chúng. Trong trường hợp không áp dụng hiệu chỉnh sai lệch sau đó, $\varPi $ có thể được bỏ qua khỏi các đối số đầu ra.

CV đơn giản và phổ biến như vậy nhưng vẫn có một số quan niệm sai lầm về cách sử dụng nó. Đầu tiên, giao thức trả về f(D) đã học được từ tập dữ liệu đầy đủ D, nhưng tổn thất được tính trên các mô hình khác nhau, cụ thể là các mô hình được đào tạo với các tập hợp con của dữ liệu. Vì vậy, CV không ước tính được sự mất mát của mô hình trả về cụ thể. Chúng tôi lập luận rằng xác thực chéo ước tính tổn thất trung bình của các mô hình do f tạo ra khi được đào tạo trên các bộ dữ liệu có kích thước $. D_{\setminus i}. $ về phân phối của D. Điểm khái niệm chính là không phải mô hình được trả về đang được xác thực chéo, mà là phương pháp học tập f. Các nhà phân tích không phải là chuyên gia (và đặc biệt là sinh viên) thường tự hỏi mô hình nào trong số K mô hình được tạo ra bằng cách xác thực chéo loại trừ lần lượt từng lần sẽ được trả lại. Câu trả lời là không; .

Một giả định chính điển hình là các mô hình $f's$ cải thiện bất kỳ nhiệm vụ cụ thể nào với kích thước mẫu tăng lên. Đây là một giả định hợp lý để thực hiện, mặc dù không phải lúc nào cũng đúng. If it does hold, then we expect that the returned loss estimate L of CV to be conservative, i. e. , on average higher than the average loss of the returned model. This is because the final model f is trained on . D. mẫu trong khi các ước tính được tạo ra bởi các mô hình được đào tạo trên ít mẫu có quy mô hơn $. D_{\backslash i}. $ . Chính xác mức độ thận trọng của nó sẽ phụ thuộc vào vị trí bộ phân loại đang hoạt động trên đường cong học tập của nó đối với nhiệm vụ cụ thể này, điều này chưa được biết trước. Nó cũng phụ thuộc vào số lần K. K càng lớn thì $(K-1)/K$ càng tiến gần đến 100% và độ lệch biến mất. When sample sizes are small or distributions are imbalanced (i. e. , một số lớp khá hiếm trong dữ liệu), chúng tôi hy vọng hầu hết các bộ phân loại sẽ nhanh chóng được hưởng lợi từ việc tăng kích thước mẫu và do đó, để CV trở nên thận trọng hơn.

Dựa trên những điều trên, người ta hy vọng rằng CV loại bỏ một lần (trong đó kích thước của mỗi nếp gấp là 1 mẫu) sẽ ít sai lệch nhất. Tuy nhiên, có bằng chứng cho thấy tồn tại những tình huống không nên sử dụng sơ yếu lý lịch loại bỏ một lần. Đầu tiên, loại bỏ một lần đã được chứng minh là có phương sai ước tính lớn (Braga-Neto và Dougherty 2004). Thứ hai, giao thức có thể sụp đổ trong một số tình huống theo nghĩa là nó có thể đưa ra các ước tính cực kỳ sai lệch trong các tình huống suy biến (xem Witten et al. 2016, tr. 151; . quy tắc bootstrap 632). Cụ thể, hãy xem xét trường hợp có chính xác 50 và 50 ví dụ tích cực và tiêu cực trong tập dữ liệu, tương ứng và trình phân loại được sử dụng chỉ chiếm đa số phiếu bầu. Trong CV loại bỏ một lần, dữ liệu đào tạo luôn bỏ phiếu (dự đoán) cho loại đối diện của phiên bản loại bỏ và ước tính hiệu suất là 0%, thay vì 50%. Vấn đề này bắt nguồn từ thực tế là các nếp gấp có thể tuân theo một phân phối khá khác so với phân phối của lớp trong tập dữ liệu gốc. khi chỉ còn lại một ví dụ, phân phối của một lớp trong màn hình đầu tiên là 100 và 0% cho tất cả các lớp khác. Thay vào đó, chúng tôi khuyên chỉ nên sử dụng K càng lớn càng tốt để vẫn cho phép phân phối các lớp trong mỗi nếp gấp gần giống như trong tập dữ liệu gốc và áp đặt hạn chế này khi phân vùng thành các nếp gấp. Hạn chế thứ hai dẫn đến cái được gọi là CV phân tầng và có bằng chứng cho thấy phân tầng dẫn đến ước tính hiệu suất được cải thiện (Tsamardinos et al. 2015)

Xác thực chéo với điều chỉnh (CVT)

A typical data analysis involves several algorithms to be combined, e. g. , để chuyển đổi dữ liệu, đưa ra các giá trị còn thiếu, lựa chọn biến hoặc giảm kích thước và lập mô hình. Có hàng trăm lựa chọn thuật toán trong tài liệu cho từng loại thuật toán. Ngoài ra, mỗi thuật toán thường lấy một số giá trị siêu tham số mà người dùng sẽ điều chỉnh. Chúng tôi giả định rằng phương pháp học f(D) được tăng cường cho $f(D, \theta )$ để lấy đầu vào là một vectơ $\theta $ that determines which combination of algorithms to run and with what values of hyper-parameters. We call $\theta $ là cấu hình và đề cập đến quá trình chọn cấu hình tốt nhất \(\theta . as tuning of the learning pipeline.

Quy trình điều chỉnh đơn giản nhất là xác thực chéo f bằng một cấu hình khác $\theta $ mỗi lần trong một tập hợp định trước . Quy trình này được hiển thị trong Thuật toán 2. In the pseudo-code, we compute $\varTheta $, choose the best performing configuration $\theta ^\star $ and then train a final model on all data with $\theta ^\star $. The procedure is shown in Algorithm 2. In the pseudo-code, we compute $f_i$ as the closure of f Footnote 1 when the configuration input parameter is grounded to the specific values in $\theta _i$ . Ví dụ: nếu cấu hình $\theta _i$ là sự kết hợp của thuật toán lựa chọn tính năng g và thuật toán lập mô hình h với các giá trị siêu tham số tương ứng của chúng . e. , một hàm $f_i = h(g(\cdot ,a),b)$, i.e., a function $f_i$ lần đầu tiên áp dụng lựa chọn tính năng được chỉ định g bằng siêu tham số a và sử dụng kết quả để huấn luyện một mô hình bằng cách sử dụng h với . Việc sử dụng các bao đóng dẫn đến việc triển khai mã giả nhỏ gọn của phương thức.

Bây giờ chúng tôi tập hợp hai quan sát đã được ghi nhận ở trên. ước tính hiệu suất $L_{CVT}$ của cấu hình chiến thắng có xu hướng thận trọng vì nó được tính toán bởi các mô hình chỉ được đào tạo trên một tập hợp con của . Xu hướng nào trong hai xu hướng sẽ chiếm ưu thế phụ thuộc vào tình hình và là một ẩn số tiên nghiệm. Đối với K lớn và một số lượng lớn cấu hình đã thử, các tập huấn luyện gần như lớn bằng toàn bộ tập dữ liệu và xu hướng lạc quan chiếm ưu thế. Nói chung, đối với kích thước mẫu nhỏ và số lượng lớn cấu hình đã thử $L_{CVT}$ là lạc quan và không nên được báo cáo là hiệu suất .

Giao thức xác thực chéo lồng nhau (NCV)

Do xu hướng lạc quan tiềm năng của CV khi điều chỉnh diễn ra, các giao thức khác đã được phát triển, chẳng hạn như Xác thực chéo lồng nhau (NCV). Chúng tôi không thể theo dõi ai là người đầu tiên giới thiệu hoặc đặt ra cái tên xác thực chéo lồng nhau nhưng các tác giả và đồng nghiệp đã độc lập phát hiện và sử dụng nó từ năm 2005 (Statnikov và cộng sự. 2005); . Một phương pháp tương tự trong phân tích tin sinh học đã được sử dụng vào năm 2003 (Iizuka et al. 2003). Một nhận xét ban đầu gợi ý về phương pháp này là trong Salzberg (1997), trong khi Witten và Frank (2005, p. 286) thảo luận ngắn gọn về nhu cầu xử lý bất kỳ bước điều chỉnh tham số nào như một phần của quy trình đào tạo khi đánh giá hiệu suất. Thật thú vị khi lưu ý rằng các công trình trước đó về NCV xuất hiện đầu tiên trong tin sinh học, nơi kích thước mẫu của bộ dữ liệu thường khá thấp và tác động của sai lệch do điều chỉnh và thử nhiều cấu hình là rất lớn.

Ý tưởng về NCV được phát triển như sau. Vì các bộ điều chỉnh đã được sử dụng lặp đi lặp lại để chọn cấu hình tốt nhất, nên người ta cần một bộ giữ lại thứ hai dành riêng cho việc ước tính một mô hình cuối cùng duy nhất. Tuy nhiên, người ta có thể lặp lại quy trình với một số lần gấp và tính trung bình các ước tính. Nói cách khác, mỗi lần được giữ lại cho mục đích ước tính và CVT diễn ra cho các lần còn lại để chọn cấu hình tốt nhất và đào tạo trên tất cả dữ liệu còn lại với cấu hình tốt nhất này để trả về một mô hình duy nhất. Do đó, trong NCV, mỗi nếp gấp phục vụ một lần để ước tính và nhiều lần dưới dạng bộ điều chỉnh. Theo quan điểm này, NCV là sự tổng quát hóa của giao thức tạm giữ kép phân vùng dữ liệu thành ước tính điều chỉnh đào tạo

Một cách khác để xem NCV là coi việc điều chỉnh là một phần của quá trình học tập. Kết quả là một hàm học mới $f'$ trả về một mô hình duy nhất, mặc dù bên trong nó đang sử dụng CV để chọn cấu hình tốt nhất cho . NCV chỉ cần xác thực chéo $f'$ . Chức năng mới này là gì $f'$ sử dụng CV để điều chỉnh và trả về một mô hình duy nhất? . Đương nhiên, bất kỳ phương thức nào thực hiện tối ưu hóa siêu tham số và trả về một mô hình duy nhất đều có thể được sử dụng thay cho CVT dưới dạng $\varTheta $. Naturally, any method that performs hyper-parameter optimization and returns a single model can be used instead of CVT as $f'$ . Mã giả trong Thuật toán 3 mô tả rõ ràng thực tế này và triển khai NCV về cơ bản trong hai dòng mã bằng cách sử dụng cơ chế đóng.

Đếm số lượng mô hình được tạo bởi NCV, chúng ta hãy biểu thị bằng $C =. \varTheta. $ the number of configurations to try. Để tạo ra mô hình cuối cùng, NCV sẽ chạy CVT trên tất cả dữ liệu. Thao tác này sẽ tạo $K\times C$ mô hình để điều chỉnh và sau khi chọn được cấu hình tốt nhất, một mô hình khác sẽ được tạo ra dẫn đến $K\times C + 1$ models for final model production. To produce the estimate, the whole process is cross-validated each time excluding one fold, thus leaving $K-1$ các lần cho dấu chéo bên trong . Nhìn chung, điều này dẫn đến $f'$). Overall, this leads to $K \times ((K-1)\times C + 1)$ các mô hình được đào tạo để ước tính. Tổng số chính xác là các mô hình $K^2\times C + K + 1$ , tất nhiên là tốn kém về mặt tính toán vì nó phụ thuộc bậc hai vào .

Giao thức Tibshirani và Tibshirani

Để giảm chi phí tính toán của NCV, Tibshirani và Tibshirani (2009) đã giới thiệu một phương pháp mới để ước tính và hiệu chỉnh độ lệch của CVT mà không cần đào tạo các mô hình bổ sung. Chúng tôi gọi phương pháp này là TT và đây là công trình đầu tiên thuộc loại này, truyền cảm hứng cho công việc này

Ý tưởng chính của phương pháp TT là xem xét, theo một nghĩa nào đó, mỗi lần gấp một tập dữ liệu khác nhau và đóng vai trò là một ví dụ độc lập để ước tính mức độ lạc quan của quá trình chọn cấu hình tốt nhất trong số nhiều. Nó so sánh sự mất mát của cấu hình được chọn cuối cùng với cấu hình được chọn trong một màn hình nhất định như một ước tính về độ lệch của quá trình lựa chọn. Đặt $I_k$ biểu thị chỉ mục của các mẫu (hàng) của nếp gấp thứ k $ . Hơn nữa, đặt j biểu thị chỉ mục của cấu hình hoạt động tốt nhất (cột . Furthermore, let j denote the index of the best performing configuration (column of \(\varPi $ ), như được tính bởi CVT. Độ lệch $ TTBias $ ước tính bằng phương pháp TT được tính như sau.

$$\begin{aligned} TTBias = \frac{1}{K} \sum _{k=1}^{K} (l(y(I_k), \varPi (I_k,j)) - \min _i l

Lưu ý rằng, giá trị trung bình của các số hạng đầu tiên $l(y(I_k), \varPi (I_k,j))$ in the sum is the average loss of the best configuration computed by CVT, $L_{CVT}$. Thus, $ TTBias $ có thể được viết lại thành.

$$\begin{aligned} TTBias = L_{CVT} - \frac{1}{K} \sum _{k=1}^{K} \min _i l(y(I_k), \varPi (I_k,i

Ước tính hiệu suất cuối cùng là

$$\begin{aligned} L_{TT} = L_{CVT} + TTBias \end{aligned}$$

The pseudo-code is presented in Algorithm 4 where it is clear that the TT does not train new models, employs the out-of-sample predictions of all models and corresponding configurations, and returns the same final model as both the CVT and the NCV. Rõ ràng là khi cùng một cấu hình được chọn trên mỗi màn hình đầu tiên làm cấu hình cuối cùng, ước tính sai lệch bằng không

Quan sát rằng ước tính sai lệch của TT tuân theo $0 \le TTBias \le L_{CVT}$ . Do đó, ước tính cuối cùng $L_{TT}$ luôn nằm trong khoảng $L_{CVT}\ . Tuy nhiên, nhược điểm chính của TT là có những trường hợp không dự tính được khi nó điều chỉnh quá mức tổn thất. Như một ví dụ về trường hợp trước, hãy xem xét trường hợp phân loại cực đoan, thua 0-1 và CV loại một trong đó mỗi lần chứa một trường hợp duy nhất. Sau đó, có khả năng, đặc biệt là nếu nhiều cấu hình đã được thử, luôn có một cấu hình dự đoán chính xác mẫu được giữ lại trong mỗi lần. Do đó, trong trường hợp này, ước tính sai lệch sẽ chính xác bằng với việc mất cấu hình đã chọn và do đó and \(2\times L_{CVT}$. However, the main disadvantage of TT is that there are non-contrived cases where it over-corrects the loss. As an example of the former, consider the extreme case of classification, 0-1 loss and leave-one-out CV where each fold contains a single instance. Then it is likely, especially if many configurations have been tried, that there always is a configuration that correctly predicts the held-out sample in each fold. Thus, in this scenario the bias estimate will be exactly equal to the loss of the selected configuration and so $L_{TT} = 2L_{CVT}$. If for example in a multi-class classification problem, the selected configuration has an estimated 0–1 loss of 70%, the TT method will adjust it to return 140% loss estimate! Such problems are very likely to be observed with few samples and if many configurations are tried. For reliable estimation of the bias, the TT requires relatively large folds, but it is exactly the analyses with overall small sample size that need the bias estimation the most. For the same reason, it is less reliable for performance metrics such as the AUC or the concordance index (in survival analysis) that require several predictions to compute; thus, estimating these metrics in small folds is totally unreliable.

The Bootstrap Bias Corrected Cross-Validation (BBC-CV)

Bootstrap (Efron và Tibshirani 1993) đã được phát triển và áp dụng rộng rãi để ước tính phân phối (không xác định) của thống kê theo cách phi tham số $b_o$< . Ý tưởng chính của bootstrap là lấy mẫu với sự thay thế từ tập dữ liệu đã cho nhiều lần (e. g. , 500), mỗi lần tính toán thống kê computed for a population (dataset). The main idea of the bootstrap is to sample with replacement from the given dataset multiple times (e.g., 500), each time computing the statistic $b_i, i=1, \ldots , B$ trên tập dữ liệu được lấy mẫu lại. Phân phối theo kinh nghiệm của $b_i$ , trong một số điều kiện rộng nhất định tiếp cận với phân phối chưa biết của \(b_o\ . Nhiều biến thể đã xuất hiện cho các nhiệm vụ và vấn đề thống kê khác nhau (xem Davison và Hinkley 1997). . Numerous variants have appeared for different statistical tasks and problems (see Davison and Hinkley 1997).

In machine learning, for estimation purposes the idea of bootstrapping datasets has been proposed as an alternative to the CV. Cụ thể, để tạo ước tính hiệu suất cho một phương pháp f, nhiều tập huấn luyện được tạo bằng bootstrap (lấy mẫu lại thống nhất với việc thay thế các hàng của tập dữ liệu), một mô hình được đào tạo và hiệu suất của nó được ước tính trên các ví dụ ngoài mẫu. Trung bình, lấy mẫu lại ngẫu nhiên với kết quả thay thế trong 63. 2% of the original samples included in each bootstrap dataset and the rest serving as out-of-sample test sets. Giao thức đã được so sánh với CV trong Kohavi (1995) kết luận rằng CV là thích hợp hơn

Cài đặt mà chúng tôi khám phá trong bài viết này khác với cài đặt được mô tả ở trên vì chúng tôi kiểm tra trường hợp một người cũng đang điều chỉnh. Một ứng dụng trực tiếp của ý tưởng bootstrap trong các cài đặt như vậy sẽ là thay thế CVT (thay vì CV) bằng phiên bản bootstrap trong đó không phải một mà tất cả các cấu hình đều được thử trên nhiều bộ dữ liệu bootstrap, cấu hình tốt nhất được chọn và hiệu suất của nó được ước tính là trung bình . This protocol would require the training of $B\times C$ models, where B is the number of bootstraps. Các ứng dụng điển hình của bootstrap yêu cầu B phải nằm trong khoảng từ vài trăm đến hàng nghìn, mức cao không thể chấp nhận được trong bối cảnh này. Đặt B bằng số lần gấp rõ ràng sẽ dẫn đến cùng một số mô hình được đào tạo cho cả bootstrap và CV. However, Kohavi (1995) experiments provide evidence that the bootstrap can have “extremely large” bias on some problems even with 100 bootstrapped datasets (iterations).

Trước khi tiếp tục với phương pháp được đề xuất, chúng ta hãy xác định một chức năng quan trọng mới css $(\varPi , y)$ là viết tắt của . Nhớ lại rằng $\varPi $ is a matrix of out-of-sample predictions and y is a vector of the corresponding true labels. Recall that $\varPi $ chứa N hàng và C cột, trong đó N là kích thước mẫu và C là số cấu hình sao cho $[\varPi ]_{ij}$ denotes the out-of-sample prediction of on the i-th sample of the j-th configuration. The function css returns the index of the best-performing configuration according to some criterion. The simplest criterion, also employed in this paper, is to select the configuration with the minimum average loss:

$$\begin{aligned} \mathbf {css}(\varPi , y) = \arg \min _j l(y, \varPi (. , j)) \end{aligned}$$

nơi chúng tôi lại sử dụng ký hiệu chỉ mục Matlab $\varPi (. , j)$ để biểu thị vectơ ở cột j của ma trận $\varPi $ , i. e. , tất cả các dự đoán ngoài mẫu gộp của cấu hình j. Tuy nhiên, bằng cách viết rõ ràng lựa chọn dưới dạng một chức năng mới, người ta có thể dễ dàng triển khai các tiêu chí lựa chọn khác có tính đến, không chỉ tổn thất ngoài mẫu mà còn cả độ phức tạp của các mô hình do mỗi cấu hình tạo ra.

We propose the Bootstrap Bias Corrected CV method (BBC-CV), for efficient and accurate performance estimation. The pseudo-code is shown in Algorithm 5. BBC-CV uses the out-of-sample predictions $\varPi $ returned by CVT. Nó tạo B ma trận bootstrapped $\varPi ^b, b = 1, \dots , B$ và các vectơ tương ứng của nhãn thực $y^b$ by sampling N rows of $\varPi $ with replacement. Let $\varPi ^{\setminus b}, b = 1, \dots , B$ denote the matrices containing the samples in $\varPi $ and not in $\varPi ^b$ (denoted as $\varPi \setminus \varPi ^b$ ), and $y^{\setminus b}$ their corresponding vectors of true labels. Đối với mỗi lần lặp bootstrap b, BBC-CV. (a) áp dụng chiến lược lựa chọn cấu hình css( $\varPi ^b, y^b$ ) để chọn cấu hình hoạt động tốt nhất i, . , \) $L_b$ of configuration i as $L_b = l(y^{\setminus b}, \varPi (:, $ i $)^{\setminus b})$ . Cuối cùng, tổn thất ước tính $L_{BBC}$ được tính là mức trung bình của \(L_b\ . over all bootstrap iterations.

BBC-CV khác với các phương thức hiện có ở hai điểm chính. (a) dữ liệu đang được khởi động nằm trong ma trận $\varPi $ của các dự đoán ngoài mẫu gộp được tính toán bởi CVT ( . Do đó, ước tính hiệu suất có thể được áp dụng với chi phí tính toán tối thiểu, vì không cần đào tạo mô hình mới.

Một vài nhận xét về phương pháp BBC-CV bây giờ theo sau. Trước tiên, hãy lưu ý rằng nếu một cấu hình duy nhất luôn được chọn là tốt nhất, thì phương thức này sẽ trả về tổn thất trung bình do khởi động (trên các mẫu bị loại trừ) của cấu hình này thay vì tổn thất trung bình trên các dự đoán ban đầu. Cái đầu tiên tiệm cận cái thứ hai khi số lần lặp bootstrap tăng lên và chúng sẽ trùng nhau. Một cấu hình duy nhất có thể luôn được chọn vì hai lý do. hoặc chỉ một cấu hình được xác thực chéo hoặc một cấu hình chiếm ưu thế so với tất cả các cấu hình khác đối với tiêu chí lựa chọn. Trong cả hai trường hợp này, ước tính BBC-CV sẽ gần với ước tính CVT

Thứ hai, BBC-CV đồng thời xem xét một mẫu bootstrap từ tất cả các dự đoán của tất cả các cấu hình, không chỉ các dự đoán liên quan đến một lần duy nhất mỗi lần. Do đó, không giống như TT, nó bền ngay cả khi các nếp gấp chỉ chứa một hoặc chỉ một vài mẫu. Vì lý do tương tự, nó cũng mạnh mẽ khi chỉ số hiệu suất là AUC (hoặc chỉ số tương tự) và yêu cầu nhiều dự đoán được tính toán một cách đáng tin cậy. Tuy nhiên, có một lưu ý với việc sử dụng BCC-CV và chỉ số AUC. bởi vì BBC-CV kết hợp các dự đoán từ các nếp gấp khác nhau và do đó các mô hình khác nhau (mặc dù được sản xuất với cùng cấu hình), các dự đoán về điểm số phải được so sánh (trong cùng một tỷ lệ) để sử dụng với AUC. Chú thích cuối trang 2 Cuối cùng, chúng tôi xin lưu ý rằng chúng tôi đã trình bày BBC trong bối cảnh K-fold CV, nhưng ý tưởng chính là khởi động lại mẫu ngoài mẫu gộp . Một trong những giao thức như vậy là tạm dừng trong đó về cơ bản chỉ có một lần. Tương tự, có thể xảy ra trường hợp triển khai K-fold CV, để tiết kiệm thời gian tính toán, quyết định chỉ chấm dứt sau khi một vài lần được sử dụng, e. g. , bởi vì khoảng tin cậy của hiệu suất đủ chặt chẽ và không cần phải tiếp tục. Chúng tôi gọi cái sau là giao thức CV không hoàn chỉnh. Một lần nữa, mặc dù dự đoán không có sẵn cho tất cả các mẫu, BBC-CV có thể được áp dụng cho dự đoán của bất kỳ nếp gấp nào đã được sử dụng để điều chỉnh.

Tính toán khoảng tin cậy với bootstrap

Ý tưởng khởi động các dự đoán ngoài mẫu không chỉ có thể điều chỉnh độ lệch mà còn có thể được áp dụng một cách tầm thường để cung cấp khoảng tin cậy của tổn thất. $1-\alpha $ khoảng tin cậy (thường là 95%) cho thống kê $L_0$ . , are provided by the bootstrap procedure by computing the population of bootstrap estimates of the statistics $L_1$,...,$L_B$ và xem xét một khoảng [lL, uL] chứa p phần trăm dân số (Efron và Tibshirani 1993). Tham số 1 - $\alpha $ được gọi là mức tin cậy của khoảng. The simplest approach to compute such intervals is to consider the ordered statistics $L_{(1)}$ ,. , $L_{(B)}$ , trong đó $L_{(i)}$ . Ví dụ: khi denotes the i -th value of L’s in ascending order, and take the interval [$L_{(\alpha /2\cdot B)}$, $L_{((1-\alpha /2)\cdot B)}$], excluding a probability mass of $\alpha $/2 on each side of extreme values. For example, when $\alpha $ = 0. 05 và B = 1000 ta có [lL,uL] = [ $L_{(25)}$ , $L_{(975)}$]. Other variants are possible and could be applied, although outside the scope of this paper. For more theoretical details on the bootstrap confidence intervals and different methods for constructing them, as well as a comparison of them, see Efron and Tibshirani (1993).

BCC-CV có lặp lại

Khi kích thước mẫu nhỏ, phương sai ước tính hiệu suất lớn, ngay cả khi không có sai lệch. Điều này được xác nhận trong Tsamardinos et al. (2015), Krstajic và cộng sự. (2014) and Seibold et al. (2017) theo kinh nghiệm trên một số bộ dữ liệu thực. Một thành phần của phương sai ước tính bắt nguồn từ việc phân vùng ngẫu nhiên cụ thể thành các nếp gấp. Để giảm thành phần này, nên lặp lại giao thức ước tính nhiều lần với nhiều phân vùng gấp, dẫn đến giao thức Xác thực chéo lặp lại và các biến thể

Có thể áp dụng phương pháp BBC-CV với nhiều lần lặp lại với những thay đổi tối thiểu sau đây trong quá trình triển khai. Bây giờ chúng ta coi ma trận $\varPi $ của các dự đoán ngoài mẫu của các mô hình là ba chiều với $[\varPi ]_{ijk}$ to denote the out-of-sample prediction (i.e, when the example was held-out during training) on the i-th example, of the j-th configuration, in the k-th repeat. Note that predictions for the same instance $x_i$ trong các lần lặp lại khác nhau có mối tương quan với nhau. tất cả chúng đều có xu hướng chính xác đối với các trường hợp dễ dự đoán và có xu hướng sai đối với các ngoại lệ không phù hợp với các giả định của cấu hình một cách chính xác. Do đó, tất cả các dự đoán trên cùng một trường hợp cho các lần lặp lại khác nhau phải được đưa vào một mẫu bootstrap hoặc không có gì cả. Nói cách khác, giống như trong Thuật toán 5, những gì được lấy mẫu lại cùng với sự thay thế để tạo dữ liệu bootstrap là chỉ mục của các phiên bản. Ngoài ra, ý tưởng chính vẫn giống như trong Thuật toán 5.

Công việc có liên quan

There are two additional major works that deal with performance estimation when tuning (model selection) is included. Cái đầu tiên của Bernau et al. (2013) đã giới thiệu một biến thể của phương pháp hiệu chỉnh sai lệch như một giải pháp thay thế phân tích mượt mà cho NCV, được gọi là WMCS. Tương tự như BBC-CV, WMCS ước tính mức độ lạc quan của việc thử nhiều cấu hình và loại bỏ nó khỏi ước tính hiệu suất (được gọi là thu nhỏ trong thuật ngữ của tác giả, Bước 2c, trang 697). Tuy nhiên, để tính toán mức độ lạc quan, WMCS dựa vào mô hình tham số của phân phối chung về phương tiện của tất cả các cấu hình và tích hợp số của phân phối này (Eq. 13). Cụ thể, WMCS giả định phân phối chung là một phân phối bình thường đa biến. Đây là một giả định không thực tế cho các vấn đề phân loại như các tác giả thừa nhận. “Tất nhiên, giả định về tính quy tắc không thể đúng vì các lỗi được xem xét là giá trị trung bình của các biến nhị phân” (từ 0 đến 1 chứ không phải từ âm đến vô cùng). Tuy nhiên, có những lý do khác khiến phân phối có thể không bình thường hoặc bất kỳ phân phối được mô hình hóa tầm thường nào. xem xét trường hợp hai thuật toán được thử, mỗi thuật toán được khởi tạo trên một dải giá trị siêu tham số. This gives rise to two groups of configurations with correlated mean performances. The distribution of the means of all configurations will then create a bimodal distribution. BBC-CV tránh lập mô hình trực tiếp việc phân phối phương tiện cấu hình và bất kỳ giả định tham số liên quan nào, cũng như việc sử dụng tích hợp số bằng cách sử dụng bootstrapping; . Subsequent independent work by Ding et al. (2014) also reports empirical problems with the WMCS method, and specifically that it provides context-dependent estimates. lạc quan đối với cỡ mẫu nhỏ $N \le 40$ và thận trọng đối với N lớn hơn. Cuối cùng, WMCS yêu cầu một giả định tham số để mô hình hóa các phương tiện của cấu hình phụ thuộc vào chỉ số hiệu suất (độ chính xác, lỗi bình phương trung bình, hệ số xác định, v.v. ). Thus, it cannot directly be applied as presented to all types of analysis tasks and performance metrics, unlike the BBC-CV.

Ding et al. (2014) proposed a resampling-based inverse power law (IPL) method for bias correction and compared its performance to those of TT, NCV, and WMC/WMCS on both simulated and real datasets. The error rate of each classifier is estimated by fitting a learning curve which is constructed from repeatedly resampling the original dataset for different sample sizes and fitting an inverse power law function. Phương pháp IPL vượt trội so với các phương pháp khác về ước tính hiệu suất, nhưng như các tác giả đã chỉ ra, nó có những hạn chế đáng kể. Đầu tiên, nó dựa trên giả định rằng đường cong học tập cho mỗi bộ phân loại có thể được trang bị tốt theo định luật lũy thừa nghịch đảo. Ngoài ra, nếu kích thước mẫu của tập dữ liệu gốc nhỏ, phương pháp này sẽ cung cấp các ước tính không ổn định. Cuối cùng, phương pháp IPL có chi phí tính toán cao hơn so với phương pháp TT và WMC/WMCS

Bootstrap Bias Corrected with Dropping Cross-Validation (BBCD-CV)

Trong phần này, chúng tôi trình bày cách sử dụng ý tưởng thứ hai để khởi động các dự đoán ngoài mẫu được gộp chung của từng cấu hình. Specifically, we explore the idea to use the current out-of-sample predictions of each configurations to determine the inferior configurations and early-stop further computations employing them for training modes

The BBCD-CV protocol

We now explain in detail how the pooled out-of-sample predictions of each configuration can be employed as part of a statistical criterion that determines whether a configuration’s performance is with high probability inferior than the performance of the current best configuration. If this is indeed the case, the dominated configuration can be early dropped from further consideration, in the sense that no additional models on subsequent folds will be trained under this configuration. If a relatively strict threshold is employed for the probability then the procedure will typically select the optimal configuration at the end of the CVT and thus, the prediction performance of the final model will not be affected. The Early Dropping scheme can lead to substantial computational savings as numerous configurations can be dropped after just a few folds before completing the full K-fold CV on them

Cụ thể, hãy để $\theta $ là chỉ mục của một cấu hình nhất định và \ . Since all models are produced by the same dataset size stemming from excluding a single fold, we can actually drop the subscript N. The probability the index of the current best configuration and denote with $l_N(\theta )$ and $l_N(\theta _o)$ the true average loss of these configurations when trained on datasets from the distribution of the problem at hand of size N. Since all models are produced by the same dataset size stemming from excluding a single fold, we can actually drop the subscript N. The probability $P(l(\theta ) > l(\theta _o))$ is estimated for every such $\theta $ still under consideration at the end of each fold i. e. , as soon as new out-of-sample predictions are accrued for each configuration.

Để thực hiện thử nghiệm này, các dự đoán hiện tại, gộp chung, ngoài mẫu của tất cả các cấu hình vẫn đang được xem xét $\varPi $ are employed to identify the best current configuration $\theta _o = \mathbf {css}(\varPi , y)$. Subsequently, $\varPi $ ’s rows are bootstrapped to create matrices $\varPi ^1, \ldots , \varPi ^B$ and corresponding label matrices $y^1, \ldots , y^B$ . From the population of these bootstrapped matrices the probability $p_\theta $ of a given configuration $\theta $ to exhibit a worse performance than $\theta _o$ is estimated as the percentage of times its loss is higher than that of $\theta $ ’s, i. e. , $\hat{p}_\theta = \frac{1}{B}\#\{l(y^b, \varPi ^b(. , \theta )) > l(y^b, \varPi ^b(. , \theta _o)), b=1, \ldots , B\}$ . Nếu $\hat{p}_\theta > \alpha $ đối với ngưỡng ý nghĩa nào đó (e. g. , $\alpha = 0. 99$ ), configuration $\theta $ is dropped.

Một vài nhận xét về quy trình trên. Đây là một thủ tục heuristic chủ yếu tập trung vào hiệu quả tính toán, không phải các thuộc tính lý thuyết thống kê. Ideally, the null hypothesis to test for each configuration $\theta $ would be the hypothesis that $\theta $ will be selected as the best configuration at the end of the CVT procedure, given a finite number of folds remain to be considered. If this null hypothesis is rejected for a given $\theta $ , $\theta $ should be dropped. Each of these hypotheses for a given $\theta $ has to be tested in the context of all other configurations that participate in the CVT procedure. Ngược lại, quy trình khám phá mà chúng tôi cung cấp về cơ bản kiểm tra từng giả thuyết $H_\theta $ một cách riêng biệt. For example, it could be the case during bootstrapping, configuration $\theta $ exhibits a significant probability of a better loss than $\theta _o$ (not dropped by our procedure), but it could be that in all of these cases, it is always dominated by some other configuration $\theta '$ . Thus, the actual probability of being selected as best in the end maybe smaller than the percentage of times it appears better than $\theta _o$ .

In addition, our procedure does not consider the uncertainty (variance) of the selection of the current best method $\theta _o$ . Perhaps, a double bootstrap procedure would be more appropriate in this case (Nankervis 2005) but any such improvements would have to also minimize the computational overhead to be worthwhile in practice.

Công việc có liên quan

The idea of accelerating the learning process by specifically eliminating under-performing configurations from a finite set, early within the cross-validation procedure, was introduced as early as 1994 by Maron and Moore with Hoeffding Races (Maron and Moore 1994). Tại mỗi lần lặp lại CV rời đi một lần (i. e. after the evaluation of a new test point) the algorithm employs the Hoeffding inequality for the construction of confidence intervals around the current error rate estimate of each configuration. Configurations whose intervals do not overlap with those of the best-performing one are eliminated (dropped) from further consideration. The procedure is repeated until the confidence intervals have shrunk enough so that a definite overall best configuration can be identified. However, several test point evaluations may be required before a configuration can clearly be declared the winner

Following a similar approach, Zheng and Bilenko (2013) applied the concept of early elimination of suboptimal configurations to K-fold CV. They improve on the method by Maron and Moore by incorporating paired hypothesis tests for the comparison of configurations for both discrete and continuous hyper-parameter spaces. Tại mỗi lần lặp lại CV, tất cả các cấu hình hiện tại được kiểm tra theo cặp và những cấu hình kém hơn sẽ bị loại bỏ. Sau đó, phân tích công suất được sử dụng để xác định số lần đánh giá nếp gấp mới cho từng cấu hình còn lại với tỷ lệ âm tính giả có thể chấp nhận được

Krueger và cộng sự. (2015) đã giới thiệu cái gọi là Xác thực chéo nhanh thông qua Thử nghiệm tuần tự (CVST) sử dụng thử nghiệm phi tham số cùng với phân tích tuần tự để chọn cấu hình hoạt động tốt nhất trên cơ sở các tập hợp con dữ liệu tăng tuyến tính. At each step, the Friedman test (1937) or the Cochran’s Q test (1950) (for regression and classification tasks respectively) are employed in order to detect statistically significant differences between configurations’ performances. Then, the under-performing configurations are further tested through sequential analysis to determine which of them will be discharged. Finally, an early stopping criterion is employed to further speed up the CV process. Cấu hình chiến thắng là cấu hình có xếp hạng trung bình tốt nhất, dựa trên hiệu suất, trong một vài lần lặp lại cuối cùng được chỉ định trước. Nhược điểm của CVST là ban đầu nó hoạt động trên các tập hợp con nhỏ hơn, do đó có nguy cơ loại bỏ sớm các mô hình hoạt động tốt khi tập dữ liệu ban đầu đã nhỏ. In comparison to the statistical tests used in Zheng and Bilenko (2013) and Krueger et al. (2015), bootstrap là một bài kiểm tra chung, có thể áp dụng cho mọi loại nhiệm vụ học tập và đo lường hiệu suất, đồng thời phù hợp ngay cả với các cỡ mẫu tương đối nhỏ. Cuối cùng, BBCD-CV yêu cầu chỉ giá trị của ngưỡng ý nghĩa $\alpha $ được xác định trước trong khi các phương pháp trong Zheng và Bilenko ( . (2015) có một số siêu tham số được chỉ định trước.

Empirical evaluation

Chúng tôi đánh giá hiệu quả theo kinh nghiệm và điều tra các thuộc tính của BBC-CV và BBCD-CV, trên cả cài đặt được kiểm soát và các vấn đề thực tế. Cụ thể, chúng tôi tập trung vào độ lệch của các ước tính hiệu suất của các giao thức và thời gian tính toán. We compare the results to those of three standard approaches. CVT, TT và NCV. Chúng tôi cũng kiểm tra các thuộc tính điều chỉnh (lựa chọn cấu hình) của BBC-CV, BBCD-CV và BBC-CV với các lần lặp lại, cũng như khoảng tin cậy mà các phương pháp này xây dựng. WMCS and IPL are not included in this empirical comparison, for a variety of reasons, including the need for parametric, metric-specific assumptions (WMCS) and increased computational complexity (IPL) (see Sect. 3, subsection Related Work); in addition, both methods are complex to implement. As the main advantage of the proposed methods are on a conceptual level (simplicity of the approach and broad applicability to almost any type of performance metric and outcome of interest), such empirical evaluation would probably not be very informative

nghiên cứu mô phỏng

Extensive simulation studies were conducted in order to validate BBC-CV and BBCD-CV, and assess their performance. We focus on binary classification tasks and use classification accuracy as the measure of performance, as it is easier to simulate models with a prespecified accuracy. We examine multiple settings for varying sample size $N \in \{20, 40, 60, 80, 100, 500, 1000\}$ , number of candidate configurations $C \in \{50, 100, 200, 300, 500, 1000, 2000\}$ , and true performances P of the candidate configurations drawn from different Beta distributions Be(a, b) with $(a, b) \in \{(9, 6), (14, 6), (24, 6), (54, 6)\}$ . These betas provide configurations with mean performance values $\mu \in \{0. 6, 0. 7, 0. 8, 0. 9\}$ và phương sai của các hiệu suất này là 0. 015, 0. 01, 0. 0052, 0. 0015. These choices result in a total of 196 different experimental settings. We chose distributions with small variances since these are the most challenging cases where the models have quite similar performances.

For each setting, we generate a simulated matrix of out-of-sample predictions $\varPi $ . Đầu tiên, một giá trị hiệu suất thực sự $P_j, j = 1,\ldots ,C$ , được lấy mẫu từ cùng một bản phân phối beta, được chỉ định cho mỗi . Then, the sample predictions for each $c_j$. Then, the sample predictions for each $c_j$ are produced as $\varPi _{ij} = \mathbb {1}(r_i < P_j), i = 1,\ldots ,N$ , where $r_i$ are random numbers sampled uniformly from (0, 1), and $\mathbb {1}(condition)$ denotes the unit (indicator) function. Notice that there is no need to simulate the actual training of the models, just the predictions of these models so that they obtain a prespecified predictive accuracy.

Sau đó, các giao thức BBC-CV, BBCD-CV, CVT, TT và NCV để điều chỉnh và đánh giá hiệu suất của mô hình trả về được áp dụng. We set the number of bootstraps $B = 1000$ for the BBC-CV method, and for the BBCD-CV we set $B = 1000$ and the dropping threshold to $a = 0. 99$ . Chúng tôi đã áp dụng cùng một cách phân chia dữ liệu thành các nếp gấp $K = 10$ cho tất cả các giao thức. Consequently, all of them, with the possible exception of the BBCD-CV, select and return the same predictive model with different estimations of its performance. The internal cross-validation loop of the NCV uses $K = 9$ folds. The whole procedure was repeated 500 times for each setting, leading to a total of 98,000 generated matrices of predictions, on which the protocols were applied. The results presented are the averages over the 500 repetitions. The code, in Matlab, implementing the simulation studies can be downloaded from https. //github. com/mensxmachina/BBC-CV.

Quả sung. 1

Average (over 500 repeats) estimated bias of accuracy estimation of the CVT, TT, NCV, BBC-CV and BBCD-CV. The average true classification accuracy of all configurations is 60%. CVT over-estimates performance in all settings. TT’s behaviour varies for sample size $N < 500$ and is conservative for $N \ge 500$ . NCV cung cấp các ước tính hiệu suất gần như không thiên vị, trong khi BBC-CV thận trọng hơn với sự khác biệt về độ lệch là 0. 013 points of accuracy on average. BBCD-CV is on par with NCV

Full size image

Bias estimation

The bias of the estimation is computed as $\widehat{Bias} = \hat{P} - P$ , where $\hat{P}$ and P denote the estimated and the true performance of the selected configuration, respectively. A positive bias indicates a lower true performance than the one estimated by the corresponding performance estimation protocol and implies that the protocol is optimistic (i. e. overestimates the performance), whereas a negative bias indicates that the estimated performance is conservative. Ideally, the estimated bias should be 0, although a slightly conservative estimate is also acceptable in practice.

Figure 1 shows the average estimated bias for models with average true classification accuracy $\mu = 0. 6$ , over 500 repetitions, of the protocols under comparison. Each panel corresponds to a different protocol (specified in the title) and shows the bias of its performance estimate relatively to the sample size (horizontal axis) and the number of configurations tested (different plotted lines). We omit results for the rest of the tested values of $\mu $ as they are similar.

The CVT estimate of performance is optimistically biased in all settings with the bias being as high as 0. 17 điểm phân loại chính xác. Chúng tôi nhận thấy rằng cỡ mẫu càng nhỏ, CVT càng đánh giá quá cao hiệu suất của mẫu cuối cùng. Tuy nhiên, khi kích thước mẫu tăng lên, độ lệch của CVT có xu hướng bằng 0. Finally, we note that the bias of the estimate also grows as the number of models under comparison becomes greater, although the effect is relatively small in this experiment. Hành vi của TT rất khác nhau đối với các cỡ mẫu nhỏ ( $\le 100$ ) và rất nhạy cảm với số lượng cấu hình. On average, the protocol is optimistic (not correcting for the bias of the CVT estimate) for sample size $N \in \{20, 40\}$ , and over-corrects, for $N \in \{60, 80, 100\}$ . For larger sample size ( $\ge 500$ ), TT is systematically conservative, over-correcting the bias of CVT. NCV provides an almost unbiased estimation of performance, across all sample sizes. However, recall that it is computationally expensive since the number of models that need to be trained depends quadratically on the number of folds K.

BBC-CV cung cấp các ước tính thận trọng, có độ lệch thấp và nhanh chóng có xu hướng bằng 0 khi kích thước mẫu tăng lên. So với TT, nó phù hợp hơn với các cỡ mẫu nhỏ và đưa ra các ước tính tổng thể chính xác hơn. In comparison to NCV, BBC-CV is somewhat more conservative with a difference in the bias of 0. 013 điểm chính xác trung bình, và 0. 034 trong trường hợp xấu nhất (đối với $N = 20$ ); . BBCD-CV hiển thị hành vi tương tự như BBC-CV, có độ lệch thấp hơn, tiến về 0 nhanh hơn. It is on par with NCV, having 0. 005 điểm độ chính xác trung bình cao hơn, và 0. 018 trong trường hợp xấu nhất. Như chúng tôi trình bày ở phần sau, BBCD-CV nhanh hơn CVT một bậc độ lớn và do đó nhanh hơn NCV hai bậc độ lớn.

Tóm lại, các phương pháp BBC-CV và BBCD-CV được đề xuất tạo ra các ước tính hiệu suất gần như không thiên vị và chỉ hoạt động kém hơn một chút trong cài đặt mẫu nhỏ so với NCV đắt tiền về mặt tính toán. Như mong đợi, CVT quá lạc quan và do đó không nên được sử dụng cho mục đích ước tính hiệu suất. Cuối cùng, việc sử dụng TT không được khuyến khích, vì (a) ước tính hiệu suất của nó thay đổi rất nhiều đối với các cỡ mẫu và số lượng cấu hình khác nhau, và (b) nó đánh giá quá cao hiệu suất đối với các cỡ mẫu nhỏ, đó là những trường hợp cần hiệu chỉnh độ lệch

tập dữ liệu thực

Sau khi kiểm tra hành vi của BBC-CV và BBCD-CV trên các cài đặt được kiểm soát, chúng tôi điều tra hiệu suất của chúng trên các bộ dữ liệu thực. Một lần nữa, chúng tôi tập trung vào nhiệm vụ phân loại nhị phân nhưng bây giờ chúng tôi sử dụng AUC làm thước đo hiệu suất, vì nó độc lập với phân phối lớp. Tất cả các bộ dữ liệu có trong các thử nghiệm đều đến từ các thách thức phổ biến về khoa học dữ liệu [NIPS 2003 (Guyon et al. 2004); . 2006); . 2015)]. Table 1 summarizes their characteristics. Các lĩnh vực ứng dụng của bộ dữ liệu của thử thách ChaLearn AutoML không được biết đến, tuy nhiên ban tổ chức cho rằng chúng rất đa dạng và được chọn để mở rộng các lĩnh vực khoa học và công nghiệp khác nhau. gisette (Guyon et al. 2004) and gina (Guyon et al. 2006) are handwritten digit recognition problems, dexter (Guyon et al. 2004) is a text classification problem, and madelon (Guyon et al. 2004) is an artificially constructed dataset characterized by having no single feature that is informative by itself

The experimental set-up is similar to the one used by Tsamardinos et al. (2015). Each original dataset D was split into two stratified subsets; $D_{pool}$ which consisted of 30% of the total samples in D, and $D_{holdout}$ which consisted of the remaining 70% of the samples. Đối với mỗi tập dữ liệu gốc ngoại trừ dexter, $D_{pool}$ đã được sử dụng để lấy mẫu (không thay thế) 20 tập dữ liệu phụ cho mỗi . For the dexter dataset we sampled 20 sub-datasets for each $N \in \{20, 40, 60, 80, 100, 500\}$. For the dexter dataset we sampled 20 sub-datasets for each $N \in \{20, 40, 60, 80, 100\}$ . We created a total of $8 \times 20 \times 6 + 20 \times 5 = 1060$ sub-datasets. $D_{holdout}$ was used to estimate the true performance of the final, selected model of each of the protocols tested.

Table 1 Datasets’ characteristics. pr / nr denotes the ratio of positive to negative examples in a dataset. $. D_{pool}. $ refers to the portion of the datasets (30%) from which the sub-datasets were sampled and $. D_{holdout}. $ to the portion (70%) from which the true performance of a model is estimated

Full size table

The set $\varTheta $ (i. e. the search grid) explored consists of 610 configurations. These resulted from various combinations of preprocessing, feature selection, and learning methods and different values for their hyper-parameters. The preprocessing methods included imputation, binarization (of categorical variables) and standardization (of continuous variables) and were used when they could be applied. For feature selection we used the SES algorithm (Lagani et al. 2017) with alpha $\in \{0. 05, 0. 01\}$ , and $k~\in ~\{2, 3\}$ and we also examined the case of no feature selection (i. e. , a total of 5 cases/choices). The learning algorithms considered were Random Forests (Breiman 2001), SVMs (Cortes and Vapnik 1995), and LASSO (Tibshirani 1996). For Random Forests the hyper-parameters and values tried are numTrees $= 1000$ , minLeafSize $\in \{1, 3, 5\}$ and numVarToSample $\in \{(0. 5, 1, 1. 5, 2) * \sqrt{\textit{numVar}}\}$ , where numVar is the number of variables of the dataset. We tested SVMs with linear, polynomial and radial basis function (RBF) kernels. For their hyper-parameters we examined, wherever applicable, all the combinations of degree $\in \{2, 3\}$ , $gamma \in \{0. 01, 0. 1, 1, 10, 100\}$ and cost $\in \{0. 01, 0. 1, 1, 10, 100\}$ . Finally, LASSO was tested with alpha $\in \{0. 001, 0. 5, 1. 0\}$ (alpha $= 1$ biểu thị hồi quy lasso, các giá trị khác biểu thị tối ưu hóa mạng đàn hồi . 2010).

We performed tuning and performance estimation of the final model using CVT, TT, NCV, BBC-CV, BBCD-CV, and BBC-CV with 10 repeats (denoted as BBC-CV10) for each of the 1060 created sub-datasets, leading to more than 135 million trained models. We set $B = 1000$ for the BBC-CV method, and $B = 1000$ , $a = 0. 99$ cho phương pháp BBCD-CV. Chúng tôi đã áp dụng cùng một cách phân chia dữ liệu thành $K = 10$ nếp gấp phân tầng cho tất cả các giao thức. Vòng xác thực chéo bên trong của NCV sử dụng $K = 9$ nếp gấp. For each protocol, original dataset D, and sample size N, the results are averaged over the 20 randomly sampled sub-datasets.

Fig. 2

Average estimated bias (over 20 sub-datasets for each original dataset) of the CVT, TT, NCV, BBC-CV and BBCD-CV estimates of performance. CVT is optimistically biased for sample size $N \le 100$ . TT’s bias varies with sample size and dataset, and it is mainly over-conservative for $N \ge 80$ . NCV and BBC-CV, both have low bias though results vary with dataset. BBCD-CV has, on average, greater bias than BBC-CV for $N \le 100$ and identical for $N = 500$

Full size image

To compute the AUC (and similar metrics like the concordance index) during CV-like protocols one could pool all predictions first and then compute the AUC on the pooled set of predictions. Alternatively, one could compute the AUC on each fold and average on all folds (see also Sect. 3). Lựa chọn cuối cùng về cấu hình tốt nhất và ước tính hiệu suất có thể khác nhau tùy thuộc vào phương pháp. However, in preliminary experiments (Greasidou 2017) we found that the two methods perform similarly in terms of model performance and bias of estimation. Notice that the pooling method cannot be applied to the TT method since the latter depends on estimates of performance in each fold individually. In the experiments that follow, all other methods using pooling to compute AUC except the TT and NCV (as it is standard in the literature)

Bias estimation

The bias of estimation is computed as in the simulation studies, i. e. , $\widehat{Bias} = \hat{P} - P$ , where $\hat{P}$ and P denote the estimated and the true performance of the selected configuration, respectively. In Fig. 2 we examine the average bias of the CVT, TT, NCV, BBC-CV, and BBCD-CV estimates of performance, on all datasets, relative to sample size. We notice that the results are in agreement with those of the simulation studies. In particular, CVT is optimistically biased for sample size $N \le 100$ and its bias tends to zero as N increases. TT over-estimates performance for $N = 20$ , its bias varies with datasets for $N = 40$ , and it over-corrects the bias of CVT for $N \ge 60$ . TT exhibits the worst results among all protocols except CVT.

Both NCV and BBC-CV have low bias (in absolute value) regardless of sample size, though results vary with the dataset. BBC-CV is mainly conservative with the exception of the madeline dataset for $N = 40$ and the madelon dataset for $N \in \{60, 80, 100\}$ . NCV is slightly optimistic for the dexter and madeline datasets for $N = 40$ with a bias of 0. 033 and 0. 031 points of AUC respectively. BBCD-CV has, on average, greater bias than BBC-CV for $N \le 100$ . For $N = 500$ , its bias shrinks and becomes identical to that of BBC-CV and NCV.

Fig. 3

Relative average true performance of the models returned by the BBCD-CV and CVT. For $N \le 100$ the loss in performance varies greatly with dataset, however, for $N = 500$ there is negligible to no loss in performance. If N if fairly large, BBCD-CV will accelerate the CVT procedure without sacrificing the quality of the resulting model or the accuracy of its performance estimate

Full size image

Relative performance and speed up of BBCD-CV

We have shown that for large sample sizes ( $N = 500$ ) BBCD-CV provides accurate estimates of performance of the model it returns, comparable to those of BBC-CV and NCV. How well does this model perform though? In this section, we evaluate the effectiveness of BBCD-CV in terms of its tuning (configuration selection) properties, and its efficiency in reducing the computational cost of CVT.

Figure 3 shows the relative average true performance of the models returned by the BBCD-CV and CVT protocols, plotted against sample size. We remind here that for each of the 20 sub-datasets of sample size $N \in \{20, 40, 60, 80, 100, 500\}$ sampled from $D_{pool}$ , the true performance of the returned model is estimated on the $D_{holdout}$ set. We notice that, for $N \le 100$ the loss in performance varies greatly with dataset and is quite significant; up to $9. 05\%$ in the worst case (dexter dataset, $N = 40$ ). For $N = 500$ , however, there is negligible to no loss in performance. Specifically, for the sylvine, philippine, madeline, christine and gina datasets there is no loss in performance when applying BBCD-CV, while there is 0. 44 and $0. 15\%$ loss for the gisette and jasmine datasets, respectively. madelon exhibits the higher average loss of $1. 4\%$ . We expect the difference in performance between BBCD-CV and CVT to shrink even further with larger sample sizes.

Fig. 4

The speed-up of BBCD-CV over CVT is shown for sample size $N = 500$ . It is computed as the ratio of models trained by CVT over BBCD-CV. Typically, BBCD-CV achieves a speed-up of 2-5, up to 10 for the gisette dataset. Overall, using BBCD-CV results in a significant speed boost, without sacrificing model quality or performance estimation

Full size image

We investigated the reason of the performance loss of BBCD-CV for low sample sizes ( $N \le 100$ ). We observed that, in most cases the majority of configurations ( $> 95\%$ ) were dropped very early within the CV procedure (in the first couple of iterations). With 10-fold CV, the number of out-of-sample predictions with $N \le 100$ samples ranges from 2 to 10, which are not sufficient for the bootstrap test to reliably identify under-performing configurations. This observation leads to some practical considerations and recommendations. For small sample sizes, we recommend to start dropping configurations with BBCD-CV only after an adequate number of out-of-sample predictions become available. An exact number is hard to determine, as it depends on many factors, such as the analyzed dataset and the set of configurations tested. Given that with $N = 500$ BBCD-CV incurs almost no loss in performance, we recommend a minimum of 50 out-of-sample predictions to start dropping configurations, although a smaller number may suffice. For example, with $N = 100$ , this would mean that dropping starts after the fifth iteration. Finally, we note that dropping is mostly useful with larger sample sizes (i. e. đối với các tình huống tốn kém về mặt tính toán), đây cũng là trường hợp mà BBCD-CV ngang bằng với BBC-CV và NCV, về ước tính điều chỉnh và hiệu suất.

Next, we compare the computational cost of BBCD-CV to CVT, in terms of total number of models trained. The results for $N = 500$ are shown in Fig. 4. We only focused on the $N = 500$ case, as it is the only case where both protocols produce models of comparable performance. We observe that a speed-up of 2 to 5 is typically achieved by BBCD-CV. For the gisette dataset, the speed-up is very close to the theoretical maximum of this experimental setup; the maximum is achieved when almost all configurations are dropped after the first fold and a speed up of K, the number of folds, is achieved. Overall, if sample size is sufficiently large, using dropping is recommended to speed-up CVT without a loss of performance.

Finally, we would like to note that we have also run experiments for $\alpha \in \{0. 90, 0. 95\}$ which are included in the Master’s thesis of one of the authors (see Greasidou 2017). In terms of tuning, the results (accuracy of the final model selected) were not significantly different when compared to $\alpha = 0. 99$ , however, the number of trained models for some datasets and sample sizes was larger for larger $\alpha $ . We chose to only present the results for $\alpha = 0. 99$ in this work since this is the value we suggest using in the general case (in favor of being conservative and trying a larger number of configurations versus being computationally efficient).

Fig. 5

Relative average true performance of BBC-CV10 to BBC-CV (left), and of BBC-CV10 to NCV (right). Multiple repeats increase the performance of the returned models, maintaining the accuracy of the performance estimation. If computational time is not a limitation, it is preferable to use BBC-CV10 over NCV

Full size image

Multiple repeats

We repeated the previous experiments, running BBC-CV with 10 repeats of partitioning to different folds (called BBC-CV10 hereafter). First, we compare the true performance of the models returned by BBC-CV and BBC-CV10, as well as the bias of the estimation. Ideally, using multiple repeats should result in a better performing model, as the variance of the performance estimation (used by CVT for tuning) due to a specific choice of split for the data is reduced when multiple splits are considered. This comes at a cost of increased computational overhead, which in case of 10 repeats is similar to that of the NCV protocol. To determine which of the approaches is preferable, we also compare the performance of the final models produced by BBC-CV10 and NCV

Figure 5 (left) shows the relative average true performance of BBC-CV10 to BBC-CV with increasing sample size N. Chúng tôi nhận thấy rằng, đối với $N = 20$ , kết quả thay đổi theo tập dữ liệu, tuy nhiên, đối với \( . In terms of the bias of the performance estimates of the two methods, we have found them to be similar. , BBC-CV10 systematically returns an equally good or (in most cases) better performing model than the one that BBC-CV returns. In terms of the bias of the performance estimates of the two methods, we have found them to be similar.

Similarly, Fig. 5 (right) shows the comparison between BBC-CV10 and NCV. We see again that for sample size $N = 20$ the relative average true performance of the returned models vary with dataset. BBC-CV10 outperforms NCV for $N \ge 40$ except for the philippine and jasmine datasets for which results vary with sample size. Thus, if computational time is not a limiting factor, it is still beneficial to use BBC-CV with multiple repeats instead of NCV.

To summarize, we have shown that using multiple repeats increases the quality of the resulting models as well as maintaining the accuracy of the performance estimation. We note that the number 10 was chosen mainly to compare BBC-CV to NCV with $K=10$ folds on equal grounds (same number of trained models). If time permits, we recommend using as many repeats as possible, especially for low sample sizes. Đối với cỡ mẫu lớn hơn, thường một hoặc một vài lần lặp lại là đủ.

Confidence intervals

The bootstrap-based estimation of performance, allows for easy computation of confidence intervals (CIs) as described in Sect. 3. 1. We investigated the accuracy of the CIs (calibration) produced by the proposed BBC-CV, BBCD-CV and BBC-CV10 protocols. To this end, we computed the coverage of the $\{50\%, 55\%, \dots , 95\%, 99\%\}$ CIs estimated by the protocols, defined as the ratio of the computed CIs that contain the corresponding true performances of the produced models. For a given sample size, the coverage of a CI was computed over all 20 sub-datasets and 9 datasets. To further examine the effect of multiple repeats on CIs, we computed their average width (over all 20 sub-datasets) for each dataset and different number of repeats (1–10).

Figure 6 shows the estimated coverage of the CIs constructed with the use of the percentile method relative to the expected coverage for the BBC-CV, BBCD-CV, and BBC-CV10 protocols. We present results for sample sizes $N = 20$ (left), $N = 100$ (middle), and $N = 500$ (right). Figure 7 shows, for the same values for N and for each dataset, the average width of the CIs with increasing number of repeats.

We notice that for $N = 20$ the CIs produced by BBC-CV are conservative, that is, they are wider than ought to be. Khi kích thước mẫu tăng ( $N \ge 100$ ), BBC-CV trả về các tổ chức tín dụng đã hiệu chuẩn hơn nhưng vẫn bảo thủ. The use of 10 repeats (BBC-CV10) greatly shrinks the width of the CIs and improves their calibration (i. e. , their true coverage is closer to the expected one). The same holds when using dropping of under-performing configurations (BBCD-CV). For $N = 500$ the intervals appear to not be conservative. After closer inspection, we saw that this is caused by two datasets (madeline and jasmine) for which the majority of the true performances are higher than the upper bound of the CI. We note that those datasets are the ones with the highest negative bias (see Fig. 2 for $N = 500$ ), which implicitly causes the CIs to also be biased downwards, thus failing to capture performance estimates above the CI limits.

Fig. 6

Coverage of the $\{50\%, 55\%, \dots , 95\%, 99\%\}$ CIs returned by BBC-CV, BBCD-CV, and BBC-CV10, defined as the ratio of the estimated CIs that contain the corresponding true performances of the produced models. The CIs are mainly conservative and become more accurate with increasing sample size and multiple repeats

Full size image

In conclusion, the proposed BBC-CV method provides mainly conservative CIs of the true performance of the returned models which become more accurate with increasing sample size. The use of multiple repeats improves the calibration of CIs and shrinks their width, for small sample sizes (< 100). The use of 3-4 repeats seems to suffice and further repeats provide small added value in CI estimation

Fig. 7

Average width (over all 20 sub-datasets) of CIs with increasing number of repeats (BBC-CVX, $X = 1 . 10$ ), for each dataset. CIs shrink with increasing sample size and number of repeats

Full size image

Discussion and conclusions

Pooling together the out-of-sample predictions during cross-validation of multiple configurations (i. e. , combinations of algorithms and their hyper-parameter values that leads to a model) and employing bootstrapping techniques on them addresses in a simple and general way three long-standing, important data analysis tasks. (a) removing the optimism of the performance estimation of the selected configuration, (b) estimating confidence intervals of performance, and (c) dropping from further consideration during tuning inferior configurations. While other methods have also been proposed, they lack the simplicity and the generality in applicability in all types of performance metrics. The ideas above are implemented in the method BBC-CV tackling points (a) and (b) and BBCD-CV that includes (c)

Simulation studies and experiments on real datasets show empirically that BBC-CV and BBCD-CV outperform the alternatives (nested cross-validation and the TT method) by either providing more accurate, almost unbiased, conservative estimates of performance even for smaller sample sizes and/or by having much lower computational cost (speed-up of up to 10). We examined the effect of repeatedly applying our methods on multiple fold partitions of the data, and found that we acquire better results in terms of tuning (i. e. , better-performing configurations are selected) compared to BBC-CV and NCV. Finally, in our experiments, the confidence intervals produced by bootstrapping are shown to be mainly conservative, improving with increasing sample size and multiple repeats

Công việc trong tương lai bao gồm đánh giá kỹ lưỡng các phương pháp trên các loại nhiệm vụ học tập khác nhau như hồi quy và phân tích tỷ lệ sống sót (tuy nhiên, kết quả sơ bộ đã chỉ ra rằng chúng có hiệu quả tương đương)

For a practitioner, based on the results on our methods we offer the following suggestions. first, to forgo the use of the computationally expensive nested cross-validation. Instead, we suggest the use of BBC-CV for small sample sizes (e. g. , less than 100 samples). BBCD-CV could also be used in these cases to reduce the number of trained models (which may be negligible for such small sample sizes) but it may select a slightly sub-optimal configuration. For larger sample sizes, we advocate the use BBCD-CV that is computationally more efficient and maintains all benefits of BBC-CV. We also suggest using as many repeats with different partitions to folds as computational time allows, particularly for small sample sizes, as they reduce the widths of the confidence intervals and lead to a better selection of the optimal configuration. Finally, we’d like to note that the experimental results presented, are corroborated by results obtained with the application of the protocol to specific domains such as the prediction of protein properties based on their aminoacid sequence (Orfanoudaki et al. 2017), chemical properties of nanomaterials (Borboudakis et al. 2017), classification of voice pathology (Simantiraki et al. 2017), and prediction of suicides based on structured as well as textual data (Adamou et al. 2018a, b)

Notes

The term closure is used in the programmatic sense to denote a function produced by another function by binding some free parameters to specific values; see also http. //gafter. blogspot. gr/2007/01/definition-of-closures. html
As an example consider the following scenario. a configuration that employs a feature selection method, then a linear Support Vector Machine. Now consider the case where in one training set the feature selection returns 4 features and another where it returns 5. The SVM models built on these feature sets rank predictions according to the distance to the separating hyper-plane. This distance is computed in a 4 and a 5 dimensional space for the two models respectively. This makes the distances computed from different models incomparable with each other and the computation of AUC from the pooled predictions problematic

Người giới thiệu

Adamou, M. , Antoniou, G. , Greasidou, E. , Lagani, V. , Charonyktakis, P. , Tsamardinos, I. , & Doyle, M. Towards automatic risk assessment to support suicide prevention. Crisis (to appear)
Adamou, M. , Antoniou, G. , Greasidou, E. , Lagani, V. , Charonyktakis, P. , Tsamardinos, I. , & Doyle, M. (2018). Mining free-text medical notes for suicide risk assessment. In. Proceedings of the 10th hellenic conference on artificial intelligence, SETN 2018, Patras, Greece, July 9-15, 2018. ACM
Akaike, H. (1974). A new look at the statistical model identification. IEEE Transactions on Automatic Control, 19(6), 716–723
Article MathSciNet Google Scholar
Bernau, C. , Augustin, T. , & Boulesteix, A. L. (2013). Correcting the optimal resampling-based error rate by estimating the error rate of wrapper algorithms. Sinh trắc học, 69(3), 693–702
Article MathSciNet Google Scholar
Borboudakis, G. , Stergiannakos, T. , Frysali, M. , Klontzas, E. , Tsamardinos, I. , & Froudakis, G. e. (2017). Chemically intuited, large-scale screening of MOFs by machine learning techniques. npj Computational Materials, 3(1), 40
Bài báo Google Scholar
Boulesteix, A. L. , & Strobl, C. (2009). Lựa chọn phân loại tối ưu và sai lệch âm trong ước tính tỷ lệ lỗi. một nghiên cứu thực nghiệm về dự đoán chiều cao. BMC Medical Research Methodology, 9(1), 85
Bài báo Google Scholar
Braga-Neto, U. m. , & Dougherty, E. r. (2004). Xác thực chéo có hợp lệ đối với phân loại microarray mẫu nhỏ không?
Bài báo Google Scholar
Breiman, L. (2001). rừng ngẫu nhiên. Học Máy, 45(1), 5–32
Bài báo Google Scholar
Cochran, W. g. (1950). Việc so sánh tỷ lệ phần trăm trong các mẫu phù hợp. Biometrika, 37(3/4), 256–266
Article MathSciNet Google Scholar
Cortés, C. , & Vapnik, V. (1995). Mạng vector hỗ trợ. Học Máy, 20(3), 273–297
TOÁN Google Scholar
Davison, A. C. , & Hinkley, D. V. (1997). Các phương thức Bootstrap và ứng dụng của chúng. Cambridge. Nhà xuất bản Đại học Cambridge
Đặt chỗ Google Scholar
Đinh, Y. , Đường, S. , Liao, S. g. , Jia, J. , Oesterreich, S. , Lin , Y. , et al. (2014). Hiệu chỉnh sai lệch để chọn trình phân loại lỗi tối thiểu từ nhiều mô hình học máy. Tin sinh học, 30(22), 3152–3158
Bài báo Google Scholar
Ép-rôn, B. , & Tibshirani, R. J. (1993). giới thiệu về Bootstrap. Boca Raton. Báo chí CRC
Đặt chỗ Google Scholar
Fawcett, T. (2006). Giới thiệu về phân tích ROC. Chữ cái nhận dạng mẫu, 27(8), 861–874
Article MathSciNet Google Scholar
Friedman, J. , Hastie, T. , & Tibshirani, R. (2010). Regularization paths for generalized linear models via coordinate descent. Journal of Statistical Software, 33(1), 1–22
Bài báo Google Scholar
Friedman, M. (1937). The use of ranks to avoid the assumption of normality implicit in the analysis of variance. Journal of the American Statistical Association, 32(200), 675–701
Bài báo Google Scholar
Garnett, R. , Osborne, M. A. , & Roberts, S. J. (2010). Bayesian optimization for sensor set selection. In. Proceedings of the 9th ACM/IEEE international conference on information processing in sensor networks, (pp. 209–219)
Greasidou, E. (2017). Bias correction of the cross-validation performance estimate and speed up of its execution time. Master’s thesis, University of Crete, School of Sciences and Engineering, Computer Science Department
Guyon, I. , Alamdari, A. R. S. A. , Dror, G. , & Buhmann, J. M. (2006). Performance prediction challenge. In. The 2006 IEEE International Joint Conference on Neural Network Proceedings, (pp. 1649–1656). IEEE
Guyon, I. , Bennett, K. , Cawley, G. , Escalante, H. J. , Escalera, S. , Ho, T. K. , Macià, N. , Ray, B. , Saeed, M. , Statnikov, A. , & Viegas, E. (2015). Design of the 2015 ChaLearn AutoML Challenge. Trong. Proceedings of IJCNN
Guyon, I. , Gunn, S. , Ben-Hur, A. , & Dror, G. (2004). Result analysis of the NIPS 2003 feature selection challenge. Trong. Những tiến bộ trong hệ thống xử lý thông tin thần kinh, (trang. 545–552)
Harrell, F. e. , Califf, R. m. , Pryor, D. b. , Tỏi tây. L. , & Rosati, R. Một. (1982). Đánh giá kết quả xét nghiệm y học. Tạp chí của Hiệp hội Y khoa Hoa Kỳ, 247(18), 2543–2546
Bài báo Google Scholar
Iizuka, N. , được, M. , Yamada-Okabe, H. , Nishida, M. , Maeda, Y. , Mori, N. , et al. (2003). Oligonucleotide microarray để dự đoán sự tái phát sớm của ung thư biểu mô tế bào gan sau khi cắt bỏ thuốc chữa bệnh. Mũi giáo, 361(9361), 923–929
Bài báo Google Scholar
Jensen, Đ. Đ. , & Cohen, P. r. (2000). Nhiều phép so sánh trong thuật toán quy nạp. Học Máy, 38(3), 309–338
Bài báo Google Scholar
Jensen, J. L. W. V. (1906). Sur les fonctions lồies et les Inégalités entre les valeurs moyennes. Acta mathematica, 30(1), 175–193
Article MathSciNet Google Scholar
Kohavi, R. (1995). Một nghiên cứu về xác thực chéo và bootstrap để ước tính độ chính xác và lựa chọn mô hình. Ijcai, 14, 1137–1145
Google học giả
Krstajic, D. , Buturovic, L. J. , Leahy, D. e. , & Thomas, S. (2014). Cạm bẫy xác thực chéo khi lựa chọn và đánh giá mô hình hồi quy và phân loại. Tạp chí Hóa học, 6(1), 10
Bài báo Google Scholar
Krueger, T. , Pankinin, D. , & Braun, M. (2015). Xác thực chéo nhanh thông qua thử nghiệm tuần tự. Tạp chí Nghiên cứu Máy học, 16, 1103–1155
MathSciNet MATH Google Scholar
Lagani, V. , Athinou, G. , Farcomeni, A. , Tsagris, M. , & Tsamardinos, tôi. , et al. (2017). Lựa chọn tính năng với Gói R MXM. Khám phá các tập hợp con tính năng tương đương về mặt thống kê. Tạp chí phần mềm thống kê 80(i07)
Marón, O. , & Moore, A. W. (1994). cuộc đua hoeffding. Tăng tốc tìm kiếm lựa chọn mô hình để phân loại và xấp xỉ hàm. Trong. Những tiến bộ trong hệ thống xử lý thông tin thần kinh, (trang. 59–59)
Nankervis, J. C. (2005). Các thuật toán tính toán cho khoảng tin cậy bootstrap kép. Thống kê tính toán & Phân tích dữ liệu, 49(2), 461–475
Article MathSciNet Google Scholar
Orfanoudaki, G. , Markaki, M. , Chatzi, K. , Tsamardinos, tôi. , & Tiết kiệm, A. (2017). Trưởng thànhP. Dự đoán các protein được tiết ra với thông tin độc quyền từ các vùng trưởng thành của chúng. Báo cáo khoa học, 7(1), 3263
Bài báo Google Scholar
Salzberg, S. l. (1997). Về so sánh phân loại. Những cạm bẫy cần tránh và cách tiếp cận được khuyến nghị. Khai thác dữ liệu và khám phá tri thức, 1(3), 317–328
Bài báo Google Scholar
Schwarz, G. , et al. (1978). ước tính kích thước của một chế độ. Biên niên sử thống kê, 6(2), 461–464
Article MathSciNet Google Scholar
Seibold, H. , Bernau, C. , Boulesteix, A. L. , & De Bin, R. (2017). Về sự lựa chọn và ảnh hưởng của số lượng các bước tăng cường cho các mô hình cox tuyến tính chiều cao. Thống kê tính toán. https. //doi. tổ chức/10. 1007/s00180-017-0773-8
Bài báo Google Scholar
Simantirak, O. , Charonyktakis, P. , Pampouchido, A. , Tsiknakis, M. , & Cooke, M. (2017). Tính năng nguồn Glottal để đánh giá trầm cảm dựa trên giọng nói tự động. Kỷ yếu Đối thoại, 2017, 2700–2704
Bài báo Google Scholar
Snoek, J. , Larochelle, H. , & Adams, R. P. (2012). Tối ưu hóa Bayes thực tế của các thuật toán học máy. Trong. Những tiến bộ trong hệ thống xử lý thông tin thần kinh, (trang. 2951–2959)
Statnikov, A. , Aliferis, C. F. , Tsamardinos, tôi. , Hardin, D. , & Levy, S. (2005). Một đánh giá toàn diện về các phương pháp phân loại đa loại để chẩn đoán ung thư biểu hiện gen microarray. Tin sinh học, 21(5), 631–643
Bài báo Google Scholar
Tibshirani, R. (1996). Thu hẹp hồi quy và chọn lọc qua phương pháp hồi quy tuyến tính nhiều biến có hiệu chỉnh mô hình. Tạp chí của Hiệp hội Thống kê Hoàng gia. Series B (Phương pháp luận), 58(1), 267–288
MathSciNet MATH Google Scholar
Tibshirani, R. J. , & Tibshirani, R. (2009). Hiệu chỉnh sai lệch cho tỷ lệ lỗi tối thiểu trong xác thực chéo. Biên niên sử về thống kê ứng dụng, 3(2), 822–829
Article MathSciNet Google Scholar
Tsamardinos, tôi. , Rakhshani, A. , & Lagani, V. (2015). Các thuộc tính ước tính hiệu suất của các giao thức dựa trên xác thực chéo với tối ưu hóa siêu tham số đồng thời. Tạp chí Quốc tế về Công cụ Trí tuệ Nhân tạo, 24(05), 1540,023
Bài báo Google Scholar
Varma, S. , & Simon, R. (2006). Xu hướng trong ước tính lỗi khi sử dụng xác thực chéo để lựa chọn mô hình. Tin sinh học BMC, 7(1), 91
Bài báo Google Scholar
Witten, tôi. h. , & Frank, E. (2005). Khai thác dữ liệu. Các công cụ và kỹ thuật học máy thực tế. Burlington. Morgan Kaufmann
TOÁN Google Scholar
Witten, I. h. , Frank, E. , hội trường, M. Một. , & Pal, C. J. (2016). Khai thác dữ liệu. Các công cụ và kỹ thuật học máy thực tế. Burlington. Morgan Kaufmann
Google học giả
Yousefi, M. r. , Hứa, J. , & Dougherty, E. r. (2011). Xu hướng nhiều quy tắc trong so sánh các quy tắc phân loại. Tin sinh học, 27(12), 1675–1683
Bài báo Google Scholar
Zheng, A. X. , & Bilenko, M. (2013). Điều chỉnh siêu tham số được ghép nối lười biếng. Trong. IJCAI

Tải tài liệu tham khảo

Sự nhìn nhận

CNTT, EG và GB đã nhận được tài trợ từ Hội đồng nghiên cứu châu Âu theo Chương trình khung thứ bảy của Liên minh châu Âu (FP/2007-2013) / Thỏa thuận tài trợ ERC số. 617393. EG cũng nhận tài trợ từ dự án Toshiba. “Nghiên cứu khả thi đối với Thế hệ tiếp theo của Hệ thống tổng hợp văn bản thành giọng nói thống kê” và từ PC Phân tích dữ liệu Gnosis, Hy Lạp. Chúng tôi xin cảm ơn Michalis Tsagris, Pavlos Charoniktakis và Damjan Krstajic vì những phản hồi mang tính xây dựng

Author information

Ghi chú của tác giả

Ioannis Tsamardinos và Elissavet Greasidou đã đóng góp như nhau cho công việc này

Tác giả và Chi nhánh

Khoa Khoa học Máy tính, Đại học Crete và PC Phân tích Dữ liệu Gnosis, Heraklion, Hy Lạp
Ioannis Tsamardinos, Elissavet Greasidou & Giorgos Borboudakis

Authors

Ioannis Tsamardinos
Xem các ấn phẩm của tác giả
Bạn cũng có thể tìm kiếm tác giả này trong PubMed Google Scholar
Elissavet Greasidou
Xem các ấn phẩm của tác giả
Bạn cũng có thể tìm kiếm tác giả này trong PubMed Google Scholar
Giorgos Borboudakis
Xem các ấn phẩm của tác giả
Bạn cũng có thể tìm kiếm tác giả này trong PubMed Google Scholar

Đồng tác giả

Thư từ Elissavet Greasidou

Thông tin thêm

biên tập viên. Hendrik Blockeel

Quyền và quyền

Truy cập Mở Bài báo này được phân phối theo các điều khoản của Creative Commons Attribution 4. 0 Giấy phép quốc tế (http. //Commons sáng tạo. org/giấy phép/bởi/4. 0/), cho phép sử dụng, phân phối và sao chép không hạn chế ở bất kỳ phương tiện nào, miễn là bạn cung cấp tín dụng phù hợp cho (các) tác giả gốc và nguồn, cung cấp liên kết đến giấy phép Creative Commons và cho biết liệu các thay đổi có được thực hiện hay không

In lại và Quyền

Về bài viết này

Verify currency and authenticity via CrossMark

Trích dẫn bài viết này

Tsamardinos, tôi. , Greasidou, E. & Borboudakis, G. Khởi động các dự đoán ngoài mẫu để xác thực chéo hiệu quả và chính xác. Mạch Học 107, 1895–1922 (2018). https. //doi. tổ chức/10. 1007/s10994-018-5714-4

Bootstrapping có chính xác hơn không?

Mặc dù không thể biết khoảng tin cậy thực sự cho hầu hết các vấn đề, bootstrapping nhất quán về mặt tiệm cận và chính xác hơn so với việc sử dụng các khoảng chuẩn thu được bằng cách sử dụng phương sai mẫu và giả định về tính quy tắc< . ” (Cline).

Lợi thế của số liệu thống kê bootstrapping là gì?

Một lợi thế chính là bootstrapping không cần bạn đưa ra bất kỳ giả định nào về dữ liệu (chẳng hạn như tính quy tắc), bất kể .

Bootstrapping giúp ích gì?

Bootstrapping là một quy trình thống kê lấy mẫu lại một tập dữ liệu để tạo nhiều mẫu mô phỏng. Quá trình này cho phép bạn tính toán sai số chuẩn, xây dựng khoảng tin cậy và thực hiện kiểm tra giả thuyết cho nhiều loại thống kê mẫu .

Bootstrapping có làm giảm Overfitting không?

Bootstrap aggregating, còn được gọi là đóng gói (từ bootstrap aggregating), là một siêu thuật toán tập hợp máy học được thiết kế để cải thiện tính ổn định và độ chính xác của các thuật toán máy học được sử dụng trong phân loại và hồi quy thống kê. Nó cũng làm giảm phương sai và giúp tránh khớp quá mức .

programming bootstrap

Bootstrapping có tăng độ chính xác không?

Điểm nổi bật

trừu tượng

Làm việc trên một bản thảo?

Giới thiệu

Sơ bộ ước lượng ngoài mẫu

Xác thực chéo với điều chỉnh (CVT)

Giao thức xác thực chéo lồng nhau (NCV)

Giao thức Tibshirani và Tibshirani

The Bootstrap Bias Corrected Cross-Validation (BBC-CV)

Tính toán khoảng tin cậy với bootstrap

BCC-CV có lặp lại

Công việc có liên quan

Bootstrap Bias Corrected with Dropping Cross-Validation (BBCD-CV)

The BBCD-CV protocol

Công việc có liên quan

Empirical evaluation

nghiên cứu mô phỏng

Bias estimation

tập dữ liệu thực

Bias estimation

Relative performance and speed up of BBCD-CV

Multiple repeats

Confidence intervals

Discussion and conclusions

Notes

Người giới thiệu

Sự nhìn nhận

Author information

Tác giả và Chi nhánh

Đồng tác giả

Thông tin thêm

Quyền và quyền

Về bài viết này

Trích dẫn bài viết này

Bootstrapping có chính xác hơn không?

Lợi thế của số liệu thống kê bootstrapping là gì?

Bootstrapping giúp ích gì?

Bootstrapping có làm giảm Overfitting không?

Bài Viết Liên Quan

Quảng Cáo

Có thể bạn quan tâm

Toplist được quan tâm

Quảng cáo

Xem Nhiều

Quảng cáo

Chúng tôi

Điều khoản

Trợ giúp

Mạng xã hội