Nếu vấn đề nằm ở chỗ những bài kiểm tra này đo lường quá hẹp, thì liệu câu trả lời có phải là mở rộng phạm vi đánh giá để làm cho chúng phong phú hơn thay vì hoàn toàn bỏ chúng đi? Tương tự, nếu những lời chỉ trích xoay quanh tính khả thi hoặc tính minh bạch, thì liệu chúng ta có thể làm cho các bài kiểm tra trở nên khả thi và minh bạch hơn không? Quan trọng nhất, mặc dù các bài kiểm tra chuẩn hóa có thể không hoàn hảo, nhưng việc loại bỏ chúng có thực sự làm cho mọi thứ công bằng hơn hay kém hơn không? Nếu một trường học phục vụ cho các nhóm chưa được đại diện không biết học sinh của họ đang gặp khó khăn ở đâu và như thế nào, thì làm sao họ có thể bắt đầu khắc phục vấn đề? Liệu có tốt hơn cho giáo viên, học sinh và gia đình khi không biết những điểm yếu của họ? Cuối cùng, những thiếu sót này sẽ xuất hiện bất kể. Điều này có thể xảy ra nhiều năm sau, ở đại học hoặc trong lực lượng lao động, khi mà việc khắc phục trở nên khó khăn hơn sau nhiều năm tụt lại phía sau. Tôi muốn nghĩ về cách chúng ta có thể cải thiện các bài kiểm tra chuẩn hóa hơn là cố gắng loại bỏ chúng hoàn toàn. Các giải pháp đã tồn tại ngay cả trước khi có trí tuệ nhân tạo (AI – artificial intelligence) sinh ra. Hãy xem xét lời chỉ trích rằng không có nhiều điều mà giáo viên có thể làm với kết quả bài kiểm tra chuẩn hóa. Vâng, nếu các đánh giá có thể cung cấp thông tin cho một nền tảng phần mềm để thực hành cá nhân hóa – ví dụ, cho phép học sinh làm việc để khắc phục những điểm yếu khác nhau dựa trên dữ liệu bài kiểm tra chuẩn hóa – thì thông tin trở nên khả thi. Theo thời gian, phần mềm thực hành cá nhân hóa sẽ hiểu được các đánh giá trước đó của một học sinh và cung cấp cho học sinh đó những gợi ý cụ thể hơn. Khan Academy thực tế đã làm điều này cho một số bài kiểm tra chuẩn hóa trong nhiều năm qua. Nghĩa là, chúng tôi sử dụng thông tin từ bài kiểm tra chuẩn hóa để phân biệt tốt hơn việc thực hành trong lớp học, cải thiện kết quả học tập của học sinh. Trong một nghiên cứu với hơn ba trăm nghìn học sinh sử dụng điểm số bài kiểm tra chuẩn hóa để thông báo về thực hành cá nhân hóa trên nền tảng của chúng tôi, “các học sinh tham gia . . . trong năm học 2021–22 với liều lượng khuyến nghị là hơn 30 phút mỗi tuần đã vượt qua dự đoán tăng trưởng từ 26% đến 38%, tùy thuộc vào lớp học.” Các đánh giá chuẩn hóa liên tục trong khi học sinh đang học cũng tránh việc lấy đi thời gian giảng dạy quý giá. Mỗi bài tập trên nền tảng của chúng tôi đều được chuẩn hóa, và chúng tôi có hàng triệu điểm dữ liệu về cách học sinh từ các cấp độ lớp học và nhóm nhân khẩu khác nhau thực hiện trên đó. Thay vì chỉ để học sinh làm một bài kiểm tra tổng kết nhà nước truyền thống một hoặc hai lần mỗi năm, họ có thể thường xuyên thực hành kỹ năng của mình trên nền tảng của chúng tôi. Giáo viên sau đó có thể sử dụng dữ liệu được tạo ra để đo lường việc học của học sinh theo cách chuẩn hóa. Điều này cung cấp một cái nhìn chính xác và thường xuyên hơn về cách một học sinh đang thực hiện. Dữ liệu đó sau đó trở nên khả thi bằng cách thúc đẩy các gợi ý học tập cho học sinh. Loại đánh giá liên tục này cung cấp các điểm dữ liệu chất lượng cao hơn trên cơ sở thường xuyên hơn. Trong khi các bài kiểm tra chuẩn hóa truyền thống có thể bao gồm từ năm mươi đến một trăm câu hỏi một hoặc hai lần mỗi năm, các đánh giá liên tục có thể thu thập được nhiều thông tin như vậy mỗi tuần mà không khiến học sinh cảm thấy như đó là một đánh giá riêng biệt. Cách tiếp cận này cũng giải quyết vấn đề động lực học sinh: bạn có khả năng quan tâm hơn nếu việc thực hành hàng ngày của bạn cũng đang đánh giá bạn theo cách chuẩn hóa một cách âm thầm, vì công việc đó ảnh hưởng đến tiến trình lớp học và điểm số của bạn. Nhiều lo lắng chính trị về các đánh giá và những gì đang xảy ra trong lớp học là do các bên liên quan bên ngoài như phụ huynh và chính trị gia không thể trực tiếp quan sát những gì học sinh đang trải qua. Thay vào đó, họ dựa vào các thông tin từ người khác, có thể không hoàn toàn chính xác, hoặc họ không hiểu cách các tiêu chuẩn cao cấp thể hiện cụ thể trong một bài kiểm tra hoặc lớp học. Sự thiếu minh bạch và linh hoạt của các đánh giá chuẩn hóa truyền thống xuất phát từ cả chi phí tạo ra các câu hỏi đánh giá và thực tế là chúng phải được bảo mật; nếu bất kỳ câu hỏi nào bị rò rỉ, toàn bộ bài đánh giá có thể trở nên vô hiệu. Mặt khác, nếu bạn có các nền tảng trực tuyến dễ dàng truy cập mà đánh giá một cách thích ứng từ một kho câu hỏi lớn – hãy nghĩ đến hàng trăm ngàn câu hỏi – bạn có thể để nhiều bên liên quan thử nghiệm bài đánh giá bất cứ khi nào họ muốn mà không làm suy yếu nó. Điều này bởi vì một bài đánh giá thích ứng sẽ cung cấp cho mỗi học sinh một chuỗi câu hỏi khác nhau dựa trên cách họ thực hiện trên các câu hỏi trước đó. Thật khó để hai học sinh thấy cùng một bộ câu hỏi. Trí tuệ nhân tạo (AI – artificial intelligence) sinh ra có tiềm năng giúp với tất cả điều này. Các mô hình ngôn ngữ lớn vẫn chưa đủ tốt để tạo ra các câu hỏi đánh giá chất lượng cao hoàn toàn một mình, nhưng chúng có thể giúp một người viết hoặc người xem xét câu hỏi trở nên hiệu quả hơn. Cuối cùng, điều này sẽ cho phép chúng tôi sản xuất nhiều câu hỏi hơn với cùng một nguồn lực, tạo ra một làn sóng mới của các đánh giá minh bạch và dễ tiếp cận hơn. Điều này vẫn để lại câu hỏi về cách làm sâu sắc và mở rộng các kỹ năng mà các đánh giá chuẩn hóa có thể đo lường. Trong khi các câu hỏi trắc nghiệm hoặc nhập số có thể giúp bạn khá xa khi đánh giá một số loại kỹ năng, chúng không thực sự có thể nắm bắt được bạn viết tốt như thế nào, tương tác với một vấn đề ra sao, hoặc suy nghĩ sáng tạo như thế nào. Lịch sử cho thấy, những nhiệm vụ tinh vi hơn này đã quá tốn kém để đánh giá rộng rãi. Để đánh giá ngay cả những câu hỏi mở cơ bản, bạn cần những người đánh giá chuyên gia làm việc với các tiêu chí và hệ thống phức tạp để đảm bảo tính nhất quán. Các đánh giá phong phú giống như một buổi bảo vệ luận án cho một bằng tiến sĩ hoặc một cuộc phỏng vấn xin việc từ trước đến nay đã không thể thực hiện ở quy mô lớn. Điều này sắp thay đổi. Thế hệ mới nhất của các mô hình ngôn ngữ lớn có tiềm năng cho phép chúng tôi thực hiện loại đánh giá phong phú này một cách kinh tế và phổ biến. Hãy xem xét việc đọc hiểu: Ngày nay, học sinh đọc một đoạn văn và sau đó trả lời một vài câu hỏi trắc nghiệm dựa trên đó. Những câu hỏi này có thể hỏi về ý định của tác giả, tiếp theo là bốn lựa chọn. Trong những năm tới, chúng ta sẽ ngày càng thấy các đánh giá sử dụng trí tuệ nhân tạo (AI – artificial intelligence) sinh ra để thu hút học sinh về quan điểm của họ hoặc ý định của tác giả mà không cần đến các lựa chọn. Nó sẽ yêu cầu học sinh chỉ cần viết hoặc nói suy nghĩ của họ, và trí tuệ nhân tạo (AI – artificial intelligence) sẽ có thể đánh giá phản hồi đó một cách nhất quán. Còn tốt hơn nữa, nó sẽ có thể tham gia vào một cuộc trò chuyện với học sinh về lý do tại sao họ cảm thấy như vậy và thảo luận về bằng chứng mà họ đang dựa vào. Toàn bộ bài đánh giá sẽ giống như một cuộc trò chuyện linh hoạt, rộng rãi với một người hướng dẫn chu đáo, đồng cảm và thú vị.
Giải thích ELI5:
– Bài kiểm tra chuẩn hóa: Là những bài kiểm tra giống nhau cho tất cả học sinh, giúp so sánh kết quả giữa các trường khác nhau.
– Trí tuệ nhân tạo (AI): Là công nghệ giúp máy tính học hỏi và làm việc giống như con người.
– Đánh giá liên tục: Là việc kiểm tra học sinh thường xuyên, không chỉ một hoặc hai lần trong năm.
Giải thích thuật ngữ khó hiểu:
– Đánh giá chuẩn hóa (standardized assessments): Là những bài kiểm tra được thiết kế giống nhau cho tất cả học sinh để có thể so sánh kết quả.
– Trí tuệ nhân tạo (AI – artificial intelligence): Là công nghệ cho phép máy tính thực hiện các nhiệm vụ mà thường cần trí thông minh của con người.
– Thực hành cá nhân hóa (personalized practice): Là việc học sinh được thực hành theo những điểm mạnh và yếu riêng của mình.
– Mô hình ngôn ngữ lớn (large language models): Là những chương trình máy tính có khả năng hiểu và tạo ra ngôn ngữ giống như con người.
Một số phần có thể liên quan đến việc đóng vai hoặc cố gắng làm một mô phỏng. Nó không nhất thiết phải tách biệt với việc học. Cùng một gia sư AI (trí tuệ nhân tạo) có mặt để giúp bạn cũng sẽ thu thập bằng chứng về những gì bạn biết và không biết. Điều này vượt ra ngoài ngôn ngữ và khả năng đọc hiểu. Trong toán học, AI có thể yêu cầu học sinh giải thích lý do của họ hoặc phát triển một chứng minh. Trong khoa học, nó có thể đánh giá khả năng của học sinh trong việc thiết kế một thí nghiệm hoặc phê bình một bài nghiên cứu, có thể nói là hai yếu tố mạnh mẽ nhất để trở thành một nhà khoa học. Các mô phỏng do AI điều khiển có thể đánh giá kỹ năng giải quyết vấn đề của học sinh. Khi AI có khả năng thị giác ngày càng cao, nó sẽ có thể phê bình và đánh giá các tác phẩm trực quan, hình ảnh hoặc video của một bài thuyết trình. Tất nhiên, việc sử dụng AI để đánh giá có thể khiến mọi người lo ngại. Điều gì sẽ xảy ra nếu AI có những thiên kiến (bias) mà không rõ ràng ngay lập tức? Điều gì sẽ xảy ra nếu nó mắc sai lầm? Tôi cố gắng so sánh loại giả thuyết này với tình trạng hiện tại. Các đánh giá hiện tại được viết bởi những con người suy nghĩ nhưng cũng có thể mắc sai lầm với những thiên kiến riêng của họ. Chúng ta đã biết rằng nếu không tận dụng AI, chúng ta đang giới hạn bản thân vào một loại đánh giá hẹp hơn, có thể nói là làm nổi bật thiên kiến về việc ưu tiên các kỹ năng dễ đo lường hơn những kỹ năng khó đo lường nhưng có thể quan trọng hơn. Lịch sử cho thấy, khi chúng ta có thể thực hiện các đánh giá phong phú hơn, như trong các buổi bảo vệ luận án tiến sĩ hoặc phỏng vấn xin việc, chúng thường không nhất quán và chứa nhiều thiên kiến hơn bất kỳ kỳ thi chuẩn hóa nào hiện tại. AI sinh ra cho phép chúng ta kết hợp những điều tốt nhất từ cả hai thế giới: tiêu chuẩn hóa và quy mô với sự phong phú và tinh tế. Nhờ khả năng tiếp cận tiềm năng của nó, các bên liên quan sẽ dễ dàng hơn trong việc thử nghiệm và kiểm tra nó. Tôi không nói rằng chúng ta nên mù quáng cho rằng bất kỳ đánh giá AI nào cũng sẽ tốt. Thực tế, tôi lo ngại rằng nhiều người sẽ tạo ra những đánh giá rất tồi tệ, đầy thiên kiến. Tuy nhiên, tôi cũng tin rằng với sự chăm sóc, minh bạch và các biện pháp bảo vệ thích hợp, chúng ta có thể giảm thiểu rủi ro và phát triển các đánh giá phong phú, chính xác và công bằng hơn so với những gì chúng ta có hôm nay. Điều này sẽ có những hậu quả tích cực cho hệ thống giáo dục nói chung, mở lại góc nhìn về điều gì tạo nên một nền giáo dục chất lượng. Bằng cách đo lường các kỹ năng lâu nay được cho là không thể đo lường, như giao tiếp, sáng tạo và sự tò mò, nó sẽ tự nhiên thúc đẩy hệ thống quan tâm nhiều hơn đến việc phát triển toàn diện con người.
AI trong Tuyển sinh Đại học
Các yếu tố cổ điển được xem xét trong tuyển sinh đại học là điểm số, các bài kiểm tra chuẩn hóa, hoạt động ngoại khóa, bài luận và thư giới thiệu. AI sẽ thay đổi cách mà hầu hết, nếu không muốn nói là tất cả, các yếu tố này được đánh giá, phát triển và xem xét. Tôi đã lập luận rằng AI sinh ra sẽ biến đổi công việc học tập và chấm điểm trong lớp học; học sinh sẽ có thể thực hiện các bài tập phong phú hơn, và giáo viên sẽ có nhiều hỗ trợ hơn trong việc chấm điểm chúng. Tôi cũng đã thảo luận về cách mà đánh giá chuẩn hóa có khả năng thay đổi. Đánh giá sẽ sâu sắc hơn, liên tục hơn và không thể tách rời khỏi việc học. Theo thời gian, hoặc các bài kiểm tra chuẩn hóa như SAT và ACT sẽ đi theo hướng này, hoặc các đánh giá mới sẽ xuất hiện để tận dụng cơ hội này. Ngoài hoạt động ngoại khóa, các yếu tố còn lại—bài luận và thư giới thiệu—đều liên quan đến việc viết. Đây là nơi rõ ràng nhất mà các mô hình ngôn ngữ lớn đặt ra một số câu hỏi đạo đức rất lớn. Giáo viên và cố vấn học đường có thể sử dụng AI sinh ra để viết thư giới thiệu của họ. Học sinh có khả năng sử dụng các mô hình ngôn ngữ lớn để tạo ra các bài luận nghe có vẻ ấn tượng mà không phản ánh đúng khả năng viết hoặc sự sáng tạo thực sự của họ. Điều này đặt ra thách thức cho các viên chức tuyển sinh trong việc đánh giá chính xác tính hợp lệ của công việc của các ứng viên. Tuy nhiên, các trưởng phòng tuyển sinh tại các trường đại học hàng đầu cho tôi biết rằng sự xuất hiện của AI sinh ra chỉ đơn giản làm nổi bật những bất công mà họ đã biết từ lâu trước khi các mô hình ngôn ngữ lớn xuất hiện. Lấy ví dụ về vụ bê bối Varsity Blues. Đây là một trường hợp mà các bậc phụ huynh nổi tiếng giàu có đã trả hàng trăm nghìn đô la để thuê một huấn luyện viên tuyển sinh đại học không đạo đức, người không chỉ viết bài luận xin học mà còn đi xa đến mức hoàn toàn bịa đặt các hoạt động ngoại khóa, bao gồm cả hình ảnh. Mặc dù đây là một ví dụ cực đoan, nhưng một ngành công nghiệp hoàn toàn tồn tại xung quanh các huấn luyện viên tuyển sinh đại học mà chỉ các gia đình giàu có mới có thể đủ khả năng. Mức giá ở Silicon Valley, nơi tôi sống, khoảng bốn trăm đô la mỗi giờ cho các huấn luyện viên hàng đầu. Điều này có thể lên tới hàng chục nghìn đô la để hỗ trợ một học sinh trong một chu kỳ tuyển sinh đại học. Những huấn luyện viên này làm gì? Những người có đạo đức hơn sẽ tư vấn cho học sinh cách tiếp cận các hoạt động ngoại khóa và chủ đề bài luận, giúp các gia đình suy nghĩ về các lựa chọn trường đại học tốt, và cung cấp phản hồi chu đáo cho các bản nháp bài luận ban đầu. Ở phía không đạo đức hơn, họ có thể chỉnh sửa bài luận của học sinh đến mức họ thực sự viết nó cho học sinh. Dù bằng cách nào, những học sinh giàu có này nhận được sự hỗ trợ đáng kể. Ngay cả khi họ không thuê huấn luyện viên, nhiều gia đình này có rất nhiều kiến thức nội bộ về quy trình tuyển sinh đại học phức tạp và sử dụng nó để giúp con cái họ có lợi thế. Các công cụ như ChatGPT rõ ràng dễ tiếp cận hơn nhiều cho một nhóm người rộng lớn mà trước đây không thể đủ khả năng thuê các huấn luyện viên tuyển sinh đại học đắt tiền. Và giống như những huấn luyện viên này, AI sinh ra có thể được sử dụng cho các mục đích đạo đức và không đạo đức, cũng như mọi thứ ở giữa. Nó đã mở ra cánh cửa cho mọi người tham gia vào khu vực xám về đạo đức mà trước đây chỉ là lĩnh vực của những người giàu có. Điều tương tự có khả năng xảy ra khi nói đến thư giới thiệu. Các huấn luyện viên tuyển sinh đắt tiền không thể viết thư giới thiệu, nhưng các cố vấn học đường và giáo viên phục vụ cho học sinh giàu có thường có nhiều kiến thức hơn về cách giúp học sinh của họ có cơ hội tốt nhất để được nhận vào đại học. Các trường học giàu có cũng thường có lớp học nhỏ hơn, nơi giáo viên và cố vấn học đường có thể hiểu học sinh của họ tốt hơn và có nhiều thời gian hơn để dành cho thư giới thiệu của từng học sinh. Giờ đây, người viết thư giới thiệu có thể làm việc với các công cụ AI sinh ra để diễn đạt tốt hơn sức mạnh của một ứng viên.
Giải thích ELI5:
– AI (trí tuệ nhân tạo): Là máy tính có khả năng học hỏi và làm việc giống như con người. Ví dụ, giống như một người bạn thông minh giúp bạn làm bài tập.
– Thiên kiến (bias): Là khi một người hoặc một máy tính có ý kiến không công bằng về một điều gì đó. Ví dụ, nếu một người chỉ thích một màu sắc và không thích màu khác mà không có lý do rõ ràng.
– Đánh giá chuẩn hóa: Là các bài kiểm tra giống nhau mà tất cả học sinh phải làm để xem ai học tốt hơn. Ví dụ, bài kiểm tra toán giống nhau cho tất cả học sinh lớp 5.
Giải thích thuật ngữ khó hiểu:
– Mô hình ngôn ngữ lớn: Là một loại AI được thiết kế để hiểu và tạo ra văn bản giống như con người.
– Tuyển sinh đại học: Là quá trình mà các trường đại học chọn học sinh để nhận vào học.
– Hoạt động ngoại khóa: Là các hoạt động mà học sinh tham gia ngoài giờ học chính thức, như thể thao, nghệ thuật hoặc câu lạc bộ.