Cải thiện đào tạo AI cho chuỗi thời gian cảm biến cạnh

news7f11/25/2022

1 11 minutes read

Cải thiện đào tạo AI cho chuỗi thời gian cảm biến cạnh

Tận dụng tối đa: Cải thiện đào tạo AI cho chuỗi thời gian cảm biến cạnh — Tổng quan về phương pháp tăng cường dữ liệu được đề xuất. Tín dụng: Viện Công nghệ Tokyo

Các kỹ sư tại Viện Công nghệ Tokyo (Tokyo Tech) đã trình diễn một phương pháp tính toán đơn giản để cải thiện cách thức phân loại trí tuệ nhân tạo, chẳng hạn như mạng lưới thần kinh, có thể được đào tạo dựa trên lượng dữ liệu cảm biến hạn chế. Các ứng dụng mới nổi của Internet of Things thường yêu cầu các thiết bị cạnh có thể phân loại hành vi và tình huống một cách đáng tin cậy dựa trên chuỗi thời gian.

Tuy nhiên, dữ liệu đào tạo rất khó và tốn kém để có được. Phương pháp đề xuất hứa hẹn sẽ tăng đáng kể chất lượng đào tạo người phân loại mà hầu như không phải trả thêm chi phí.

Trong thời gian gần đây, triển vọng có một số lượng lớn cảm biến Internet of Things (IoT) giám sát một cách lặng lẽ và siêng năng vô số khía cạnh của hoạt động của con người, tự nhiên và máy móc đã có cơ sở. Khi xã hội của chúng ta ngày càng khao khát dữ liệu, các nhà khoa học, kỹ sư và chiến lược gia ngày càng hy vọng rằng thông tin chi tiết bổ sung mà chúng ta có thể rút ra từ quá trình giám sát phổ biến này sẽ cải thiện chất lượng và hiệu quả của nhiều quy trình sản xuất, đồng thời giúp cải thiện tính bền vững.

Thế giới mà chúng ta đang sống vô cùng phức tạp và sự phức tạp này được phản ánh trong vô số biến số khổng lồ mà các cảm biến IoT có thể được thiết kế để theo dõi. Một số là tự nhiên, chẳng hạn như lượng ánh sáng mặt trời, độ ẩm hoặc chuyển động của động vật, trong khi một số khác là nhân tạo, chẳng hạn như số lượng ô tô băng qua giao lộ hoặc lực tác dụng lên một cấu trúc treo như cầu.

Điểm chung của các biến này là chúng phát triển theo thời gian, tạo ra cái được gọi là chuỗi thời gian và thông tin có ý nghĩa đó dự kiến sẽ chứa trong những thay đổi không ngừng của chúng. Trong nhiều trường hợp, các nhà nghiên cứu quan tâm đến việc phân loại một tập hợp các điều kiện hoặc tình huống được xác định trước dựa trên những thay đổi tạm thời này, như một cách để giảm lượng dữ liệu và làm cho nó dễ hiểu hơn.

Ví dụ, đo lường mức độ thường xuyên phát sinh một điều kiện hoặc tình huống cụ thể thường được coi là cơ sở để phát hiện và tìm hiểu nguồn gốc của sự cố, sự gia tăng ô nhiễm, v.v.

Một số loại cảm biến đo các biến tự thay đổi rất chậm theo thời gian, chẳng hạn như độ ẩm. Trong những trường hợp như vậy, có thể truyền từng thông số đọc riêng lẻ qua mạng không dây đến máy chủ đám mây, nơi diễn ra quá trình phân tích một lượng lớn dữ liệu tổng hợp. Tuy nhiên, ngày càng có nhiều ứng dụng yêu cầu các biến số đo lường thay đổi khá nhanh, chẳng hạn như gia tốc theo dõi hành vi của động vật hoặc hoạt động hàng ngày của con người.

Do nhiều lần đọc mỗi giây thường được yêu cầu nên việc truyền dữ liệu thô không dây trở nên không thực tế hoặc không thể thực hiện được do hạn chế về năng lượng khả dụng, phí dữ liệu và băng thông ở các địa điểm xa. Để khắc phục vấn đề này, các kỹ sư trên khắp thế giới từ lâu đã tìm kiếm những cách thông minh và hiệu quả để đưa các khía cạnh phân tích dữ liệu ra khỏi đám mây và đưa vào chính các nút cảm biến.

Điều này thường được gọi là cạnh trí tuệ nhân tạo, hoặc cạnh AI. Nói chung, ý tưởng là gửi không dây không phải bản ghi thô mà là kết quả của thuật toán phân loại tìm kiếm các điều kiện hoặc tình huống quan tâm cụ thể, dẫn đến lượng dữ liệu hạn chế hơn nhiều từ mỗi nút.

Tuy nhiên, có rất nhiều thách thức phải đối mặt. Một số là vật lý và xuất phát từ nhu cầu lắp một bộ phân loại tốt trong một không gian và trọng lượng thường khá hạn chế, đồng thời thường làm cho nó chạy bằng một lượng điện năng rất nhỏ để có thể đạt được thời lượng pin dài.

Tiến sĩ cho biết: “Các giải pháp kỹ thuật tốt cho những yêu cầu này đang xuất hiện hàng ngày, nhưng thách thức thực sự kìm hãm nhiều giải pháp trong thế giới thực lại là một vấn đề khác. Độ chính xác của phân loại thường không đủ tốt và xã hội đòi hỏi những câu trả lời đáng tin cậy để bắt đầu tin tưởng vào một công nghệ”. Hiroyuki Ito, người đứng đầu Đơn vị Cảm biến Nano, nơi tiến hành nghiên cứu.

“Nhiều ứng dụng điển hình của trí tuệ nhân tạo như ô tô tự lái đã chỉ ra rằng mức độ tốt hay kém của một bộ phân loại nhân tạo phụ thuộc rất nhiều vào chất lượng của dữ liệu được sử dụng để đào tạo nó. Tuy nhiên, thông thường, dữ liệu chuỗi thời gian của cảm biến là thực sự đòi hỏi khắt khe và tốn kém để có được trong lĩnh vực này. Ví dụ, xem xét việc theo dõi hành vi của gia súc, để có được nó, các kỹ sư cần phải dành thời gian tại các trang trại, đo lường từng con bò và nhờ các chuyên gia kiên nhẫn chú thích hành vi của chúng dựa trên các đoạn video”, đồng tác giả Tiến sĩ cho biết thêm. Korkut Kaan Tokgoz, trước đây thuộc cùng đơn vị nghiên cứu và hiện thuộc Đại học Sabanci ở Thổ Nhĩ Kỳ.

Do dữ liệu đào tạo rất quý giá, các kỹ sư đã bắt đầu xem xét các cách mới để tận dụng tối đa lượng dữ liệu khá hạn chế có sẵn để đào tạo các thiết bị AI tiên tiến. Một xu hướng quan trọng trong lĩnh vực này là sử dụng các kỹ thuật được gọi là “tăng cường dữ liệu”, trong đó một số thao tác, được coi là hợp lý dựa trên kinh nghiệm, được áp dụng cho dữ liệu được ghi lại để thử và bắt chước tính biến thiên và sự không chắc chắn có thể gặp phải trong các ứng dụng thực tế.

“Ví dụ, trong công việc trước đây của chúng tôi, chúng tôi đã mô phỏng vòng quay không thể đoán trước của vòng cổ có chứa cảm biến gia tốc quanh cổ của một con bò được giám sát và nhận thấy rằng dữ liệu bổ sung được tạo theo cách này thực sự có thể cải thiện hiệu suất trong phân loại hành vi,” giải thích Cô Chao Li, nghiên cứu sinh và là tác giả chính của nghiên cứu.

“Tuy nhiên, chúng tôi cũng nhận ra rằng chúng tôi cần một cách tiếp cận tổng quát hơn nhiều để tăng cường chuỗi thời gian cảm biến, về nguyên tắc có thể được sử dụng cho bất kỳ loại dữ liệu nào và không đưa ra các giả định cụ thể về điều kiện đo lường. Hơn nữa, trong các tình huống thực tế, thực sự có hai vấn đề, liên quan nhưng khác biệt. Thứ nhất là lượng dữ liệu đào tạo tổng thể thường bị hạn chế. Thứ hai là một số tình huống hoặc điều kiện xảy ra thường xuyên hơn nhiều so với những tình huống hoặc điều kiện khác và điều này là không thể tránh khỏi. Ví dụ, bò chi tiêu tự nhiên nhiều thời gian nghỉ ngơi hoặc ngẫm nghĩ hơn là uống rượu.”

“Tuy nhiên, việc đo lường chính xác các hành vi ít thường xuyên hơn là khá cần thiết để đánh giá đúng tình trạng phúc lợi của động vật. Một con bò không uống rượu chắc chắn sẽ không chịu nổi, mặc dù độ chính xác của việc phân loại uống rượu có thể có tác động thấp đến các phương pháp huấn luyện thông thường do tính chất của nó hiếm. Đây được gọi là vấn đề mất cân bằng dữ liệu,” cô nói thêm.

Nghiên cứu điện toán được thực hiện bởi các nhà nghiên cứu tại Tokyo Tech và mục tiêu ban đầu là cải thiện việc giám sát hành vi của gia súc đã đưa ra một giải pháp khả thi cho những vấn đề này, bằng cách kết hợp hai phương pháp rất khác nhau và bổ sung cho nhau. Phương pháp đầu tiên được gọi là lấy mẫu và bao gồm việc trích xuất các “đoạn trích” của chuỗi thời gian tương ứng với các điều kiện được phân loại luôn bắt đầu từ các thời điểm khác nhau và ngẫu nhiên.

Số lượng đoạn mã được trích xuất được điều chỉnh cẩn thận, đảm bảo rằng một đoạn mã luôn có số lượng đoạn mã xấp xỉ như nhau trên tất cả các hành vi được phân loại, bất kể mức độ phổ biến hay hiếm gặp của chúng. Điều này dẫn đến một tập dữ liệu cân bằng hơn, được ưu tiên hơn làm cơ sở để đào tạo bất kỳ bộ phân loại nào, chẳng hạn như mạng thần kinh.

Vì quy trình dựa trên việc chọn các tập hợp con của dữ liệu thực tế, nên sẽ an toàn trong việc tránh tạo ra các thành phần lạ có thể xuất phát từ việc tổng hợp một cách giả tạo các đoạn mã mới để bù đắp cho các hành vi ít được đại diện hơn. Dữ liệu thứ hai được gọi là dữ liệu thay thế và liên quan đến một quy trình số rất hiệu quả để tạo ra, từ bất kỳ chuỗi thời gian hiện có nào, bất kỳ chuỗi thời gian mới nào bảo tồn một số tính năng chính, nhưng hoàn toàn không tương quan.

“Sự kết hợp có đạo đức này hóa ra lại rất quan trọng, bởi vì việc lấy mẫu có thể gây ra nhiều sự trùng lặp của cùng một dữ liệu, khi một số hành vi nhất định quá hiếm so với các hành vi khác. Dữ liệu thay thế không bao giờ giống nhau và ngăn chặn vấn đề này, vốn có thể ảnh hưởng rất tiêu cực quá trình đào tạo. Và một khía cạnh quan trọng của công việc này là việc tăng cường dữ liệu được tích hợp với quá trình đào tạo, do đó, các dữ liệu khác nhau luôn được trình bày trên mạng trong suốt quá trình đào tạo của nó,” ông Jim Bartels, đồng tác giả và nghiên cứu sinh giải thích tại đơn vị.

Chuỗi thời gian thay thế được tạo ra bằng cách xáo trộn hoàn toàn các giai đoạn của một hoặc nhiều tín hiệu, do đó khiến chúng hoàn toàn không thể nhận ra khi các thay đổi của chúng theo thời gian được xem xét. Tuy nhiên, sự phân bố của các giá trị, tự tương quan và nếu có nhiều tín hiệu, tương quan chéo, được bảo toàn hoàn hảo.

“Trong một nghiên cứu khác trước đây, chúng tôi nhận thấy rằng nhiều phép toán thực nghiệm như đảo ngược và kết hợp lại chuỗi thời gian thực sự đã giúp cải thiện quá trình đào tạo. Khi các phép toán này thay đổi nội dung phi tuyến tính của dữ liệu, sau đó chúng tôi đã lập luận rằng loại tính năng tuyến tính được giữ lại trong quá trình thay thế bà Chao Li giải thích thêm.

“Phương pháp thay thế chuỗi thời gian bắt nguồn từ một lĩnh vực hoàn toàn khác, cụ thể là nghiên cứu về động lực học phi tuyến tính trong các hệ thống phức tạp như não bộ, trong đó chuỗi thời gian như vậy được sử dụng để giúp phân biệt hành vi hỗn loạn với tiếng ồn. Bằng cách tập hợp các trải nghiệm khác nhau của mình, chúng tôi nhanh chóng nhận ra rằng chúng cũng có thể hữu ích cho ứng dụng này,” Tiến sĩ Ludovico Minati, tác giả thứ hai của nghiên cứu và cũng thuộc Đơn vị Cảm biến Nano, cho biết thêm.

“Tuy nhiên, cần phải hết sức thận trọng vì không có hai kịch bản ứng dụng nào giống nhau và những gì đúng đối với chuỗi thời gian phản ánh hành vi của bò có thể không hợp lệ đối với các cảm biến khác theo dõi các loại động lực học khác nhau. Trong bất kỳ trường hợp nào, sự sang trọng của đề xuất phương pháp là nó khá cần thiết, đơn giản và chung chung. Do đó, các nhà nghiên cứu khác sẽ dễ dàng nhanh chóng thử nghiệm nó với các vấn đề cụ thể của họ,” ông nói thêm.

Sau cuộc phỏng vấn này, nhóm giải thích rằng loại nghiên cứu này trước hết sẽ được áp dụng để cải thiện việc phân loại các hành vi của gia súc, mục đích ban đầu của nó và đơn vị đang tiến hành nghiên cứu đa ngành với sự hợp tác của các trường đại học và công ty khác.

“Một trong những mục tiêu chính của chúng tôi là chứng minh thành công độ chính xác cao trên một thiết bị nhỏ, rẻ tiền có thể theo dõi một con bò trong suốt cuộc đời của nó, cho phép phát hiện bệnh sớm và do đó thực sự cải thiện không chỉ phúc lợi động vật mà còn cả hiệu quả và tính bền vững của trang trại. ” Tiến sĩ Hiroyuki Ito kết luận. Phương pháp và kết quả được báo cáo trong một bài báo gần đây đăng trên tạp chí Tạp chí cảm biến IEEE.

Thêm thông tin:
Chao Li et al, Tăng cường dữ liệu tích hợp cho chuỗi thời gian gia tốc kế trong nhận dạng hành vi: Vai trò của lấy mẫu, cân bằng và thay thế Fourier, Tạp chí cảm biến IEEE (2022). DOI: 10.1109/JSEN.2022.3219594

Chao LI và cộng sự, Phương pháp tăng cường dữ liệu cho các hệ thống ước tính hành vi của bò bằng cách sử dụng dữ liệu gia tốc 3 trục và công nghệ mạng thần kinh, Giao dịch IEICE về Nguyên tắc cơ bản của Khoa học Điện tử, Truyền thông và Máy tính (2021). DOI: 10.1587/transfun.2021SMP0003

Chao Li et al, Tăng cường dữ liệu cho dữ liệu cảm biến quán tính trong CNN để phân loại hành vi gia súc, Chữ cảm biến IEEE (2021). DOI: 10.1109/LSENS.2021.3119056

Cung cấp bởi
Viện Công nghệ Tokyo

trích dẫn: Tận dụng tối đa từ ít: Cải thiện hoạt động đào tạo AI cho chuỗi thời gian của cảm biến cạnh (2022, ngày 25 tháng 11) được truy xuất ngày 25 tháng 11 năm 2022 từ https://techxplore.com/news/2022-11-ai-edge-sensor-series.html

Tai liệu nay la chủ thể để co quyên tac giả. Ngoài bất kỳ giao dịch công bằng nào cho mục đích học tập hoặc nghiên cứu riêng tư, không phần nào được phép sao chép mà không có sự cho phép bằng văn bản. Nội dung được cung cấp chỉ phục vụ cho mục đích thông tin.