Merge branch 'x86-mce-for-linus' of git://git.kernel.org/pub/scm/linux/kernel/git...
authorLinus Torvalds <torvalds@linux-foundation.org>
Thu, 22 Mar 2012 16:42:04 +0000 (09:42 -0700)
committerLinus Torvalds <torvalds@linux-foundation.org>
Thu, 22 Mar 2012 16:42:04 +0000 (09:42 -0700)
Pull MCE changes from Ingo Molnar.

* 'x86-mce-for-linus' of git://git.kernel.org/pub/scm/linux/kernel/git/tip/tip:
  x86/mce: Fix return value of mce_chrdev_read() when erst is disabled
  x86/mce: Convert static array of pointers to per-cpu variables
  x86/mce: Replace hard coded hex constants with symbolic defines
  x86/mce: Recognise machine check bank signature for data path error
  x86/mce: Handle "action required" errors
  x86/mce: Add mechanism to safely save information in MCE handler
  x86/mce: Create helper function to save addr/misc when needed
  HWPOISON: Add code to handle "action required" errors.
  HWPOISON: Clean up memory_failure() vs. __memory_failure()

1  2 
include/linux/mm.h
mm/memory-failure.c

diff --combined include/linux/mm.h
index ee67e326b6f8bc277ea5b9a6972077491f2b688c,3dc8f6b687217962e973ee99e6b8ea7b3140d034..7330742e797325e6c55c3c3027518e6ed7e53aeb
@@@ -893,9 -893,9 +893,9 @@@ struct page *vm_normal_page(struct vm_a
  
  int zap_vma_ptes(struct vm_area_struct *vma, unsigned long address,
                unsigned long size);
 -unsigned long zap_page_range(struct vm_area_struct *vma, unsigned long address,
 +void zap_page_range(struct vm_area_struct *vma, unsigned long address,
                unsigned long size, struct zap_details *);
 -unsigned long unmap_vmas(struct mmu_gather *tlb,
 +void unmap_vmas(struct mmu_gather *tlb,
                struct vm_area_struct *start_vma, unsigned long start_addr,
                unsigned long end_addr, unsigned long *nr_accounted,
                struct zap_details *);
@@@ -1040,9 -1040,6 +1040,9 @@@ static inline int stack_guard_page_end(
                !vma_growsup(vma->vm_next, addr);
  }
  
 +extern pid_t
 +vm_is_stack(struct task_struct *task, struct vm_area_struct *vma, int in_group);
 +
  extern unsigned long move_page_tables(struct vm_area_struct *vma,
                unsigned long old_addr, struct vm_area_struct *new_vma,
                unsigned long new_addr, unsigned long len);
@@@ -1061,20 -1058,19 +1061,20 @@@ int __get_user_pages_fast(unsigned lon
  /*
   * per-process(per-mm_struct) statistics.
   */
 -static inline void set_mm_counter(struct mm_struct *mm, int member, long value)
 -{
 -      atomic_long_set(&mm->rss_stat.count[member], value);
 -}
 -
 -#if defined(SPLIT_RSS_COUNTING)
 -unsigned long get_mm_counter(struct mm_struct *mm, int member);
 -#else
  static inline unsigned long get_mm_counter(struct mm_struct *mm, int member)
  {
 -      return atomic_long_read(&mm->rss_stat.count[member]);
 -}
 +      long val = atomic_long_read(&mm->rss_stat.count[member]);
 +
 +#ifdef SPLIT_RSS_COUNTING
 +      /*
 +       * counter is updated in asynchronous manner and may go to minus.
 +       * But it's never be expected number for users.
 +       */
 +      if (val < 0)
 +              val = 0;
  #endif
 +      return (unsigned long)val;
 +}
  
  static inline void add_mm_counter(struct mm_struct *mm, int member, long value)
  {
@@@ -1131,9 -1127,9 +1131,9 @@@ static inline void setmax_mm_hiwater_rs
  }
  
  #if defined(SPLIT_RSS_COUNTING)
 -void sync_mm_rss(struct task_struct *task, struct mm_struct *mm);
 +void sync_mm_rss(struct mm_struct *mm);
  #else
 -static inline void sync_mm_rss(struct task_struct *task, struct mm_struct *mm)
 +static inline void sync_mm_rss(struct mm_struct *mm)
  {
  }
  #endif
@@@ -1295,6 -1291,8 +1295,6 @@@ extern void get_pfn_range_for_nid(unsig
  extern unsigned long find_min_pfn_with_active_regions(void);
  extern void free_bootmem_with_active_regions(int nid,
                                                unsigned long max_low_pfn);
 -int add_from_early_node_map(struct range *range, int az,
 -                                 int nr_range, int nid);
  extern void sparse_memory_present_with_active_regions(int nid);
  
  #endif /* CONFIG_HAVE_MEMBLOCK_NODE_MAP */
@@@ -1600,9 -1598,9 +1600,9 @@@ void vmemmap_populate_print_last(void)
  
  enum mf_flags {
        MF_COUNT_INCREASED = 1 << 0,
+       MF_ACTION_REQUIRED = 1 << 1,
  };
- extern void memory_failure(unsigned long pfn, int trapno);
- extern int __memory_failure(unsigned long pfn, int trapno, int flags);
+ extern int memory_failure(unsigned long pfn, int trapno, int flags);
  extern void memory_failure_queue(unsigned long pfn, int trapno, int flags);
  extern int unpoison_memory(unsigned long pfn);
  extern int sysctl_memory_failure_early_kill;
diff --combined mm/memory-failure.c
index c22076ffdd44283a07a9a8f0fde2567654f44302,0f6033b01ffc23f23adf7fd43caeaac1d2aa96f4..97cc2733551ad29bfed762a448c65676be21c415
@@@ -187,33 -187,40 +187,40 @@@ int hwpoison_filter(struct page *p
  EXPORT_SYMBOL_GPL(hwpoison_filter);
  
  /*
-  * Send all the processes who have the page mapped an ``action optional''
-  * signal.
+  * Send all the processes who have the page mapped a signal.
+  * ``action optional'' if they are not immediately affected by the error
+  * ``action required'' if error happened in current execution context
   */
- static int kill_proc_ao(struct task_struct *t, unsigned long addr, int trapno,
-                       unsigned long pfn, struct page *page)
+ static int kill_proc(struct task_struct *t, unsigned long addr, int trapno,
+                       unsigned long pfn, struct page *page, int flags)
  {
        struct siginfo si;
        int ret;
  
        printk(KERN_ERR
-               "MCE %#lx: Killing %s:%d early due to hardware memory corruption\n",
+               "MCE %#lx: Killing %s:%d due to hardware memory corruption\n",
                pfn, t->comm, t->pid);
        si.si_signo = SIGBUS;
        si.si_errno = 0;
-       si.si_code = BUS_MCEERR_AO;
        si.si_addr = (void *)addr;
  #ifdef __ARCH_SI_TRAPNO
        si.si_trapno = trapno;
  #endif
        si.si_addr_lsb = compound_trans_order(compound_head(page)) + PAGE_SHIFT;
-       /*
-        * Don't use force here, it's convenient if the signal
-        * can be temporarily blocked.
-        * This could cause a loop when the user sets SIGBUS
-        * to SIG_IGN, but hopefully no one will do that?
-        */
-       ret = send_sig_info(SIGBUS, &si, t);  /* synchronous? */
+       if ((flags & MF_ACTION_REQUIRED) && t == current) {
+               si.si_code = BUS_MCEERR_AR;
+               ret = force_sig_info(SIGBUS, &si, t);
+       } else {
+               /*
+                * Don't use force here, it's convenient if the signal
+                * can be temporarily blocked.
+                * This could cause a loop when the user sets SIGBUS
+                * to SIG_IGN, but hopefully no one will do that?
+                */
+               si.si_code = BUS_MCEERR_AO;
+               ret = send_sig_info(SIGBUS, &si, t);  /* synchronous? */
+       }
        if (ret < 0)
                printk(KERN_INFO "MCE: Error sending signal to %s:%d: %d\n",
                       t->comm, t->pid, ret);
@@@ -338,8 -345,9 +345,9 @@@ static void add_to_kill(struct task_str
   * Also when FAIL is set do a force kill because something went
   * wrong earlier.
   */
- static void kill_procs_ao(struct list_head *to_kill, int doit, int trapno,
-                         int fail, struct page *page, unsigned long pfn)
+ static void kill_procs(struct list_head *to_kill, int doit, int trapno,
+                         int fail, struct page *page, unsigned long pfn,
+                         int flags)
  {
        struct to_kill *tk, *next;
  
                         * check for that, but we need to tell the
                         * process anyways.
                         */
-                       else if (kill_proc_ao(tk->tsk, tk->addr, trapno,
-                                             pfn, page) < 0)
+                       else if (kill_proc(tk->tsk, tk->addr, trapno,
+                                             pfn, page, flags) < 0)
                                printk(KERN_ERR
                "MCE %#lx: Cannot send advisory machine check signal to %s:%d\n",
                                        pfn, tk->tsk->comm, tk->tsk->pid);
@@@ -844,7 -852,7 +852,7 @@@ static int page_action(struct page_stat
   * the pages and send SIGBUS to the processes if the data was dirty.
   */
  static int hwpoison_user_mappings(struct page *p, unsigned long pfn,
-                                 int trapno)
+                                 int trapno, int flags)
  {
        enum ttu_flags ttu = TTU_UNMAP | TTU_IGNORE_MLOCK | TTU_IGNORE_ACCESS;
        struct address_space *mapping;
         * use a more force-full uncatchable kill to prevent
         * any accesses to the poisoned memory.
         */
-       kill_procs_ao(&tokill, !!PageDirty(ppage), trapno,
-                     ret != SWAP_SUCCESS, p, pfn);
+       kill_procs(&tokill, !!PageDirty(ppage), trapno,
+                     ret != SWAP_SUCCESS, p, pfn, flags);
  
        return ret;
  }
@@@ -984,7 -992,25 +992,25 @@@ static void clear_page_hwpoison_huge_pa
                ClearPageHWPoison(hpage + i);
  }
  
- int __memory_failure(unsigned long pfn, int trapno, int flags)
+ /**
+  * memory_failure - Handle memory failure of a page.
+  * @pfn: Page Number of the corrupted page
+  * @trapno: Trap number reported in the signal to user space.
+  * @flags: fine tune action taken
+  *
+  * This function is called by the low level machine check code
+  * of an architecture when it detects hardware memory corruption
+  * of a page. It tries its best to recover, which includes
+  * dropping pages, killing processes etc.
+  *
+  * The function is primarily of use for corruptions that
+  * happen outside the current execution context (e.g. when
+  * detected by a background scrubber)
+  *
+  * Must run in process context (e.g. a work queue) with interrupts
+  * enabled and no spinlocks hold.
+  */
+ int memory_failure(unsigned long pfn, int trapno, int flags)
  {
        struct page_state *ps;
        struct page *p;
         * The check (unnecessarily) ignores LRU pages being isolated and
         * walked by the page reclaim code, however that's not a big loss.
         */
 -      if (!PageHuge(p) && !PageTransCompound(p)) {
 +      if (!PageHuge(p) && !PageTransTail(p)) {
                if (!PageLRU(p))
                        shake_page(p, 0);
                if (!PageLRU(p)) {
         * Now take care of user space mappings.
         * Abort on fail: __delete_from_page_cache() assumes unmapped page.
         */
-       if (hwpoison_user_mappings(p, pfn, trapno) != SWAP_SUCCESS) {
+       if (hwpoison_user_mappings(p, pfn, trapno, flags) != SWAP_SUCCESS) {
                printk(KERN_ERR "MCE %#lx: cannot unmap page, give up\n", pfn);
                res = -EBUSY;
                goto out;
@@@ -1156,29 -1182,7 +1182,7 @@@ out
        unlock_page(hpage);
        return res;
  }
- EXPORT_SYMBOL_GPL(__memory_failure);
- /**
-  * memory_failure - Handle memory failure of a page.
-  * @pfn: Page Number of the corrupted page
-  * @trapno: Trap number reported in the signal to user space.
-  *
-  * This function is called by the low level machine check code
-  * of an architecture when it detects hardware memory corruption
-  * of a page. It tries its best to recover, which includes
-  * dropping pages, killing processes etc.
-  *
-  * The function is primarily of use for corruptions that
-  * happen outside the current execution context (e.g. when
-  * detected by a background scrubber)
-  *
-  * Must run in process context (e.g. a work queue) with interrupts
-  * enabled and no spinlocks hold.
-  */
- void memory_failure(unsigned long pfn, int trapno)
- {
-       __memory_failure(pfn, trapno, 0);
- }
+ EXPORT_SYMBOL_GPL(memory_failure);
  
  #define MEMORY_FAILURE_FIFO_ORDER     4
  #define MEMORY_FAILURE_FIFO_SIZE      (1 << MEMORY_FAILURE_FIFO_ORDER)
@@@ -1251,7 -1255,7 +1255,7 @@@ static void memory_failure_work_func(st
                spin_unlock_irqrestore(&mf_cpu->lock, proc_flags);
                if (!gotten)
                        break;
-               __memory_failure(entry.pfn, entry.trapno, entry.flags);
+               memory_failure(entry.pfn, entry.trapno, entry.flags);
        }
  }